开源项目哪家强?硅谷风投总结的最火的25个开源项目排名

编者按

今天,投资过Google,Oracle,Salesforce,Linkedin等公司的硅谷传奇风险投资机构Battery Ventures在TechCrunch上发布了自己对热门开源项目和开源社区的研究和思考,并且从几个不同角度综合为40个最流行的开源项目进行了排名

当今很多最新最热面向企业的技术核心都是免费“开源”的技术。于是很多大公司,从金融巨头到零售也到服务公司,都把他们的业务围绕着全新的,基于社区的技术,这些技术与过去的IT实践的天壤之别。

不过企业客户和投资者们要如何评估这些开源项目呢?他们如何分别哪些项目(通常有这奇怪的名字:Ansible,Vagrant,Gradle)能产生最多的用户使用趋势?哪些被最多的软件开发者追捧,哪些又有最多的市场份额潜力?

这些问题尤其难回答,因为大部分开源公司依然是私有公司,所以并不需要披露关键的用户和财务数据(不过这一点也正在改变,开源剧透Cloudera最近公布了上市计划,此举让市场更加注意开源技术)

这也是为什么我们决定创建一个新的,详尽的指数来跟踪流行的开源软件项目,同时得到一些关于使用这些开源技术的公司的洞察。我们引入这个被称为Battery开源软件指数(BOSS Index)的指数,为之我们花了数月的时间公开的信息整理好。我们希望每季度更新这个指数,而且它随着更多的使用这些项目开源公司上市,这个指数会变得越来越准确。

指数包含了40个开源项目,都是从Github和Datamation的开源项目列表中挑选出来。前25位在下面的表中,全部列表可以在我们的网站上找到。

我们着重关注企业级IT相关的领域,诸如IT运营,包括技术驱动的运营和服务开通系统;数据和分析,包括人工智能,机器学习和数据库的相关工具;DevOps,包括关注最新的“容器”技术趋势,这种技术可以帮助开发者在指定的环境中快速开发。

THE BATTERY OPEN-SOURCE SOFTWARE INDEX
排名 项目名 综合项目评分 领域 相关公司 源代码阅读
1 Linux 100.00 IT Operations Red Hat, Ubuntu
2 Git 31.10 DevOps GitHub, GitLab
3 MySQL 25.23 Data & Analytics Oracle
4 Node.js 22.75 DevOps NodeSource, Rising Stack
5 Docker 22.61 DevOps Docker
6 Hadoop 16.19 Data & Analytics Cloudera, Hortonworks
7 Elasticsearch 15.72 Data & Analytics Elastic
8 Spark 14.99 Data & Analytics Databricks
9 MongoDB 14.68 Data & Analytics MongoDB
10 Selenium 12.81 DevOps Sauce Labs, BrowserStack
11 NPM 12.31 DevOps NPM
12 Redis 11.61 Data & Analytics Redis Labs
13 Tomcat 11.04 IT Operations NA
14 Jenkins 10.47 DevOps CloudBees
15 Vagrant 8.15 IT Operations HashiCorp
16 Postgres 8.02 Data & Analytics EnterpriseDB
17 Gradle 7.68 DevOps Gradle
18 Nginx 7.57 IT Operations Nginx
19 Ansible 7.42 IT Operations Ansible
20 Kafka 7.22 Data & Analytics Confluent
21 GitLab 6.42 DevOps GitLab
22 Hbase 6.41 Data & Analytics Cloudera, Hortonworks
23 Chef 6.37 IT Operations Chef*
24 TensorFlow 5.97 Data & Analytics Google
25 Cassandra 5.74 Data & Analytics DataStax

名单中有一些众所周知的名字,包括那些催生了一些大公司的项目,有Linux,衍生出了Red Hat;MySQL,衍生出了同名公司,这家公司后来被Sun Microsystems在2008年以10亿美元收购(现在被Oracle并购了);以及Hadoop,衍生出了Cloudera和Hortonworks。

不过也有些较为陌生的名字,比如Selenium,也排名很高,说明在开源社区中有很多草根的创新而且很多也在孕育新的公司。不过,我们的研究也表明,开源项目拥有很多用户并不一定代表也可以有商业上可行的公司。

我们按照以下四点为这些项目排名:

  • 公众兴趣,以Google搜索活动来衡量
  • 用户活跃度,以项目在注明技术讨论社区Stack Overflow上被提到的次数衡量
  • 职业影响力,以工作网站Indeed和Simply Hired上提到这些开源项目的工作数量来衡量
  • 开源社区中的影响力,以项目在Github上的影响力来衡量。具体说,我们追踪了项目被“分支”的数量;被Github上标星的数量;以及被观察的数量,数据更新到2017年2月9日。

因为有些项目在某一点上做的极好,或者极差 - 比如有个项目有这傲视群雄的Google搜索数据但是职位数量却不怎么样 - 我们去掉了每个项目最好和最差的单项得分。这种统计方法被叫做“切尾均值”,有点类似于奥运会上体操项目的打分(我们团队里并没有东德裁判,但是我们还是得小心点)

编者注:这里原文作者提到的梗的是1988年汉城奥运会上美国体操队受到了来自东德的裁判的不公待遇

即便如此,我们总还是有进步的空间。有些采纳度和流行度的标准,比如下载数量,显然很难衡量,而且我们也肯定没有抓到所有的最新最热的工具。不过随着我们每季度更新数据,我们应该能捕捉到最新的行业领袖。所有我们希望慢慢能从开源社区中听取意见来提高我们的指数。如果你对指数有更好的想法欢迎邮件到opensource@battery.com

下面是基于我们研究的一些重要的结论.

Linux, Git和MySQL傲视群雄

应该不太让人惊讶,在我们的指数上夺冠的开源项目是Linux,这个1991年被第一次发布从此成为最被广泛采纳的开源项目之一。它被几家公司商业化了,其中包括Red Hat,为数不多的几家上市的开源公司,以及Ubuntu和SUSE。

我们的第二名Git,激发了Github和Gitlab两家公司的出现。这个及其流行的开源项目是一种“版本控制系统”,用来追踪变动和协调软件开发者之间的工作。

高居第三位的MySQL是一个1995年被开发的开源技术。MySQL目前帮助Google,Facebook和Twitter这样的大型Web端铲平的公司。不过要注意的是有一些“NoSQL”的项目也排名靠前。

这些NoSQL的技术包括MongoDB,排名第九,正在被Redis Labs商业化的Redis排名12;Cassandra排名25,被数据库公司DataStax所支持; Elasticsearch在第七位,目前在被Elastic公司商业化。

MongoDB在2015年末进行了最新一轮融资 - 公司现在估值大概是15亿美金 - 现在正跟像甲骨文,IBM和微软这样的巨头在数据库领域竞争。总的来说,这几个NoSQL的供应商都在彼此独立的成长,而不是合并成一个大的系统。这也预示着今后数据基础架构领域会更加碎片化,几个NoSQL领域的强者在未来也能成为上市公司。

大数据驱动开源

随着很多机构都在努力管理海量的结构化和非机构化数据 -- 由从安全软件到tweet到工厂中联网的传感器产生 -- 它们日益需要新的数据管理和存储系统。这个趋势在我们的Index中也有所体现。40个项目中有15个都是帮助数据库和数据处理的项目。

前面提到的Hadoop就是这样的项目。另一个是被Databricks正在商业化的Spark,排名第8。

另一些值得一提的项目
Other names to know

Docker,容器技术领域的宠儿,能帮助软件开发更快更有效,在我们的指数中排名第五。很多人都认为Docker是巨头VMware的可能替代者,而且Docker能够容易又廉价的在开源社区中使用更是加速了它的采用。

Docker也在和诸如排名第33的Google的Kubernetes,以及软件开发中的制编配层的Mesos正在竞争。

另一个很热的开源方向是“持续集成和持续交付”,一种将开发的代码不断的和别的平台整合的能力。这个领域的工具包括Jenkins,目前正被CloudBee商业化,以及TravisCI。同样在DevOps相关的技术包括Maven(排名30),以及高速成长的二进制管理软件Artifactory,正在被JFrog商业化。

商业化之路

正如我们之前所说,用户数量众多虽然对于最终取得商业增长至关重要,但并不一定保证开源项目就一定能变成好的商业项目。好的商业项目还需要更多的工作和创新,特别是需要创造出新的商业模式;合理利用复杂的开源许可证;对传统的企业销售时间做出适合开源项目的调整,正如我们去年在TechCrunch上讨论过的一样。

另外,我们发现如果基于开源项目的IT企业能提供多种开源技术并且把他们组成一个技术栈,那么这些企业商业成功就会增加。比如Elastic就有“ELK”技术栈,包括开源的Elasticsearch(排名第7),Kibana(排名36),和Logstash(排名29)

时间序列数据库公司InfluxData,类似的也有TICK技术栈,代表Telegraf,InfluxDB,Chronograh和Kapacitor。最后一个例子是DevOps公司HashiCorp,也商业化了很多开源项目,包括我们名单上的Vagrant(排名15)和Vault(排名40)。软件开发者喜欢从这些技术栈中选取他们最喜欢的组件,这也和当今软件开发领域的“最佳组合”思路相契合。

这些开源项目不再是你父辈的Sun或者甲骨文这样的公司。不过很清楚的一点是,跨国公司的CIO们,包括我们在名单里提到的一些,需要依靠这些开源技术来运行他们的技术架构,而且这些项目都是会长期存在的。确实,从我们去年举办的开源峰会来看,从高盛到CapitalOne的IT高管们都纷纷表示他们的“开源为先”态度。而随着接下来几年开源公司们纷纷上市,我们能得到更多的这些领先的项目的表现和对于产业的影响。