欢迎访问 中国直播网!遇见美好,记录事实!Meet the good, record the facts!

中国直播网微博  直播网微博   网站地图   商标版权注册证   直播号入驻

BAT 在下一盘大棋?盘点:国内四大机器学习开源平台

2017-01-11 10:04来源:编辑:轩皓宇
BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台
2015-2016 的机器学习平台开源大潮中,美国是当之无愧的引领者:无论是谷歌、亚马逊、微软、IBM 等互联网巨头,还是美国各大科研院所,为开源世界贡献了品类繁多的机器学习工具。这其中不乏华人的身影,比如开发出 Caffe 的贾杨清。

但在大陆这边,无论是 BAT 还是学界,在开源机器学习项目上始终慢了一拍,令人十分遗憾。这与我国世界最大 AI 研究者社区、占据 AI 科研领域半壁江山的江湖地位*颇为不符。让人欣喜的是,2016 下半年,百度和腾讯先后发布了它们的开源平台战略。虽然姗姗来迟,但作为下半场入场的选手,它们的开源平台各自有什么意义?本文中,作为机器学习开源项目盘点的第三弹,我们将与你一起看看包括百度腾讯平台在内的国内四大开源项目。

*注:据创新工场人工智能工程院王咏刚副院长统计,我国 AI 发文数与引用文章数居世界第一,占世界总数一半以上。

1. 百度:希望获得开发者青睐的 “PaddlePaddle”

 

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

 

2016 年 9 月 1 日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。

其实,PaddlePaddle 的开发与应用已经有段时日:它源自于 2013 年百度深度学习实验室创建的 “Paddle”。当时的深度学习框架大多只支持单 GPU 运算,对于百度这样需要对大规模数据进行处理的机构,这显然远远不够,极大拖慢了研究速度。百度急需一种能够支持多 GPU、多台机器并行计算的深度学习平台。而这就导致了 Paddle 的诞生。自 2013 年以来,Paddle 一直被百度内部的研发工程师们所使用。

而 Paddle 的核心创始人,当年的百度深度学习实验室研究员徐伟,现在已是 PaddlePaddle 项目的负责人。

 

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

 

徐伟

对了,从 “Paddle” 到 “PaddlePaddle” 的命名还有一个小插曲:Paddle 是“Parallel Distributed Deep Learning”的缩写,意为“并行分布式深度学习”。而去年 9 月发布时,吴恩达认为 “PaddlePaddle” (英语意为划船——“让我们荡起双~昂~桨,小船儿推开波浪。。。”)其实更郎朗上口、更好记,于是就有了这么个可爱的名字。

那么,PaddlePaddle 有什么特点?

支持多种深度学习模型 DNN(深度神经网络)、CNN(卷积神经网络)、 RNN(递归神经网络),以及 NTM 这样的复杂记忆模型。

基于 Spark,与它的整合程度很高。
支持 Python 和 C++ 语言。
支持分布式计算。作为它的设计初衷,这使得 PaddlePaddle 能在多 GPU,多台机器上进行并行计算。

相比现有深度学习框架,PaddlePaddle 对开发者来说有什么优势?

首先,是易用性。

相比偏底层的谷歌 TensorFlow,PaddlePaddle 的特点非常明显:它能让开发者聚焦于构建深度学习模型的高层部分。项目负责人徐伟介绍:

“在PaddlePaddle的帮助下,深度学习模型的设计如同编写伪代码一样容易,设计师只需关注模型的高层结构,而无需担心任何琐碎的底层问题。未来,程序员可以快速应用深度学习模型来解决医疗、金融等实际问题,中国直播网,让人工智能发挥出最大作用。”

抛开底层编码,使得 TensorFlow 里需要数行代码来实现的功能,可能在 PaddlePaddle 里只需要一两行。徐伟表示,中国直播网,用 PaddlePaddle 编写的机器翻译程序只需要“其他”深度学习工具四分之一的代码。这显然考虑到该领域广大的初入门新手,为他们降低开发机器学习模型的门槛。这带来的直接好处是,开发者使用 PaddlePaddle 更容易上手。

其次,是更快的速度。

如上所说,PaddlePaddle 上的代码更简洁,用它来开发模型显然能为开发者省去一些时间。这使得 PaddlePaddle 很适合于工业应用,尤其是需要快速开发的场景。

另外,自诞生之日起,它就专注于充分利用 GPU 集群的性能,为分布式环境的并行计算进行加速。这使得在 PebblePebble 上,用大规模数据进行 AI 训练和推理可能要比 TensorFlow 这样的平台要快很多。

 

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

 

说到这里,业内对 PaddlePaddle 怎么看?

首先不得不提的是 Caffe,许多资深开发者认为 PaddlePaddle 的设计理念与 Caffe 十分相似,怀疑是百度对标 Caffe 开发出的替代品。这有点类似于谷歌 TensorFlow 与 Thano 之间的替代关系。

知乎上,Caffe 的创始人贾杨清对 PaddlePaddle 评价道:

"很高质量的GPU代码"
"非常好的RNN设计"
"设计很干净,没有太多的 abstraction,这一点比 TensorFlow 好很多"
"设计思路有点老"
"整体的设计感觉和 Caffe ‘心有灵犀’,同时解决了Caffe早期设计当中的一些问题”

最后,贾表示 PaddlePaddle 的整体架构功底很深,是下了功夫的。这方面,倒是赢得了开发者的普遍认同。

总结起来,业内对 PaddlePaddle 的总体评价是“设计干净、简洁,稳定,速度较快,显存占用较小”。

但是,具有这些优点,不保证 PaddlePaddle 就一定能在群雄割据的机器学习开源世界占有一席之地。有国外开发者表示, PaddlePaddle 的最大优点是快。但是,比 TensorFlow 快的开源框架其实有很多:比如 MXNet,Nervana System 的 Neon,以及三星的 Veles,它们也都对分布式计算都很好的支持,但都不如 TensorFlow 普及程度高。这其中有 TensorFlow 庞大用户基础的原因,也得益于谷歌自家 AI 系统的加持。

百度的 AI 产品能够对普及 PaddlePaddle 产生多大的帮助,尚需观察。我们获知,它已经应用于百度旗下的多项业务。百度表示:

#p#分页标题#e#

“PaddlePaddle 已在百度30多项主要产品和服务之中发挥着巨大的作用,如外卖的预估出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、字符识别(OCR)、病毒和垃圾信息检测、机器翻译和自动驾驶等领域。”

最后,我们来看看对于自家推出的 PaddlePaddle,李彦宏怎么说:

 

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

 

“经过了五六年的积累,PaddlePaddle实际上是百度深度学习算法的引擎,把源代码开放出来,让同学们、让社会上所有的年轻人能够学习,在它的基础上进行改进,我相信他们会发挥出来他们的创造力,去做到很多我们连想都没有想过的东西。”

特别声明:本文为中国直播网直播号作者或机构上传并发布,仅代表该作者或机构观点,不代表中国直播网的观点或立场,中国直播网仅提供信息发布平台。
       版权声明:版权归著作权人,转载仅限于传递更多信息,如来源标注错误侵害了您的权利,请来邮件通知删除,一起成长谢谢
       欢迎加入:直播号,开启无限创作!一个敢纰漏真实事件,说真话的创作分享平台,一个原则:只要真实,不怕事大,有线索就报料吧!申请直播号请用电脑访问https://zbh.zhibotv.com.cn。    

标签:
相关资讯
热门频道

热门标签

CopyRight 2014-2024 中国直播网(直播网)ZhiBoTv.Com.Cn(中國直播網有限公司)| 本站取得授权享有第17448205号“直播网”商标注册证 | 中国直播网投稿公邮:news@newsgo.com

直播网网站所登载资讯、图集、视频等内容,版权归直播号自媒体平台原作者或投稿人所有,投稿视为本站原创首发,刊发或转载仅限传播目的非本网观点,未经授权请勿转载或商业用途。

特别声明:中国直播网仅提供平台运营服务,不提供任何上传发布服务,中国直播网尊重知识产权保护,侵权反馈:fawu@newsgo.com 直播网撤稿函下载 如有侵权请来邮告知,我们收到后会尽快处理答复。 Powered by EyouCms 备案号:吉ICP备2023004346号-1