Cloudera正在重建机器学习方法

宽客网,量化投资,宽客俱乐部
                                    作者:Derrick Harris

翻译:岳辰       校对: 陈洁(转载请保留)

摘要:Cloudera目前正在进行一个名叫Oryx的开源项目,旨在将机器学习的方法代入Hadoop,而这个早些时候Apache Mahout做过类似的尝试都以失败告终。

当Hadoop软件的卖方Cloudera在去年收购一家总部在伦敦的公司Myrrix时,他们并没有大肆宣传。他们也没有将之后公司在机器学习技术方面的成就带入公众的视线里。而公司的技术以及她的创始人,Sean Owen,却很可能成为一笔非常可观的资产。

在公司里头衔为数据科学师的Owen,目前正致力于开发一个名叫Oryx的开源机器学习项目。(Oryx原意为一种非洲羚羊,而Cloudera另一款产品Impala原意也是一种非洲羚羊。)Oryx项目的目标是能帮助Hadoop用户建立机器学习模型,这样用户就能通过利用这些模型实时查询并输出结果,比如过滤垃圾邮件或者向用户推荐有用的信息等。最好Oryx还能支持边读数据边自我更新的模型。

Owen将这称之为Hadoop传统的探索性数据分析与运算分析之间的差异。他说:“一旦我能对我们网站上面的诈骗问题进行建模,我就一定能做出什么来。我们不仅能在Hadoop进行大数据建模,还可以大规模应用这些模型。”

作为在Hadoop上建立机器学习模型的传统途径的Apache Mahout,被Owen称为“已走到穷途末路”。它目前处在仅能进行批量处理的第一代MapReduce的瓶颈,这就需要用户进行大量的操作同时也需要合适的工作系统。Owen说:“Myrrix其实就是我希望Mahout所成为的样子。”他补充道,“如果当初Mahout能做得很好的话,他们就不会在这寻求Myrrix了。其实Oryx中90%的代码都来自于Myrrix,剩下的才是由Cloudera完成的。”

一个既开源又简易的推荐系统,谁想试试?

与建立一整套机器学习算法库不同,Owen真正想做的只是四个核心问题:回归,分类,聚类以及协同筛选(也就是推荐系统)。Owen说上述四个问题中当下最热门的当属最后一个协同筛选的问题,于是他与一些Cloudera的一些顾客一起在使用Oryx写推荐系统。事实上,80%的Oryx使用者都在试图建立推荐系统。

将Oryx变成一个建立推荐系统的标准化工具会使得这个项目变得非常热门。尽管推荐系统对于一些热门网站如Netflix以及Amazon等都已是家常便饭,但是建立推荐系统标准化的开源工具缺少的可怜。

虽说这不是一场竞赛,但是其他的公司目前也在试图将推荐系统标准化。举例来说,云计算的新兴公司Mortar Data目前正与15家其他拥有顶级数据分析师的公司联手建立标准化推荐系统。这个项目于去年启动,它希望通过改善开源推荐系统的框架来带来更好的实用性。而其他一些公司如Expert Labs虽不打算将推荐系统开源化,但也试图通过人工智能API来搭建自动推荐系统。

仍只是一个实验项目,还非产品

Owen认为,所有的Cloudera用户(以及大多数Hadoop用户)最终都会想要使用操作性强的机器学习系统,并不仅仅限于系统给予推荐。而Oryx就能成为一款帮助大家实现这个愿望的工具。不过他也说道:“现阶段,这仍还是实验项目阶段。”

举个例子来说,目前Owen还在Apache Spark项目上花大量时间,因为他想通过重写Oryx来使得Spark成为首要的处理框架而非MapReduce。“其实如果从机器学习的角度看,Spark绝对是更有趣,”他说道:“所以我宁愿把精力多放在Spark上。”

Owen 并不是一个人在战斗。就像我们刚才说的,Spark正在成为下一代大数据应用的一个越来越热的的选择。Cloudera和Hortonworks也都把Spark当作Hadoop未来的一个重要组成部分。Cloudera的首席执行官Tom Reilly将会在三月份和其他很多大数据公司的首席执行官,数据分析师以及首席信息官们一起,在结构数据会议上探讨Hadoop平台的未来(包括Spark在其中的作用), 以及机器学习在商业和社会学上的实际应用。

不过,虽说前景良好,Owen并不认为Oryx能很快出现在Cloudera,Hadoop的生产线上。“顾客想要的是良好的建议,服务以及培训,这都需要把Oryx变成一款软件,”他说,而现在:“我们离着目标还很远。”

“就目前对大多数Hadoop的消费者而言,说拥抱数据科学还为时尚早,”他补充道:“更不用说那些操作性强的即时机器学习方法了。”

英文原文请点击阅读原文

【今日推荐】

ZTalk@ 青龙老贼ID:ztalk由WeMedia自媒体联盟创始人青龙老贼运营,一个爱思考懂执行的自媒体人,喜欢分享移动互联网趋势、产品、技术和自己,烟和咖啡是最好的伴侣,带给你一个与众不同的长腿欧巴!

简七读财ID:jane7ducai让理财简单起来
数据分析, 数据挖掘


风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部