董老师开讲了：系列一之大数据入门

2015-01-19 11:23:00

宽客网,量化投资,宽客俱乐部

此外，Spark 也是一个生态系统，除核心组建 Spark，它也可以跑在 Hadoop 上，还提供了很多方便的库，比如做流式计算，Spark Streaming，比如 GraphX 做图的运算，MLBase 做机器学习，Shark 类似 Hive，BinkDB 也很有意思，为达到高效，它允许你提供一个误差概率，如果你要求精确度越低，它运算速度就越快，在做一些模糊计算时像 Twitter 的 Follower 数目，可以提高效率。

所以总体说，Spark 是一个非常精炼的 API，提供常用的集合操作，然后本身可以独立运行，或在 Hadoop Yarn 上面，或者 Mesos，而存储也可以用 HDFS，做到了兼容并包，敏捷高效。是不是会取代 Hadoop 或成为 Hadoop 的下一代核心，我们拭目以待！

如何学习大数据

那同学们如果问如何开始学习大数据，我也有一些建议，首先还是打好基础，Hadoop 虽然火热，但它的基础原理，都是书本上很多年的积累，像 Unix 设计哲学、数据库的原理；

其次是选择目标，如果你想做数据科学家，我可以推荐 Coursera 的数据科学课程，通俗易懂，学习 Hive、Pig 这些基本工具；如果做应用层，主要是把 Hadoop 的一些工作流要熟悉，包括一些基本调优；如果是想做架构，除能搭建集群，对各基础软件服务很了解，还要理解计算机的瓶颈和负载管理，Linux 的一些性能工具。

最后，还是要多加练习，大数据本身就是靠实践，你可以先按 API 写书上的例子，能够先调试成功，在下面就是多积累，当遇到相似问题能找到对应的经典模式，再进一步就是实际问题，也许周边谁也没遇到，你需要些灵感和网上问问题的技巧，然后根据实际情况作出最佳选择。

本文版权归作者所有，转载未经作者授权，任何组织、机构或个人不得对作品实施转载。
世界之窗, 互联网

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！