事实上大数据技术体系庞大,包括的知识较多,从最基础的编程基础到数据处理分析及各种工具的运用,整个学习的内容还是很多的,从易到难可以分为4个阶段:
Java是大数据学习需要的编程语言基础,因为大数据的开发基于常用的高级语言。而且不论是学习hadoop,还是数据挖掘,都需要有编程语言作为基础。因此,如果想学习大数据开发,掌握Java基础是必不可少的。
经典图书推荐:Java高效编程(EffectiveJava)
如果把大数据比作容器,那么这个容器的容量无限大,什么都能往里装,大数据离不开物联网,移动互联网,大数据还和人工智能、云计算和机器学习有着千丝万缕的关系,大数据海量数据存储要高扩展就离不开云计算,大数据计算分析采用传统的机器学习、数据挖掘技术会比较慢,需要做并行计算和分布式计算扩展。
Hadoop生态系统;HDFS技术;HBASE技术;Sqoop使用流程;数据仓库工具HIVE;大数据离线分析Spark、Python语言;数据实时分析Storm;消息订阅分发系统Kafka等。
经典图书推荐:
《Hadoop权威指南》《Hive编程指南》《Spark快速大数据分析》《Spark机器学习:核心技术与实践》
大数据学习除了各种工具和语言要掌握,还要有良好的数学功底。数学知识是数据分析师的基础知识。对于数据分析师,了解一些描述统计相关的内容,需要有一定公式计算能力,了解常用统计模型算法。而对于数据挖掘工程师来说,各类算法也需要熟练使用,对数学的要求是最高的。
经典图书推荐:
《概率论与数理统计》、《统计学》推荐DavidFreedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《IBMSPSSStatistics19StatisticalProceduresCompanion》等。
大数据学习最终的目的是应用,大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛,大数据分析技术离不开人工智能。
经典图书推荐:
《机器学习》《模式分类》《统计学习方法》《数据挖掘实用机器学习技术》《人工智能及其应用》、《概率图模型》
当然,“纸上得来终觉浅,绝知此事要躬行”,大数据学习重要的是练习、练习、再练习,将学到的知识与实际应用场景相结合。事实上,对于零基础的朋友来说,光是看这些书籍是远远不够的,个人建议还是找一家培训机构,边学边看边练,然后找一些好的大数据分析公司参加一些实习,跟大牛学习,从项目中锻炼。