标签：写给大数据开发初学者的话

写给大数据开发初学者的话4

如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点：为什么Spark比MapReduce快。使用SparkSQL代替Hive，更快的运行SQL。使用Kafka完成数据的一次收集，多次消费架构。自己可以...

8年前 (2016-11-29) 16908℃ 37喜欢

如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点：知道如何把已有的数据采集到HDFS上，包括离线采集和实时采集；你已经知道sqoop（或者还有DataX）是HDFS和其他数据源之间的数据交换工具；你已...

8年前 (2016-11-23) 15062℃ 20喜欢

如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点： 0和Hadoop2.0的区别； MapReduce的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多...

8年前 (2016-11-16) 20520℃ 46喜欢

导读：第一章：初识Hadoop 第二章：更高效的WordCount 第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL 第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第...

8年前 (2016-11-10) 66415℃ 213喜欢