2016年大数据80篇爆款文章：这一年你追过的那些技术

注：本文转自微信公众号大数据杂谈 BigdataTina2016

2016年即将过去，各位大数据的程序员们，是否觉得这一年都不断的追着新技术跑？这个大数据公众号是今年一月底创立的，一年过去，我们积累了不少好内容。回过头来我们看看这一年的脚印，这里我按照文章内容做了一次汇总，分为：流处理、机器学习、用户画像、数据驱动、Hadoop、Apache Spark、Apache Kylin、Druid、推荐系统和大数据平台架构。

流处理

2016年流式数据处理已逐渐开始成为主流，对于流数据的处理存在很多技术，即使在开源社区中，也存在很多扑朔迷离的选择。在大数据杂谈里我们包含了一些优秀的流处理文章，包括Kafka流，Spark流，Storm，Flink，Samza等。

Apache Flink是今年新军突起的流处理技术，完全兼容Hadoop。Apache Flink与Apache Spark的主要差别在于计算模型不同。Spark采用了微批处理模型，而Flink采用了基于操作符的连续流模型。

大数据分析引擎Apache Flink: What, How, Why, Who, Where?

以Flink为例，消除流处理常见的六大谬见

LinkedIn在2010年开发了Kafka，是Kafka的重度使用者，他们总结的经验是非常有参考意义的。而“微服务架构：kafka的崛起”这篇文章详尽的探讨了在微服务架构升级的过程中，如何使用Kafka将微服务之间耦合降到最低，同时能让整个系统在保证高可用的前提下做到高可扩展。

同时Samza也是LinkedIn研发的一款流处理器，下面的文章介绍了Samza在LinkedIn公司的应用情况，Samza在流处理方面的优势、新特性以及下一步的规划。

剖析Linkedln遭遇的Kafka“危机故障”

微服务架构界的“网红”来了——崛起的Kafka

LinkedIn开源流处理器Samza的应用场景、优势、新特性与未来规划

下面这篇文章，集中比较了主流的流处理器的优缺点。

实时流处理框架Storm、Spark Streaming、Samza、Flink，孰优孰劣？！

下面是一些企业自研流处理架构的情况。JMQ是京东自研的消息中间件，InfoQ前后发过两篇文章来解析他们的中间件情况；另外我们也给出了一系列文章来说明Yelp的数据管道，并且Yelp的数据管道刚刚宣布了开源，大家可在Github上下载阅读源码。

京东消息中间件JMQ：架构，与Kafka的对比，主要特性和应用场景

Facebook的实时流处理技术

Yelp的数据管道开源了：ETL已死，实时流技术永生？

Kafka和Twitter新开源的DistributedLog技术对比

机器学习

机器学习经过近年来的强势生长之后，很快地从一个很少被人关注的技术主题，转变为被很多人使用的管理工具。其有效性被无数企业成功验证和应用，为了避免错失良机，企业需要设计自己的机器学习项目，比如在电商平台的推荐、排序业务中。在业务的多样性大的时候企业就需要考虑将机器学习系统平台化。对于学术界来说，学者们更希望机器学习平台容易调试、灵活性要强、迭代要快；而对于工业界更看重的是平台的稳定性强、处理大数据量、容易进行数据整合、高效率、低开发成本等。

我们在大数据杂谈上实际上已经积累了不少企业机器学习平台构建的内容，包括：腾讯的Angel，优点是效率快于Spark几十倍，支持维度达到十亿；另外是阿里巴巴的参数服务器，讲述了涉及理念以及在阿里的实际应用；还有第四范式的先知平台，从系统和工程方面的优化方向，在开发平台产品时的一些经验；还有就是TalkingData的Fregata，优点第一是速度快，第二是算法无需调参或者调参相对简单。

腾讯大数据宣布开源第三代高性能计算平台Angel：支持十亿维度

大规模大数据的有效利用，阿里巴巴参数服务器设计理念与实践

为什么已有TensorFlow和Spark，第四范式还要开发“先知”平台？

]轻量级大规模机器学习算法库Fregata开源：快速，无需调参

下面两篇文章讲的是怎么将深度学习平台应用到企业生产环境中，这也是大名鼎鼎的两个平台：Tensorflow和Deeplearning4j。

如何通过TensorFlow实现深度学习算法并运用到企业实践中

深度学习在Spark平台上如何进入生产环境

下面是各公司针对企业的业务利用机器学习来提高产品体验的一些经验。依次是Twitter，1号店，携程，搜狗，达观数据。最后是一篇总结深度学习全球进展和预测2017的文章。

Twitter机器学习平台的设计与搭建

1号店11.11：机器排序学习在电商搜索中的实战

想要愉快入住酒店？缺了它还真不行！

深度学习在搜狗无线搜索广告中的应用

海量数据挖掘最优解？机器学习！

深度学习：2016年的进展综述及2017年的预测

用户画像

“对企业而言，得用户者得天下，能够有一套科学的精准营销、个性化推荐模型，无疑会促进业务的增长；对开发者而言，用户画像也是频繁被提及的技术，这样可以根据目标用户的动机和行为上进行产品设计，远远优于为脑中虚构的东西做设计。”

这里有来自去哪儿、TalkingData、FreeWheel、百分点、天云大数据的5篇优质内容教你如何设计精准的用户画像产品。

Qunar用户画像构建策略及应用实践

40亿移动设备的用户画像和标签架构实践

广告平台中用户画像和标注噪声处理的实践

百分点苏海波博士：为什么你做的用户画像模型不精准？

用户画像不应脱离社会关系，谈复杂网络的关键技术和应用实践

数据驱动

讲大数据离不开数据驱动。数据驱动相关案例分别来自链家网、诸葛io、LinkedIn和滴滴。

数据驱动在链家网搜索优化与推荐策略中的实践

基于Spark的用户行为路径分析的产品化实践

4亿用户的LinkedIn数据产品设计原则和架构实现

数据驱动管理竟成滴滴获10亿美元投资的最大黑手？

Hadoop

今年1月，Hadoop过上了10岁生日，我也在年初策划了Hadoop十年的专栏，共约了十篇稿件，Cloudera的陈飚老师的文章在这一年中流传甚广，非常值得一看。另外InfoQ将这十篇文章集中到一起，做成了《架构师特刊：Hadoop十年回顾》的电子书分享给了大家，有兴趣可以下载下来读一读，将对Hadoop生态形成非常好的理解。在这里再次对十位作者老师表示谢意，谢谢大家的无私分享！

深度 | 资深架构师教你一篇文看懂Hadoop

《架构师特刊：Hadoop十年回顾》迷你书免费下载

Apache Spark

在2016年，Spark迎来了最近两年的一个最大的版本的发布：Spark 2.0。但是在Spark上我做的工作并不够，原本很想做个很好的专题，但是屡屡碰壁之后只能罢了，毕竟对于Spark开发者来说，这么大热的一年，任何实践都足够上沙龙和大会。

关键七步，用Apache Spark构建实时分析Dashboard

Spark在GrowingIO数据无埋点全量采集场景下的实践

是时候了解一些Spark生态系统中的图数据分析知识了

以Python为例，教你Spark 应用开发

Apache Kylin

eBay的大数据OLAP框架Kylin项目一经开源，即获得了业界众多的称赞，并被邀请加入Apache软件基金会的孵化项目，在2014年11月，正式经投票加入了Apache大家庭，项目名字也改成了“Apache Kylin”。

InfoQ在Kylin开源的一开始就持续关注这个项目，分享了很多的案例，促进了Kylin社区的进一步发展。这些内容我们也集中到了电子书中：《架构师特刊：Apache Kylin实践》。

Apache Kylin发布新版流处理引擎