微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者
Hadoop

Hive、MapReduce、Spark分布式生成唯一数值型ID

Hive、MapReduce、Spark分布式生成唯一数值型ID
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。 一般常用的做法有: MapReduce中使用1个Reduce来生成; Hive中使用row_number分析函数来生成,其实也是1个Reduce; 借助HBase或Redis或Z...

8年前 (2016-12-06) 22336℃ 41喜欢

大数据平台

写给大数据开发初学者的话4

写给大数据开发初学者的话4
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 为什么Spark比MapReduce快。 使用SparkSQL代替Hive,更快的运行SQL。 使用Kafka完成数据的一次收集,多次消费架构。 自己可以...

8年前 (2016-11-29) 16688℃ 37喜欢

大数据平台

写给大数据开发初学者的话3

写给大数据开发初学者的话3
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集; 你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具; 你已...

8年前 (2016-11-23) 14895℃ 20喜欢

大数据平台

写给大数据开发初学者的话2

写给大数据开发初学者的话2
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 0和Hadoop2.0的区别; MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多...

8年前 (2016-11-16) 20360℃ 46喜欢

大数据平台

写给大数据开发初学者的话

写给大数据开发初学者的话
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第...

8年前 (2016-11-10) 65404℃ 213喜欢

Spark

学习Spark2.0中的Structured Streaming(一)

学习Spark2.0中的Structured Streaming(一)
Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和...

8年前 (2016-10-21) 21431℃ 20喜欢

Flume

Apache Flume 1.7发布

Apache Flume 1.7发布
时隔一年多,Flume终于发布了1.7版本,该版本中新增了 Taildir Source (Flume中的TaildirSource),另外,对与Kafka的集成上做了很多的改进和优化。 Release Notes – Flume – Version v1...

8年前 (2016-10-19) 11277℃ 11喜欢

大数据平台

华扬数据自助分析系统V1.0

华扬数据自助分析系统V1.0
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。 V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL; 其中,对于事实表数据量非常小(&l...

8年前 (2016-10-11) 22451℃ 27喜欢

编程语言

Python从变量读取的特殊字符切分字符串问题

Python从变量读取的特殊字符切分字符串问题
数据库中使用VARCHAR类型存储分隔符,分隔符有很多种,用户自已输入的,比如逗号、TAB(\t)、^A(\001)等等。 Python从数据库中读取分隔符,然后对对应的文本进行切分。普通字符没有问题,对于特殊字符,则需要进行处理之后才能正确切分。     ...

8年前 (2016-09-30) 15164℃ 5喜欢

Hive

几个连接HiveServer的客户端界面工具

几个连接HiveServer的客户端界面工具
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

8年前 (2016-09-28) 104732℃ 63喜欢

HBase

HBase原理和设计

HBase原理和设计
一篇不错的介绍HBase基本原理的文章,转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者。   简介 HBase —— Hadoop Database的简称,Google BigT...

8年前 (2016-09-19) 15187℃ 52喜欢