注:本文转自微信公众号 大数据杂谈 BigdataTina2016
2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容...
4年前 (2016-12-23) 11682℃
29喜欢
数阅,是一个数据管理、OLAP分析与可视化平台。
数据源与数据管理
支持连接已有数据源:
MySQL、Postgres、Oracle、sqlite、MSSQL、Redshift;
Hive、Impala、SparkSQL、Presto;
Druid、Kylin;
...
4年前 (2016-12-12) 27040℃
45喜欢
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。
一般常用的做法有:
MapReduce中使用1个Reduce来生成;
Hive中使用row_number分析函数来生成,其实也是1个Reduce;
借助HBase或Redis或Z...
4年前 (2016-12-06) 17272℃
38喜欢
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
为什么Spark比MapReduce快。
使用SparkSQL代替Hive,更快的运行SQL。
使用Kafka完成数据的一次收集,多次消费架构。
自己可以...
4年前 (2016-11-29) 13198℃
36喜欢
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集;
你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具;
你已...
4年前 (2016-11-23) 11973℃
19喜欢
Linux下Python通过pyodbc连接SQLServer, Mark一下。
安装unixODBC
yum install unixODBC*
安装freetds
yum install freetds*
检查安装列表
[root@getway ~]# rpm -qa | g...
4年前 (2016-11-17) 9658℃
4喜欢
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
0和Hadoop2.0的区别;
MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多...
4年前 (2016-11-16) 16687℃
44喜欢
导读:
第一章:初识Hadoop
第二章:更高效的WordCount
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
第五章:快一点吧,我的SQL
第六章:一夫多妻制
第七章:越来越多的分析任务
第八章:我的数据要实时
第九章:我的数据要对外
第...
4年前 (2016-11-10) 51586℃
191喜欢
Mark一下。
对于“\xE4\xBD\xBF\xE5\xBE\x92\xE8\xA1\x8C\xE8\x80\x85”这种编码格式的中文,shell中直接使用echo -e “\xE4\xBD\xBF\xE5\xBE\x92\xE8\xA1\x8C\xE8\x80\...
4年前 (2016-10-28) 6707℃
2喜欢
Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和...
4年前 (2016-10-21) 16223℃
18喜欢
时隔一年多,Flume终于发布了1.7版本,该版本中新增了 Taildir Source (Flume中的TaildirSource),另外,对与Kafka的集成上做了很多的改进和优化。
Release Notes – Flume – Version v1...
4年前 (2016-10-19) 7696℃
9喜欢
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。
V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL;
其中,对于事实表数据量非常小(&l...
4年前 (2016-10-11) 15213℃
27喜欢
数据库中使用VARCHAR类型存储分隔符,分隔符有很多种,用户自已输入的,比如逗号、TAB(\t)、^A(\001)等等。
Python从数据库中读取分隔符,然后对对应的文本进行切分。普通字符没有问题,对于特殊字符,则需要进行处理之后才能正确切分。
...
4年前 (2016-09-30) 10685℃
4喜欢
关键字:caravel、python3、hiveserver2、sparksql、spark thrift server、impyla
之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析,发现pyhive不支持python3。
这两天找到...
4年前 (2016-09-29) 18937℃
8喜欢
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...
4年前 (2016-09-28) 75478℃
33喜欢