数阅,是一个数据管理、OLAP分析与可视化平台。
数据源与数据管理
支持连接已有数据源:
MySQL、Postgres、Oracle、sqlite、MSSQL、Redshift;
Hive、Impala、SparkSQL、Presto;
Druid、Kylin;
...
8年前 (2016-12-12) 45597℃
47喜欢
在实际业务场景下,经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。
一般常用的做法有:
MapReduce中使用1个Reduce来生成;
Hive中使用row_number分析函数来生成,其实也是1个Reduce;
借助HBase或Redis或Z...
8年前 (2016-12-06) 23014℃
41喜欢
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
为什么Spark比MapReduce快。
使用SparkSQL代替Hive,更快的运行SQL。
使用Kafka完成数据的一次收集,多次消费架构。
自己可以...
8年前 (2016-11-29) 17157℃
37喜欢
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集;
你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具;
你已...
8年前 (2016-11-23) 15287℃
20喜欢
Linux下Python通过pyodbc连接SQLServer, Mark一下。
安装unixODBC
yum install unixODBC*
安装freetds
yum install freetds*
检查安装列表
[root@getway ~]# rpm -qa | g...
8年前 (2016-11-17) 13963℃
6喜欢
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点:
0和Hadoop2.0的区别;
MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多...
8年前 (2016-11-16) 20784℃
46喜欢
导读:
第一章:初识Hadoop
第二章:更高效的WordCount
第三章:把别处的数据搞到Hadoop上
第四章:把Hadoop上的数据搞到别处去
第五章:快一点吧,我的SQL
第六章:一夫多妻制
第七章:越来越多的分析任务
第八章:我的数据要实时
第九章:我的数据要对外
第...
8年前 (2016-11-10) 67689℃
213喜欢
Mark一下。
对于“\xE4\xBD\xBF\xE5\xBE\x92\xE8\xA1\x8C\xE8\x80\x85”这种编码格式的中文,shell中直接使用echo -e “\xE4\xBD\xBF\xE5\xBE\x92\xE8\xA1\x8C\xE8\x80\...
8年前 (2016-10-28) 10603℃
3喜欢
Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和...
8年前 (2016-10-21) 22047℃
20喜欢
时隔一年多,Flume终于发布了1.7版本,该版本中新增了 Taildir Source (Flume中的TaildirSource),另外,对与Kafka的集成上做了很多的改进和优化。
Release Notes – Flume – Version v1...
8年前 (2016-10-19) 11719℃
11喜欢
之前介绍过的《一站式用户自助数据接入与分析平台》,经过4人/月的开发,现V1.0版本上线,供公司内部用户使用。
V1.0版本前端基于Caravel改造,查询模型数据使用的OLAP引擎有三种:Kylin、Hive+SparkSQL以及MySQL;
其中,对于事实表数据量非常小(&l...
8年前 (2016-10-11) 23761℃
27喜欢
数据库中使用VARCHAR类型存储分隔符,分隔符有很多种,用户自已输入的,比如逗号、TAB(\t)、^A(\001)等等。
Python从数据库中读取分隔符,然后对对应的文本进行切分。普通字符没有问题,对于特殊字符,则需要进行处理之后才能正确切分。
...
8年前 (2016-09-30) 15628℃
5喜欢
关键字:caravel、python3、hiveserver2、sparksql、spark thrift server、impyla
之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析,发现pyhive不支持python3。
这两天找到...
8年前 (2016-09-29) 24839℃
8喜欢
Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具,包括:SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...
8年前 (2016-09-28) 107014℃
63喜欢
一篇不错的介绍HBase基本原理的文章,转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者。
简介
HBase —— Hadoop Database的简称,Google BigT...
8年前 (2016-09-19) 15628℃
52喜欢