lxw1234@qq.com的文章

【邀请体验】数阅–数据管理、OLAP分析与可视化平台

数阅，是一个数据管理、OLAP分析与可视化平台。数据源与数据管理支持连接已有数据源： MySQL、Postgres、Oracle、sqlite、MSSQL、Redshift； Hive、Impala、SparkSQL、Presto； Druid、Kylin； ...

8年前 (2016-12-12) 45597℃ 47喜欢

Hadoop

Hive、MapReduce、Spark分布式生成唯一数值型ID

在实际业务场景下，经常会遇到在Hive、MapReduce、Spark中需要生成唯一的数值型ID。一般常用的做法有： MapReduce中使用1个Reduce来生成； Hive中使用row_number分析函数来生成，其实也是1个Reduce；借助HBase或Redis或Z...

8年前 (2016-12-06) 23014℃ 41喜欢

大数据平台

写给大数据开发初学者的话4

如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点：为什么Spark比MapReduce快。使用SparkSQL代替Hive，更快的运行SQL。使用Kafka完成数据的一次收集，多次消费架构。自己可以...

8年前 (2016-11-29) 17157℃ 37喜欢

大数据平台

写给大数据开发初学者的话3

如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点：知道如何把已有的数据采集到HDFS上，包括离线采集和实时采集；你已经知道sqoop（或者还有DataX）是HDFS和其他数据源之间的数据交换工具；你已...

8年前 (2016-11-23) 15287℃ 20喜欢

编程语言

Linux下Python通过pyodbc连接SQLServer

Linux下Python通过pyodbc连接SQLServer, Mark一下。安装unixODBC yum install unixODBC* 安装freetds yum install freetds* 检查安装列表 [root@getway ~]# rpm -qa | g...

8年前 (2016-11-17) 13963℃ 6喜欢

大数据平台

写给大数据开发初学者的话2

如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点： 0和Hadoop2.0的区别； MapReduce的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多...

8年前 (2016-11-16) 20784℃ 46喜欢

大数据平台

写给大数据开发初学者的话

导读：第一章：初识Hadoop 第二章：更高效的WordCount 第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL 第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第...

8年前 (2016-11-10) 67689℃ 213喜欢

编程语言

java 中 16 进制 HEX 中文解码

Mark一下。对于“\xE4\xBD\xBF\xE5\xBE\x92\xE8\xA1\x8C\xE8\x80\x85”这种编码格式的中文，shell中直接使用echo -e “\xE4\xBD\xBF\xE5\xBE\x92\xE8\xA1\x8C\xE8\x80\...

8年前 (2016-10-28) 10603℃ 3喜欢

Spark

学习Spark2.0中的Structured Streaming（一）

Spark2.0新增了Structured Streaming，它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（DataFrame&SQL）。Structured Streaming顾名思义，它将数据源和...

8年前 (2016-10-21) 22047℃ 20喜欢

Flume

Apache Flume 1.7发布

时隔一年多，Flume终于发布了1.7版本，该版本中新增了 Taildir Source （Flume中的TaildirSource），另外，对与Kafka的集成上做了很多的改进和优化。 Release Notes – Flume – Version v1...

8年前 (2016-10-19) 11719℃ 11喜欢

大数据平台

华扬数据自助分析系统V1.0

之前介绍过的《一站式用户自助数据接入与分析平台》，经过4人/月的开发，现V1.0版本上线，供公司内部用户使用。 V1.0版本前端基于Caravel改造，查询模型数据使用的OLAP引擎有三种：Kylin、Hive+SparkSQL以及MySQL；其中，对于事实表数据量非常小（&l...

8年前 (2016-10-11) 23761℃ 27喜欢

编程语言

Python从变量读取的特殊字符切分字符串问题

数据库中使用VARCHAR类型存储分隔符，分隔符有很多种，用户自已输入的，比如逗号、TAB(\t)、^A(\001)等等。 Python从数据库中读取分隔符，然后对对应的文本进行切分。普通字符没有问题，对于特殊字符，则需要进行处理之后才能正确切分。 ...

8年前 (2016-09-30) 15628℃ 5喜欢

Spark

Python3环境下Caravel连接SparkSQL(ThriftServer)

关键字：caravel、python3、hiveserver2、sparksql、spark thrift server、impyla 之前在Caravel中想通过pyhive连接Spark Thrift Server做查询分析，发现pyhive不支持python3。这两天找到...

8年前 (2016-09-29) 24839℃ 8喜欢

Hive

几个连接HiveServer的客户端界面工具

Hive的官网上介绍了三个可以在Windows中通过JDBC连接HiveServer2的图形界面工具，包括：SQuirrel SQL Client、Oracle SQL Developer以及DbVisualizer。之前有文章《http://lxw1234.com/archiv...

8年前 (2016-09-28) 107014℃ 63喜欢

HBase

HBase原理和设计

一篇不错的介绍HBase基本原理的文章，转载自：http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ，感谢原作者。简介 HBase —— Hadoop Database的简称，Google BigT...

8年前 (2016-09-19) 15628℃ 52喜欢