lxw1234@qq.com的文章

Hive入门及Hive函数大全

给公司新员工做的零基础Hive入门培训，及之前整理的Hive函数大全(基于Hive0.7版本)，有需要的拿去看。 hive函数大全 Hive入门如果觉得本博客对您有帮助，请赞助作者。转载请注明：lxw的大数据田地 » Hive入门及Hive函数大全...

10年前 (2015-04-17) 9317℃ 16喜欢

Hive

Hive本地mr

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如： hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of...

10年前 (2015-04-17) 9137℃ 3喜欢

Hive

base64加密解密的hive udf函数

依赖hadoop,hive相关包，源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodeba...

10年前 (2015-04-17) 22129℃ 20喜欢

其他

大数据告诉你所不知道的城市学区房有怎样的规律？

上海有重点学区房吗？教育部门的回答应该是不。以小学为例，由于上海小学升初中是“考试选拔+就近入学”的双模式，小学之间并不存在精确的所谓“升学率”排名。同时，教育部门也从未在任何官方渠道上发布过这些学校的等级和任何指标体系。按理说，在这么严密的信息管控下，起码在小学层面，魔...

10年前 (2015-04-17) 6999℃ 5喜欢

HBase

Java对hbase的基本操作

package com.sdo.sjzx.jptj; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; import java.u...

10年前 (2015-04-17) 10967℃ 5喜欢

大数据平台

浅谈开源大数据平台的演变

一说到开源大数据处理平台，就不得不说此领域的开山鼻祖Hadoop，它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台，但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性，以...

10年前 (2015-04-17) 9416℃ 14喜欢

Hive

hive中合理使用union all与multi insert

对同一张表的union all 要比多重insert快的多，原因是hive本身对这种union all做过优化，即只扫描一次源表；而多重insert也只扫描一次，但应为要insert到多个分区，所以做了很多其他的事情，导致消耗的时间非常长；希望大家在开发的时候多测，多试！ ...

10年前 (2015-04-17) 17275℃ 6喜欢

大数据招聘

西安大数据招聘 Java大数据开发工程师

HADOOP开发工程师地区：西安工作职责：1、负责数据分析系统的设计和开发； 2、支持业务数据报告需求； 3、积极主动研究大数据时代的各种前沿技术、并能在产品中得以运用实施。岗位要求：1、大学本科以上学历，计算机相关专业；三年以上大数据研发工作经验； 2、对数据结...

10年前 (2015-04-17) 14802℃ 24喜欢

数据仓库/数据库

MySQL Cluster 7.3.5安装配置

MySQL-Cluster简介： MySQL Cluster是一种技术，该技术允许在无共享的系统中部署“内存中”数据库的集群。通过无共享体系结构，系统能够使用廉价的硬件，而且对软硬件无特殊要求，适合于分布式计算环境的高实用、高冗余版本。此外，由于每个组件有自己的内存和磁盘，不存...

10年前 (2015-04-17) 11674℃ 6喜欢

数据仓库/数据库

sqlserver 动态列转行

今天在sqlserver2012上遇到一个分析需求，用到动态列转行，记录一下： create table t1 (id int,value varchar(100)); insert into t1 values(1,'a,b,c'); ...

10年前 (2015-04-17) 7564℃ 2喜欢

编程语言

Shell中以$开头的变量含义

$0 程序名字 $n 第n个参数值，n=1..9 $* 所有命令行参数 $@ 所有命令行参数,如果它被包含在引号里,形如”$@”,则每个参数也各自被引号包括 $# 命令行参数个数 $$ 当前进程的进程ID(PID) $! 最近后台进程的进程ID $? 最近使用命令的退出状态 ...

10年前 (2015-04-17) 7263℃ 2喜欢

数据仓库/数据库

数据分析和数据挖掘的区别

有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里，觉得他们做的事情都差不多，我亦如此！经过这几年工作中和他们的合作和学习，大概清楚了他们的区别，今天看到一篇文章，系统的解释了下这两者的区别：数据分析，是对数据的一种操作手段。或者算法。目标是针对先验的约束，对数...

10年前 (2015-04-17) 10356℃ 10喜欢

数据仓库/数据库

数据仓库之 ETL

ETL，Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为：数据源–>ODS(操作型数据存储)–>DW–>DM(dat...

10年前 (2015-04-17) 17446℃ 63喜欢

数据仓库/数据库

数据仓库数据模型之：极限存储–历史拉链表

在数据仓库的数据模型设计过程中，经常会遇到这样的需求：数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户...

10年前 (2015-04-17) 38993℃ 72喜欢

Hive

hive优化之——控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...

10年前 (2015-04-16) 48234℃ 154喜欢