微信搜索lxw1234bigdata | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 赞助作者:赞助作者

标签:hive

Hive

Hive本地mr

Hive本地mr
如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。 比如:   hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of...

10年前 (2015-04-17) 9133℃ 3喜欢

Hive

base64加密解密的hive udf函数

base64加密解密的hive udf函数
依赖hadoop,hive相关包, 源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodeba...

10年前 (2015-04-17) 22124℃ 20喜欢

Hive

hive中合理使用union all与multi insert

hive中合理使用union all与multi insert
对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长; 希望大家在开发的时候多测,多试! ...

10年前 (2015-04-17) 17272℃ 6喜欢

Hive

hive优化之——控制hive任务中的map数和reduce数

hive优化之——控制hive任务中的map数和reduce数
一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...

10年前 (2015-04-16) 48216℃ 154喜欢