标签：hive

Hive本地mr

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如： hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of...

10年前 (2015-04-17) 9214℃ 3喜欢

依赖hadoop,hive相关包，源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodeba...

10年前 (2015-04-17) 22208℃ 20喜欢

对同一张表的union all 要比多重insert快的多，原因是hive本身对这种union all做过优化，即只扫描一次源表；而多重insert也只扫描一次，但应为要insert到多个分区，所以做了很多其他的事情，导致消耗的时间非常长；希望大家在开发的时候多测，多试！ ...

10年前 (2015-04-17) 17390℃ 6喜欢

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...

10年前 (2015-04-16) 48493℃ 154喜欢