如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。
比如:
hive> select 1 from dual;
Total MapReduce jobs = 1
Launching Job 1 out of...
10年前 (2015-04-17) 9133℃
3喜欢
依赖hadoop,hive相关包,
源码见附件。
add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar;
CREATE TEMPORARY FUNCTION encodeba...
10年前 (2015-04-17) 22124℃
20喜欢
对同一张表的union all 要比多重insert快的多,
原因是hive本身对这种union all做过优化,即只扫描一次源表;
而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长;
希望大家在开发的时候多测,多试!
...
10年前 (2015-04-17) 17272℃
6喜欢
一、 控制hive任务中的map数:
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.s...
10年前 (2015-04-16) 48216℃
154喜欢