微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者

lxw1234@qq.com的文章

大数据平台

机器学习中的数据清洗与特征处理

机器学习中的数据清洗与特征处理
注:本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html 综述 如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标...

1周前 (11-13) 260℃ 1喜欢

大数据平台

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka
之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的: 在日志的产生端(LogServer服务器),都部署了FlumeAgent,实时监控产生的日志,然后发送至Kafka。经过观察,每一个FlumeAgent都占用了较大的系统资源(至少会占用一颗CPU 50%以上的资源...

2周前 (11-09) 262℃ 1喜欢

大数据平台

Presto简介及安装部署–备忘

Presto简介及安装部署–备忘
Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命...

2个月前 (09-25) 827℃ 0喜欢

大数据平台

谈谈”取数”的那些事儿

谈谈”取数”的那些事儿
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。 作为一个多年从事数据相关的开发者,深受“...

4个月前 (08-03) 1951℃ 15喜欢

大数据平台

关于Redis的数据清理

关于Redis的数据清理
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于R...

4个月前 (07-26) 1887℃ 6喜欢

大数据平台

唯品会海量实时OLAP分析技术升级之路

唯品会海量实时OLAP分析技术升级之路
本文转载自公众号 DBAplus社群 , 作者:谢麟炯 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实...

4个月前 (07-17) 4077℃ 22喜欢

Hive

Impala安装配置–RPM方式

Impala安装配置–RPM方式
关于Impala Impala是SQL ON Hadoop框架,和它类似的有Presto、Drill等,但它和Hive区别较大,请参考下面的介绍。 下面的介绍来自百度百科: Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的H...

6个月前 (06-07) 1830℃ 4喜欢

Hive

轻松配置Hive On Tez

轻松配置Hive On Tez
关于Apche Tez,请自行搜索,较MR,它能提升分布式作业的性能。本文介绍的是Hive使用Tez作为执行引擎。 我的环境: hadoop-2.6.0-cdh5.8.3 apache-hive-2.1.1-bin 下载Apache Tez wget http://www-us....

6个月前 (06-06) 2248℃ 1喜欢

编程语言

Java加密Jar包和Class文件-防止反编译

Java加密Jar包和Class文件-防止反编译
众所周知,Java编译后的Jar包和Class文件,可以轻而易举的使用反编译工具(如JD-GUI)进行反编译,拿到源码。为了保护自己发布的Jar包和Class文件,采用的方式大多是混淆或加密(混淆工具如ProGuard),本文介绍的是采用jvmti方式对Class文件进行加密,使...

7个月前 (05-08) 2766℃ 3喜欢

Kylin

Apache Kylin优化之—Cube的高级设置

Apache Kylin优化之—Cube的高级设置
本文从apachekylin公众号系列文章整理。 随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation G...

7个月前 (04-24) 3360℃ 16喜欢

Spark

SparkThriftServer的高可用-HA实现与配置

SparkThriftServer的高可用-HA实现与配置
一个规模比较大,用户比较多的数据仓库/数据平台中,肯定会面临这两个问题:多用户的资源分配与竞争、服务的高可用与负载均衡。我们的平台中,95%的离线计算和即席查询任务都通过Hive和SparkSQL来完成,平台的开发和内部用户有十来个,Hive和SparkSQL的使用,自然也会面临...

9个月前 (03-09) 3734℃ 6喜欢

Spark

SparkThrfitServer多用户资源竞争与分配问题

SparkThrfitServer多用户资源竞争与分配问题
如果使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要1秒就能完成,这种情况肯定是你不想看到的。 Spark默认的调度策略为FIFO,即先进先出,只要...

9个月前 (03-08) 2214℃ 5喜欢