分类:大数据平台

SaltStack简介及安装配置

SaltStack简介及安装配置
SaltStack是一款开源的,基于Python的自动化运维工具,通过SaltStack,我们可以在成千上万台服务器上批量执行命令、分发文件、配置管理、部署代码、采集数据、安装软件等等,它具有以下特性: (1)、部署简单、方便; (2)、支持大部分UNIX/Linux及Windo...

4个月前 (07-26) 830℃ 2喜欢

大规模集群下使用P2P技术软件(Murder)分发大文件

大规模集群下使用P2P技术软件(Murder)分发大文件
一般情况下,在运维多台服务器的时候,使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多,而且内网带宽有限的情况下,比如,需要向500台机器分发一个1G大小的升级包,这时候如果使用Ansible直接分发,那么肯定会引起带宽占满,导致SSH链接超时,Ansible...

4个月前 (07-22) 917℃ 2喜欢

《阿里技术参考图册》下载

《阿里技术参考图册》下载
《阿里技术参考图册》(算法篇)下载:https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf   《阿里技术参考图册》(研发篇)下载:https://102...

7个月前 (04-20) 5608℃ 26喜欢

数据可视化概览

数据可视化概览
注:本文转载自 https://antv.alipay.com/zh-cn/vis/blog/vis-introduce.html 一、什么是数据可视化 科学可视化(Scientific Visualization)、 信息可视化(Information Visualizati...

10个月前 (01-11) 5780℃ 8喜欢

数据仓库之数据模型

数据仓库之数据模型
关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节): 本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。 一、关于数据仓库数据模型 1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人...

10个月前 (01-11) 11161℃ 60喜欢

Apache Storm简介及安装部署

Apache Storm简介及安装部署
Apache Storm是一个分布式的、可靠的、容错的实时数据流处理框架。它与Spark Streaming的最大区别在于它是逐个处理流式数据事件,而Spark Streaming是微批次处理,因此,它比Spark Streaming更实时。 一、Apache Storm的核心概...

1年前 (2017-11-22) 5883℃ 10喜欢

机器学习中的数据清洗与特征处理

机器学习中的数据清洗与特征处理
注:本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html 综述 如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标...

1年前 (2017-11-13) 6517℃ 16喜欢

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka
之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的: 在日志的产生端(LogServer服务器),都部署了FlumeAgent,实时监控产生的日志,然后发送至Kafka。经过观察,每一个FlumeAgent都占用了较大的系统资源(至少会占用一颗CPU 50%以上的资源...

1年前 (2017-11-09) 13053℃ 15喜欢

Presto简介及安装部署–备忘

Presto简介及安装部署–备忘
Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命...

1年前 (2017-09-25) 5359℃ 9喜欢

谈谈”取数”的那些事儿

谈谈”取数”的那些事儿
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。 作为一个多年从事数据相关的开发者,深受“...

1年前 (2017-08-03) 7070℃ 39喜欢

关于Redis的数据清理

关于Redis的数据清理
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于R...

1年前 (2017-07-26) 7774℃ 15喜欢

唯品会海量实时OLAP分析技术升级之路

唯品会海量实时OLAP分析技术升级之路
本文转载自公众号 DBAplus社群 , 作者:谢麟炯 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实...

1年前 (2017-07-17) 15220℃ 66喜欢

Impala安装配置–RPM方式

Impala安装配置–RPM方式
关于Impala Impala是SQL ON Hadoop框架,和它类似的有Presto、Drill等,但它和Hive区别较大,请参考下面的介绍。 下面的介绍来自百度百科: Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的H...

1年前 (2017-06-07) 8145℃ 11喜欢