lxw1234@qq.com的文章

ElasticSearch

单机安装配置ElasticSearch6.3集群,体验es-sql

单机安装配置ElasticSearch6.3集群,体验es-sql
ES6.3发布之后,带来了很多新特性,https://www.elastic.co/blog/elasticsearch-6-3-0-released 其中最大的亮点,莫过于内置支持SQL模块。虽然它目前支持的SQL语法和功能非常有限,但还是迫不及待的尝试了一下。 试验中,我在单...

4个月前 (08-17) 1737℃ 8喜欢

大数据平台

SaltStack简介及安装配置

SaltStack简介及安装配置
SaltStack是一款开源的,基于Python的自动化运维工具,通过SaltStack,我们可以在成千上万台服务器上批量执行命令、分发文件、配置管理、部署代码、采集数据、安装软件等等,它具有以下特性: (1)、部署简单、方便; (2)、支持大部分UNIX/Linux及Windo...

5个月前 (07-26) 1035℃ 2喜欢

大数据平台

大规模集群下使用P2P技术软件(Murder)分发大文件

大规模集群下使用P2P技术软件(Murder)分发大文件
一般情况下,在运维多台服务器的时候,使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多,而且内网带宽有限的情况下,比如,需要向500台机器分发一个1G大小的升级包,这时候如果使用Ansible直接分发,那么肯定会引起带宽占满,导致SSH链接超时,Ansible...

5个月前 (07-22) 1082℃ 2喜欢

大数据平台

《阿里技术参考图册》下载

《阿里技术参考图册》下载
《阿里技术参考图册》(算法篇)下载:https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf   《阿里技术参考图册》(研发篇)下载:https://102...

8个月前 (04-20) 5983℃ 26喜欢

Flume

Flume的监控(Monitor)

Flume的监控(Monitor)
使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。 Flume为我们...

10个月前 (02-12) 5039℃ 13喜欢

大数据平台

数据可视化概览

数据可视化概览
注:本文转载自 https://antv.alipay.com/zh-cn/vis/blog/vis-introduce.html 一、什么是数据可视化 科学可视化(Scientific Visualization)、 信息可视化(Information Visualizati...

11个月前 (01-11) 6085℃ 8喜欢

大数据平台

数据仓库之数据模型

数据仓库之数据模型
关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节): 本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。 一、关于数据仓库数据模型 1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人...

11个月前 (01-11) 11857℃ 62喜欢

Storm

Apache Storm简介及安装部署

Apache Storm简介及安装部署
Apache Storm是一个分布式的、可靠的、容错的实时数据流处理框架。它与Spark Streaming的最大区别在于它是逐个处理流式数据事件,而Spark Streaming是微批次处理,因此,它比Spark Streaming更实时。 一、Apache Storm的核心概...

1年前 (2017-11-22) 6463℃ 12喜欢

大数据平台

机器学习中的数据清洗与特征处理

机器学习中的数据清洗与特征处理
注:本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html 综述 如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标...

1年前 (2017-11-13) 6840℃ 16喜欢

大数据平台

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka
之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的: 在日志的产生端(LogServer服务器),都部署了FlumeAgent,实时监控产生的日志,然后发送至Kafka。经过观察,每一个FlumeAgent都占用了较大的系统资源(至少会占用一颗CPU 50%以上的资源...

1年前 (2017-11-09) 13842℃ 15喜欢

大数据平台

Presto简介及安装部署–备忘

Presto简介及安装部署–备忘
Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命...

1年前 (2017-09-25) 5658℃ 9喜欢

大数据平台

谈谈”取数”的那些事儿

谈谈”取数”的那些事儿
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。 作为一个多年从事数据相关的开发者,深受“...

1年前 (2017-08-03) 7307℃ 39喜欢