ES6.3发布之后,带来了很多新特性,https://www.elastic.co/blog/elasticsearch-6-3-0-released
其中最大的亮点,莫过于内置支持SQL模块。虽然它目前支持的SQL语法和功能非常有限,但还是迫不及待的尝试了一下。
试验中,我在单...
6年前 (2018-08-17) 20296℃
35喜欢
SaltStack是一款开源的,基于Python的自动化运维工具,通过SaltStack,我们可以在成千上万台服务器上批量执行命令、分发文件、配置管理、部署代码、采集数据、安装软件等等,它具有以下特性:
(1)、部署简单、方便;
(2)、支持大部分UNIX/Linux及Windo...
6年前 (2018-07-26) 39217℃
15喜欢
一般情况下,在运维多台服务器的时候,使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多,而且内网带宽有限的情况下,比如,需要向500台机器分发一个1G大小的升级包,这时候如果使用Ansible直接分发,那么肯定会引起带宽占满,导致SSH链接超时,Ansible...
6年前 (2018-07-22) 14293℃
9喜欢
《阿里技术参考图册》(算法篇)下载:https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf
《阿里技术参考图册》(研发篇)下载:https://102...
7年前 (2018-04-20) 24335℃
51喜欢
本文转自Apache Kylin公众号apachekylin.
Superset 是一个数据探索和可视化平台,设计用来提供直观的,可视化的,交互式的分析体验。
Superset 提供了两种分析数据源的方式:
1. 用户可以以单表形式直接查询多种数据源,包括 Presto、Hive...
7年前 (2018-03-27) 59293℃
105喜欢
本文想记录和表达的东西挺多的,一时想不到什么好的标题,所以就用上面的关键字作为标题了。
在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...
7年前 (2018-02-22) 65735℃
114喜欢
使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。
Flume为我们...
7年前 (2018-02-12) 21968℃
35喜欢
注:本文转载自 https://antv.alipay.com/zh-cn/vis/blog/vis-introduce.html
一、什么是数据可视化
科学可视化(Scientific Visualization)、 信息可视化(Information Visualizati...
7年前 (2018-01-11) 23978℃
18喜欢
关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节):
本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。
一、关于数据仓库数据模型
1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人...
7年前 (2018-01-11) 42948℃
162喜欢
Apache Storm是一个分布式的、可靠的、容错的实时数据流处理框架。它与Spark Streaming的最大区别在于它是逐个处理流式数据事件,而Spark Streaming是微批次处理,因此,它比Spark Streaming更实时。
一、Apache Storm的核心概...
7年前 (2017-11-22) 21311℃
26喜欢
注:本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html
综述
如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标...
7年前 (2017-11-13) 26069℃
32喜欢
之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的:
在日志的产生端(LogServer服务器),都部署了FlumeAgent,实时监控产生的日志,然后发送至Kafka。经过观察,每一个FlumeAgent都占用了较大的系统资源(至少会占用一颗CPU 50%以上的资源...
7年前 (2017-11-09) 49990℃
37喜欢
Presto简介
Presto是一个由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。
Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命...
7年前 (2017-09-25) 23051℃
19喜欢
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。
作为一个多年从事数据相关的开发者,深受“...
7年前 (2017-08-03) 33878℃
98喜欢
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于R...
7年前 (2017-07-26) 24565℃
29喜欢