lxw的大数据田地Hadoop/Hive/HBase/Spark/Java

单机安装配置ElasticSearch6.3集群，体验es-sql

ES6.3发布之后，带来了很多新特性，https://www.elastic.co/blog/elasticsearch-6-3-0-released 其中最大的亮点，莫过于内置支持SQL模块。虽然它目前支持的SQL语法和功能非常有限，但还是迫不及待的尝试了一下。试验中，我在单...

6年前 (2018-08-17) 19671℃ 34喜欢

大数据平台

SaltStack简介及安装配置

SaltStack是一款开源的，基于Python的自动化运维工具，通过SaltStack，我们可以在成千上万台服务器上批量执行命令、分发文件、配置管理、部署代码、采集数据、安装软件等等，它具有以下特性： (1)、部署简单、方便； (2)、支持大部分UNIX/Linux及Windo...

6年前 (2018-07-26) 37277℃ 15喜欢

大数据平台

大规模集群下使用P2P技术软件（Murder）分发大文件

一般情况下，在运维多台服务器的时候，使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多，而且内网带宽有限的情况下，比如，需要向500台机器分发一个1G大小的升级包，这时候如果使用Ansible直接分发，那么肯定会引起带宽占满，导致SSH链接超时，Ansible...

6年前 (2018-07-22) 13790℃ 9喜欢

大数据平台

《阿里技术参考图册》下载

《阿里技术参考图册》（算法篇）下载：https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf 《阿里技术参考图册》（研发篇）下载：https://102...

6年前 (2018-04-20) 23849℃ 51喜欢

Kylin

官方教程：Apache Kylin和Superset集成，使用开源组件，完美打造OLAP系统

本文转自Apache Kylin公众号apachekylin. Superset 是一个数据探索和可视化平台，设计用来提供直观的，可视化的，交互式的分析体验。 Superset 提供了两种分析数据源的方式： 1. 用户可以以单表形式直接查询多种数据源，包括 Presto、Hive...

6年前 (2018-03-27) 57688℃ 105喜欢

Spark

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了。在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...

7年前 (2018-02-22) 64020℃ 114喜欢

Flume

Flume的监控（Monitor)

使用Flume实时收集日志的过程中，尽管有事务机制保证数据不丢失，但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常，比如，SouceàChannel传输了多少消息，ChannelàSink又传输了多少，两处的消息量是否偏差过大等等。 Flume为我们...

7年前 (2018-02-12) 21443℃ 35喜欢

大数据平台

数据可视化概览

注：本文转载自 https://antv.alipay.com/zh-cn/vis/blog/vis-introduce.html 一、什么是数据可视化科学可视化（Scientific Visualization）、信息可视化（Information Visualizati...

7年前 (2018-01-11) 23253℃ 18喜欢

大数据平台

数据仓库之数据模型

关于数据仓库的概念，这里不再累赘。先看下面的图（数据仓库建设的7个主要环节）：本文，主要针对第三块数据仓库模型设计来讨论交流，尤其是互联网行业。一、关于数据仓库数据模型 1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名；是业务人...

7年前 (2018-01-11) 42202℃ 162喜欢

Storm

Apache Storm简介及安装部署

Apache Storm是一个分布式的、可靠的、容错的实时数据流处理框架。它与Spark Streaming的最大区别在于它是逐个处理流式数据事件，而Spark Streaming是微批次处理，因此，它比Spark Streaming更实时。一、Apache Storm的核心概...

7年前 (2017-11-22) 20870℃ 26喜欢

大数据平台

机器学习中的数据清洗与特征处理

注：本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html 综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分，即“数据清洗=>特征，标...

7年前 (2017-11-13) 25481℃ 32喜欢

大数据平台

日志实时收集之FileBeat+Kafka

之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的：在日志的产生端（LogServer服务器），都部署了FlumeAgent，实时监控产生的日志，然后发送至Kafka。经过观察，每一个FlumeAgent都占用了较大的系统资源（至少会占用一颗CPU 50%以上的资源...

7年前 (2017-11-09) 49249℃ 37喜欢

大数据平台

Presto简介及安装部署–备忘

Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命...

7年前 (2017-09-25) 22631℃ 19喜欢

大数据平台

谈谈”取数”的那些事儿

一个公司的业务运营，不论规模大小，什么行业，都离不开数据的支撑。既然要数据，那么就得取数，谁来取数，怎么取？可能是一个销售人员在用Excel取，可能是一个DBA从生产数据库中查，也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。作为一个多年从事数据相关的开发者，深受“...

7年前 (2017-08-03) 32980℃ 98喜欢

大数据平台

关于Redis的数据清理

我们数据平台中有使用Redis来给线上提供低延时（20毫秒以内）的高并发读写请求，其中最大的Redis使用了阿里云的Redis集群（256G），存储的记录超过10亿，Key的有效期设置为15天，每天写入的记录大概5000万左右，QPS大概在6万左右。由于过期Key的产生速度大于R...

7年前 (2017-07-26) 24076℃ 29喜欢

lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java

热门排行

单机安装配置ElasticSearch6.3集群，体验es-sql

SaltStack简介及安装配置

大规模集群下使用P2P技术软件（Murder）分发大文件

《阿里技术参考图册》下载

官方教程：Apache Kylin和Superset集成，使用开源组件，完美打造OLAP系统

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

Flume的监控（Monitor)

数据可视化概览

数据仓库之数据模型

Apache Storm简介及安装部署

机器学习中的数据清洗与特征处理

日志实时收集之FileBeat+Kafka

Presto简介及安装部署–备忘

谈谈”取数”的那些事儿

关于Redis的数据清理