分类：大数据平台

SaltStack简介及安装配置

SaltStack是一款开源的，基于Python的自动化运维工具，通过SaltStack，我们可以在成千上万台服务器上批量执行命令、分发文件、配置管理、部署代码、采集数据、安装软件等等，它具有以下特性： (1)、部署简单、方便； (2)、支持大部分UNIX/Linux及Windo...

6年前 (2018-07-26) 39040℃ 15喜欢

一般情况下，在运维多台服务器的时候，使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多，而且内网带宽有限的情况下，比如，需要向500台机器分发一个1G大小的升级包，这时候如果使用Ansible直接分发，那么肯定会引起带宽占满，导致SSH链接超时，Ansible...

6年前 (2018-07-22) 14212℃ 9喜欢

《阿里技术参考图册》（算法篇）下载：https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf 《阿里技术参考图册》（研发篇）下载：https://102...

7年前 (2018-04-20) 24247℃ 51喜欢

本文转自Apache Kylin公众号apachekylin. Superset 是一个数据探索和可视化平台，设计用来提供直观的，可视化的，交互式的分析体验。 Superset 提供了两种分析数据源的方式： 1. 用户可以以单表形式直接查询多种数据源，包括 Presto、Hive...

7年前 (2018-03-27) 59071℃ 105喜欢

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了。在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...

7年前 (2018-02-22) 65544℃ 114喜欢

注：本文转载自 https://antv.alipay.com/zh-cn/vis/blog/vis-introduce.html 一、什么是数据可视化科学可视化（Scientific Visualization）、信息可视化（Information Visualizati...

7年前 (2018-01-11) 23879℃ 18喜欢

关于数据仓库的概念，这里不再累赘。先看下面的图（数据仓库建设的7个主要环节）：本文，主要针对第三块数据仓库模型设计来讨论交流，尤其是互联网行业。一、关于数据仓库数据模型 1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名；是业务人...

7年前 (2018-01-11) 42857℃ 162喜欢

Apache Storm是一个分布式的、可靠的、容错的实时数据流处理框架。它与Spark Streaming的最大区别在于它是逐个处理流式数据事件，而Spark Streaming是微批次处理，因此，它比Spark Streaming更实时。一、Apache Storm的核心概...

7年前 (2017-11-22) 21235℃ 26喜欢

注：本文转载自 https://tech.meituan.com/machinelearning-data-feature-process.html 综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分，即“数据清洗=>特征，标...

7年前 (2017-11-13) 25973℃ 32喜欢

之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的：在日志的产生端（LogServer服务器），都部署了FlumeAgent，实时监控产生的日志，然后发送至Kafka。经过观察，每一个FlumeAgent都占用了较大的系统资源（至少会占用一颗CPU 50%以上的资源...

7年前 (2017-11-09) 49897℃ 37喜欢

Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命...

7年前 (2017-09-25) 22978℃ 19喜欢

一个公司的业务运营，不论规模大小，什么行业，都离不开数据的支撑。既然要数据，那么就得取数，谁来取数，怎么取？可能是一个销售人员在用Excel取，可能是一个DBA从生产数据库中查，也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。作为一个多年从事数据相关的开发者，深受“...

7年前 (2017-08-03) 33752℃ 98喜欢

我们数据平台中有使用Redis来给线上提供低延时（20毫秒以内）的高并发读写请求，其中最大的Redis使用了阿里云的Redis集群（256G），存储的记录超过10亿，Key的有效期设置为15天，每天写入的记录大概5000万左右，QPS大概在6万左右。由于过期Key的产生速度大于R...

7年前 (2017-07-26) 24489℃ 29喜欢

本文转载自公众号 DBAplus社群，作者：谢麟炯谢麟炯，唯品会大数据平台高级技术架构经理，主要负责大数据自助多维分析平台，离线数据开发平台及分析引擎团队的开发和管理工作，加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。海量数据实...

7年前 (2017-07-17) 38062℃ 92喜欢

关于Impala Impala是SQL ON Hadoop框架，和它类似的有Presto、Drill等，但它和Hive区别较大，请参考下面的介绍。下面的介绍来自百度百科： Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的H...

8年前 (2017-06-07) 28934℃ 50喜欢