标签:大数据平台

大数据平台

大规模集群下使用P2P技术软件(Murder)分发大文件

大规模集群下使用P2P技术软件(Murder)分发大文件
一般情况下,在运维多台服务器的时候,使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多,而且内网带宽有限的情况下,比如,需要向500台机器分发一个1G大小的升级包,这时候如果使用Ansible直接分发,那么肯定会引起带宽占满,导致SSH链接超时,Ansible...

3个月前 (07-22) 722℃ 1喜欢

大数据平台

《阿里技术参考图册》下载

《阿里技术参考图册》下载
《阿里技术参考图册》(算法篇)下载:https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf   《阿里技术参考图册》(研发篇)下载:https://102...

6个月前 (04-20) 5047℃ 24喜欢

大数据平台

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka
之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的: 在日志的产生端(LogServer服务器),都部署了FlumeAgent,实时监控产生的日志,然后发送至Kafka。经过观察,每一个FlumeAgent都占用了较大的系统资源(至少会占用一颗CPU 50%以上的资源...

11个月前 (11-09) 11802℃ 12喜欢

大数据平台

Presto简介及安装部署–备忘

Presto简介及安装部署–备忘
Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命...

1年前 (2017-09-25) 4977℃ 8喜欢

大数据平台

谈谈”取数”的那些事儿

谈谈”取数”的那些事儿
一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。 作为一个多年从事数据相关的开发者,深受“...

1年前 (2017-08-03) 6741℃ 39喜欢

大数据平台

开源ETL工具Kettle初试–远程执行任务

开源ETL工具Kettle初试–远程执行任务
Kettle是一款国外开源的ETL以及简单的调度工具。 官网:http://www.pentaho.com/product/data-integration 之前Kettle在传统数据仓库中用的比较多,现在也集成了很多大数据相关的组件,比如:HDFS、MapReduce、HBas...

2年前 (2017-02-09) 11983℃ 23喜欢

大数据平台

写给大数据开发初学者的话5

写给大数据开发初学者的话5
至此,你的大数据平台底层架构已经成型了,其中包括了数据采集、数据存储与计算(离线和实时)、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。 第九章:我的数据要对外 通常对外(业务)提供数据访问,大体上包含以下方面: 离线:比如,每天将前一天的数据提...

2年前 (2017-01-23) 10365℃ 30喜欢

大数据平台

SQL for ElasticSearch—Crate.io简介

SQL for ElasticSearch—Crate.io简介
再次调研这个东西,是为了满足下面的需求: 一张拥有50+字段的表,记录数大概5亿-10亿;需要对每个字段进行模糊搜索,并要求即时响应结果;需要做一些简单的聚合统计; 看到这个需求,肯定想到搜索,那么就是ElasticSearch了。但ES对SQL支持太弱了,因此想使用CrateD...

2年前 (2017-01-11) 7195℃ 8喜欢

大数据平台

2016年大数据80篇爆款文章:这一年你追过的那些技术

2016年大数据80篇爆款文章:这一年你追过的那些技术
注:本文转自微信公众号 大数据杂谈  BigdataTina2016   2016年即将过去,各位大数据的程序员们,是否觉得这一年都不断的追着新技术跑?这个大数据公众号是今年一月底创立的,一年过去,我们积累了不少好内容。回过头来我们看看这一年的脚印,这里我按照文章内容...

2年前 (2016-12-23) 7899℃ 25喜欢

大数据平台

写给大数据开发初学者的话4

写给大数据开发初学者的话4
如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 为什么Spark比MapReduce快。 使用SparkSQL代替Hive,更快的运行SQL。 使用Kafka完成数据的一次收集,多次消费架构。 自己可以...

2年前 (2016-11-29) 8609℃ 30喜欢

大数据平台

写给大数据开发初学者的话3

写给大数据开发初学者的话3
如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 知道如何把已有的数据采集到HDFS上,包括离线采集和实时采集; 你已经知道sqoop(或者还有DataX)是HDFS和其他数据源之间的数据交换工具; 你已...

2年前 (2016-11-23) 8173℃ 16喜欢

大数据平台

写给大数据开发初学者的话2

写给大数据开发初学者的话2
如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍,那么你应该已经具备以下技能和知识点: 0和Hadoop2.0的区别; MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多...

2年前 (2016-11-16) 11405℃ 36喜欢

大数据平台

写给大数据开发初学者的话

写给大数据开发初学者的话
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第...

2年前 (2016-11-10) 32928℃ 149喜欢