标签：大数据平台

大规模集群下使用P2P技术软件（Murder）分发大文件

一般情况下，在运维多台服务器的时候，使用Ansible来完成文件的分发和命令的执行。但如果运维的机器数量多，而且内网带宽有限的情况下，比如，需要向500台机器分发一个1G大小的升级包，这时候如果使用Ansible直接分发，那么肯定会引起带宽占满，导致SSH链接超时，Ansible...

7年前 (2018-07-22) 14398℃ 9喜欢

大数据平台

《阿里技术参考图册》下载

《阿里技术参考图册》（算法篇）下载：https://102.alibaba.com/downloadFile.do?file=1523848064814/AliTech101_Algorithms.pdf 《阿里技术参考图册》（研发篇）下载：https://102...

7年前 (2018-04-20) 24443℃ 51喜欢

大数据平台

日志实时收集之FileBeat+Kafka

之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的：在日志的产生端（LogServer服务器），都部署了FlumeAgent，实时监控产生的日志，然后发送至Kafka。经过观察，每一个FlumeAgent都占用了较大的系统资源（至少会占用一颗CPU 50%以上的资源...

8年前 (2017-11-09) 50141℃ 37喜欢

大数据平台

Presto简介及安装部署–备忘

Presto简介 Presto是一个由Facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命...

8年前 (2017-09-25) 23125℃ 19喜欢

大数据平台

谈谈”取数”的那些事儿

一个公司的业务运营，不论规模大小，什么行业，都离不开数据的支撑。既然要数据，那么就得取数，谁来取数，怎么取？可能是一个销售人员在用Excel取，可能是一个DBA从生产数据库中查，也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。作为一个多年从事数据相关的开发者，深受“...

8年前 (2017-08-03) 34026℃ 98喜欢

Hadoop

主流开源SQL（on Hadoop）总结，不断改进的Hive始终遥遥领先

注：本文转自公众号大数据杂谈（BigdataTina2016）本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及...

8年前 (2017-03-02) 20921℃ 39喜欢

大数据平台

开源ETL工具Kettle初试–远程执行任务

Kettle是一款国外开源的ETL以及简单的调度工具。官网：http://www.pentaho.com/product/data-integration 之前Kettle在传统数据仓库中用的比较多，现在也集成了很多大数据相关的组件，比如：HDFS、MapReduce、HBas...

8年前 (2017-02-09) 31033℃ 38喜欢

大数据平台

写给大数据开发初学者的话5

至此，你的大数据平台底层架构已经成型了，其中包括了数据采集、数据存储与计算（离线和实时）、数据同步、任务调度与监控这几大模块。接下来是时候考虑如何更好的对外提供数据了。第九章：我的数据要对外通常对外（业务）提供数据访问，大体上包含以下方面：离线：比如，每天将前一天的数据提...

8年前 (2017-01-23) 19112℃ 37喜欢

大数据平台

SQL for ElasticSearch—Crate.io简介

再次调研这个东西，是为了满足下面的需求：一张拥有50+字段的表，记录数大概5亿-10亿；需要对每个字段进行模糊搜索，并要求即时响应结果；需要做一些简单的聚合统计；看到这个需求，肯定想到搜索，那么就是ElasticSearch了。但ES对SQL支持太弱了，因此想使用CrateD...

8年前 (2017-01-11) 18176℃ 11喜欢

大数据平台

2016年大数据80篇爆款文章：这一年你追过的那些技术

注：本文转自微信公众号大数据杂谈 BigdataTina2016 2016年即将过去，各位大数据的程序员们，是否觉得这一年都不断的追着新技术跑？这个大数据公众号是今年一月底创立的，一年过去，我们积累了不少好内容。回过头来我们看看这一年的脚印，这里我按照文章内容...

8年前 (2016-12-23) 16164℃ 29喜欢

大数据平台

【邀请体验】数阅–数据管理、OLAP分析与可视化平台

数阅，是一个数据管理、OLAP分析与可视化平台。数据源与数据管理支持连接已有数据源： MySQL、Postgres、Oracle、sqlite、MSSQL、Redshift； Hive、Impala、SparkSQL、Presto； Druid、Kylin； ...

8年前 (2016-12-12) 46779℃ 47喜欢

大数据平台

写给大数据开发初学者的话4

如果你已经按照《写给大数据开发初学者的话3》中第五章和第六章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点：为什么Spark比MapReduce快。使用SparkSQL代替Hive，更快的运行SQL。使用Kafka完成数据的一次收集，多次消费架构。自己可以...

9年前 (2016-11-29) 17301℃ 37喜欢

大数据平台

写给大数据开发初学者的话3

如果你已经按照《写给大数据开发初学者的话2》中第三章和第四章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点：知道如何把已有的数据采集到HDFS上，包括离线采集和实时采集；你已经知道sqoop（或者还有DataX）是HDFS和其他数据源之间的数据交换工具；你已...

9年前 (2016-11-23) 15415℃ 20喜欢

大数据平台

写给大数据开发初学者的话2

如果你已经按照《写给大数据开发初学者的话》中第一章和第二章的流程认真完整的走了一遍，那么你应该已经具备以下技能和知识点： 0和Hadoop2.0的区别； MapReduce的原理（还是那个经典的题目，一个10G大小的文件，给定1G大小的内存，如何使用Java程序统计出现次数最多...

9年前 (2016-11-16) 20919℃ 46喜欢

大数据平台

写给大数据开发初学者的话

导读：第一章：初识Hadoop 第二章：更高效的WordCount 第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL 第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第...

9年前 (2016-11-10) 68096℃ 213喜欢