Skip to content

Latest commit

 

History

History
35 lines (19 loc) · 1.13 KB

File metadata and controls

35 lines (19 loc) · 1.13 KB

大数据

大数据学习基本的方向,平台开发和架构,数据运维和分析

基础

学习google的三篇论文,GFS,BigTable,MapReduce论文,然后学习Hadoop中的MapReduce,HDFS,Hbase,然后学习Hive(SQL化查询框架)实现原理和流程。

文件存储:Hadoop HDFS、Tachyon、KFS

离线计算:Hadoop MapReduce、Spark

流式、实时计算:Storm、Spark Streaming、S4、Heron、Flink

K-V、NOSQL数据库:HBase、Redis、MongoDB

资源管理:YARN、Mesos

日志收集:Flume、Scribe、Logstash(日志信息)、Kibana

消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

分布式协调服务:Zookeeper

集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘、机器学习:Mahout、Spark MLLib

数据同步:Sqoop、DataX

任务调度:Oozie、Azkaban、Zeus