大数据学习基本的方向,平台开发和架构,数据运维和分析
学习google的三篇论文,GFS,BigTable,MapReduce论文,然后学习Hadoop中的MapReduce,HDFS,Hbase,然后学习Hive(SQL化查询框架)实现原理和流程。
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduce、Spark
流式、实时计算:Storm、Spark Streaming、S4、Heron、Flink
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash(日志信息)、Kibana
消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop、DataX
任务调度:Oozie、Azkaban、Zeus

