課程描述INTRODUCTION
數據分析平臺
日程安排SCHEDULE
課程大綱Syllabus
數據分析平臺課程大綱:
數據分析平臺第一天
第1個主題:Hadoop的來源和動機
1.傳統大規模系統存在的問題
2.對一種新的解決方案的需求
3.Hadoop應用案例解析
4.Hadoop 版本介紹
5.Hadoop與傳統分布式環境的區別
第2個主題:Hadoop安裝和部署準備
1.Hadoop系統模塊組件概述
2.Hadoop試驗集群的部署結構
3.Hadoop 安裝依賴關系
4.Hadoop 生產環境的部署結構
第3個主題:Hadoop集群安裝和部署
第4個主題:Hadoop組件詳解
1.Hadoop HDFS 基本結構
2.Hadoop HDFS 副本存放策略
3.Hadoop NameNode 詳解
4.Hadoop SecondaryNameNode 詳解
5.Hadoop DataNode 詳解
6.Hadoop JobTracker 詳解
7.Mapper
8.Reducer
9.API 使用Eclipse進行快速開發
10.新MapReduce API
第5個主題:Hadoop 核心代碼剖析
1. Hadoop Mapper 類核心代碼剖析
2. Hadoop Reducer 類核心代碼剖析
第6個主題:HDFS分布式文件系統編程
1. Hadoop HDFS 剖析
2. Hadoop NameNode 剖析
3. Hadoop DataNode 剖析
4. hadoop I/O 操作
5. 使用Hadoop HDFS API對HDFS編程
第7個主題
數據分析平臺第二天
第1個主題:Hadoop MapReduce
1. Hadoop JobTracker 剖析
2.Hadoop TaskTracker 剖析
3.Hadoop 任務提交流程剖析
第2個主題: Hadoop MapReduce Streaming編程
1. Hadoop Streaming 和 Java MapReduce Api 差異
2. 使用 MapReduce 實現數據庫功能
第3個主題:MapReduce分布式程序
1. MapReduce流程
2.剖析一個MapReduce程序
3.基本MapReduceAPI 概念
4.驅動代碼
第4個主題:Hadoop Mapreduce高級編程
1.ToolRunner介紹
2.使用MRUnit進行測試
3.利用Combiners來減少中間數據
4.使用Configure和Close方法來進行Map/Reduce設置和關閉
5.編寫Partitioner來優化負載平衡
6.直接訪問Hadoop分布式文件系統(HDFS)
7.使用分布式緩存(Distributed Cache)
第5個主題:MapReduce的優化
1. map優化
2. reduce優化
3. 小文件優化
第6個主題:MapReduce的任務調度
1. Queue調度的使用
2. 公平調度的使用
3. 能力調度的使用
第7個主題Hadoop 生態系統介紹
分布式管理組件-Zookeeper
分布式數據倉庫-Hive
分布式數據庫-Hbase
數據導入導出-Sqoop
工作流管理- Ozzie
Hadoop數據倉庫-Hive
Hive基礎
Hive的作用和原理說明
Hadoop倉庫和傳統數據倉庫的協作關系;Hive與傳統數據庫的對接使用
Hadoop/Hive倉庫數據數據流
數據分析平臺第三天
Hadoop數據倉庫-Hive
Hive Cli 的基本用法
HQL基本語法
自行編寫數據庫與Hadoop相互ETL工具的思路
Hadoop 分布式數據倉庫-Hbase
Hbase概念與架構
hbase核心知識點
hbase安裝、部署
Hbase配置優化綜述
表設計優化相關參數
監控工具使用方法及注意事項
常見異常現象級處理方法
數據分析平臺總結
轉載://citymember.cn/gkk_detail/5836.html
已開課時間(jian)Have start time
大數據課程內訓
- 《流量神器,銷量升級:如何 武建偉(wei)
- 《大數據分析與客戶開發》 喻國慶
- 互聯網大數據分析管理 孫平(ping)
- 大數據提升:用戶體驗提升與 武(wu)建偉
- 建材門店--微信獲客與運營 武建偉(wei)
- 數據驅動價值 ——基于Ex 張(zhang)曉如
- 大數據項目解決方案及應用 胡國慶
- 《精細運營——京東/天貓平 武(wu)建偉
- 《大數據精益化營銷思維與運 喻國(guo)慶
- 《銀行--網絡消費行為與網 武建(jian)偉
- 能源電力企業數字化轉型探索 李(li)開東
- 數據創造價值——大數據分析 張曉(xiao)如