課程描述INTRODUCTION
大數據Hadoop與Spark架構應用培訓
日程安排SCHEDULE
課(ke)程大綱Syllabus
大數據Hadoop與Spark架構應用培訓
一、培訓特色
1.課程培訓業界最流行、應用最廣泛的Hadoop與Spark大數據技術體系。
強化大數據平臺的分布式集群架構和核心關鍵技術實現、大數據應用項目開發和大數據集群運維實踐、以及Hadoop與Spark大數據項目應用開發與調優的全過程沙盤模擬實戰。
2.通過一個完整的大數據開發項目及一組實際項目訓練案例,完全覆蓋
Hadoop與Spark生態系統平臺的應用開發與運維實踐。課堂實踐項目以項目小組的形式進行沙盤實操練習,重點強化理解Hadoop與Spark大數據項目各個階段的工作重點,同時掌握作為大數據項目管理者的基本技術與業務素養。
3.本課程的授課師資都是有著多年在一線從事Hadoop與Spark大數據項目
的資深講師,采用原理技術剖析和實戰案例相結合的方式開展互動教學、強化以建立大數據項目解決方案為主體的應用開發、技術討論與交流咨詢,在學習的同時促進講師學員之間的交流,讓每個學員都能在課程培訓過程中學到實實在在的大數據技術知識體系,以及大數據技術應用實戰技能,具備實際大數據應用項目的動手開發實踐與運維管理部署能力。授課過程中,根據學員需求,增設交流環節,可將具體工作中遇到的實際問題展開討論,講師會根據學員的實際情況微調授課內容,由講師帶著全部學員積極討論,并給出一定的時間讓學員上臺發言,現場剖析問題的癥結,規劃出可行的解決方案。
二、培訓目標
1.深刻理解在“互聯網+”時代下大數據的產生背景、發展歷程和演化趨勢;
2.了解業界市場需求和國內外*的大數據技術潮流,洞察大數據的潛在價值;
3.理解大數據項目解決方案及業界大數據應用案例,從而為企業在大數據項目
中的技術選型及技術架構設計提供決策參考;
4.掌握業界最流行的Hadoop與Spark大數據技術體系;
5.掌握大數據采集技術;
6.掌握大數據分布式存儲技術;
7.掌握NoSQL與NewSQL分布式數據庫技術;
8.掌握大數據倉庫與統計機器學習技術;
9.掌握大數據分析挖掘與商業智能(BI)技術;
10.掌握大數據離線處理技術;
11.掌握Storm流式大數據處理技術;
12.掌握基于內存計算的大數據實時處理技術;
13.掌握大數據管理技術的原理知識和應用實戰;
14.深入理解大數據平臺技術架構和使用場景;
15.嫻熟運用Hadoop與Spark大數據技術體系規劃解決方案滿足實際項目需求;
16.掌握如何部署符合生產環境要求的Hadoop大數據集群;
17.熟練地掌握基于Hadoop與Spark大數據平臺進行應用程序開發、集群運維
管(guan)理和(he)性能調優技(ji)巧。
三、課程大綱
時間課程模塊課程內容
第一天
上午大數據技術基礎1.大數據的產生背景、發展歷程
2.大數據和云計算的關系
3.大數據應用需求以及潛在價值分析
4.業界*的大數據技術發展態勢與應用趨勢
5.大數據項目的技術選型與架構設計
6.“互聯網+”時代下的電子商務、制造業、零售批發業、電信運營商、互聯網金融業、網上銀行、電子政務、移動互聯網、教育信息化等行業應用實踐與應用案例剖析
業界主流的大數據技術產品與項目解決方案1.國內外主流的大數據解決方案介紹
2.當前大數據解決方案與傳統數據庫方案的剖析比較
3.Apache大數據平臺方案剖析
4.CDH大數據平臺方案剖析
5.HDP大數據平臺方案剖析
6.開源的大數據生態系統平臺剖析
Hadoop大數據平臺剖析1.Hadoop的發展歷程以及產業界的實際應用介紹
2.Hadoop大數據平臺架構
3.基于Hadoop平臺的PB級大數據存儲管理與分析處理的工作原理與機制
4.Hadoop的核心組件剖析
第一天
下午大數據分布式存儲系統原理及其應用實踐1.分布式文件系統HDFS的簡介
2.HDFS系統的主從式平臺架構和工作原理
3.HDFS核心組件技術講解
4.基于HDFS的大型存儲系統應用開發實戰
5.HDFS集群的安裝、部署、配置與性能優化實踐
6.HDFS與LinuxNFS3交互技術以及本地化部署應用實踐
7.分布式鍵值存儲系統的平臺架構、核心技術以及應用開發
8.PB級大數據存儲項目的案例分析
大數據MapReduce與Yarn并行處理平臺1.MapReduce并行計算模型
2.MapReduce作業執行與調度技術
3.第二代大數據計算框架Yarn的工作原理以及DAG并行執行機制
4.MapReduce應用開發環境的部署,以及大數據并行處理應用程序開發
5.MapReduce高級編程技巧與性能優化實踐
6.MapReduce與Yarn大數據分析處理案例分析
Hadoop應用實踐操作訓練1.部署與配置HDFS,熟練操作HDFSSHELL,HDFS與NFS操作,以及HDFSAPI開發實踐
2.部署與配置MapReduce與Yarn及其開發實踐
3.Hadoop的Linux二次開發環境部署與配置
第二天
上午Hbase分布式數據庫管理系統1.NoSQL數據庫與NewSQL數據庫技術介紹,及其在半結構化和非結構化大數據方面的應用實踐
2.Hbase分布式數據庫簡介、數據模型以及工作原理
3.Hbase分布式數據庫集群的平臺架構和關鍵技術剖析
4.Hbase應用項目開發技巧,以及客戶端開發實戰
5.Hbase表設計與數據操作以及數據庫管理API調用
6.Hbase集群的安裝部署與配置優化
7.ZooKeeper分布式協調服務系統的工作原理、平臺架構、集群部署與配置應用實戰
8.Hbase集群的運維與監控管理
Hive大型數據倉庫集群平臺及其應用實踐1.基于Hadoop的大型分布式數據倉庫基礎知識,HIVE在行業中的數據倉庫應用案例
2.Hive大數據倉庫簡介以及應用介紹
3.Hive數據倉庫集群的平臺體系結構、核心技術剖析
4.HiveServer的工作原理、機制與應用
5.Hive數據倉庫集群的安裝部署與配置優化
6.Hive應用開發技巧
7.HiveSQL剖析與應用實踐
8.Hive數據倉庫表與表分區、表操作、數據導入導出、客戶端操作技巧
9.Hive數據倉庫報表設計
10、HiveJDBC與ODBC的工作原理與實現機制
11、HiveHWI、CLI客戶端操作以及UDF應用實踐
Hbase半結構化數據管理應用實踐操作訓練1.部署與配置Hbase集群以及Hbase的性能優化
2.部署與配置ZooKeeper分布式集群
3.構建Hbase開發環境
4.Hbase數據庫操作及項目實踐
Mahout大數據分析挖掘平臺及其應用實踐1.Mahout集群的安裝部署與配置優化
2.Mahout實現客戶分析,廣告分析,日志分析,規律預測,關聯分析,定向推薦等應用程序的開發與應用實戰
3.Mahout性能優化與分析挖掘算法參數的優化技巧
Hive數據倉庫與Mahout數據挖掘平臺的應用實踐操作訓練1.部署與配置HIVE集群,以及HIVE性能調優
2.構建HIVE開發環境
3.HIVE數據倉庫操作及項目實踐
4.實現Mahout與HadoopHbase的應用集成,實現日志數據分析挖掘項目的應用實踐
第三天
上午Spark大數據實時處理平臺剖析1.Spark的發展歷程以及業界的實際應用介紹
2.Spark實時大數據處理平臺架構
3.SparkRDD內存彈性分布式數據集的工作原理與機制
4.Spark的核心組件剖析
5.基于Spark的實時數據倉庫與實時分析挖掘處理在行業中的應用實踐案例
基于Spark的實時數據倉庫和實時數據分析挖掘處理平臺的實現機制,以及SparkSQL,SparkStreaming,MLib,GraphX,SparkR的應用實踐1.內存計算模型和實時處理技術介紹
2.Spark中各個分布式組件的處理框架及工作原理
3.SparkSQL實時數據倉庫的實現原理機制及應用實踐
4.SparkStreaming流式數據實時處理機制及應用實踐
5.SparkMLib實時機器學習算法應用實踐與案例應用
6.SparkGraphX實時圖數據處理應用實踐與社交網絡分析應用案例
7.SparkR的實現原理與應用實踐
8.Spark組件的應用編程開發實戰
9.Spark與Hadoop的集成解決方案實踐
Spark平臺與各個組件的實踐操作訓練1.部署與配置Spark集群,以及Spark性能調優
2.構建Spark開發環境
3.Spark程序運行以及操作
4.SparkSQL應用操作實訓
5.SparkStreaming應用操作實訓
6.SparkMLib應用操作實訓
7.SparkGraphX應用操作實訓
8.SparkR應用操作實訓
9.Spark與Hbase集成數據分析實驗實訓
第三天下午
Storm流式數據處理平臺架構及其應用實踐1.Storm流式處理系統的平臺架構和工作原理
2.Storm關鍵技術剖析
3.Storm集群安裝部署與配置優化
4.Storm日志流數據分析項目應用實戰
5.Storm和Hadoop,Spark的應用集成項目實踐
大數據智能化ETL操作工具以及Hadoop集群運維監控工具平臺應用1.Hadoop與DBMS之間數據交互工具的應用
2.Sqoop導入導出數據的工作原理,以及Sqoop集群安裝部署與配置
3.Kettle集群的平臺架構、核心技術工作原理以及應用案例
4.Kettle大數據ETL工具的部署與配置,以及應用實戰
5.利用Sqoop實現MySQL與Hadoop集群之間的數據導入導出交互程序
6.Hadoop大數據運維監控管理系統HUE平臺的安裝部署與應用配置
7.Hadoop運維管理監控系統Ambari平臺的安裝部署與應用配置
8.Hadoop集群運維系統Ganglia,Nagios的安裝部署與應用配置
大數據分布式采集與分布式消息訂閱系統及其應用實踐(可選)1.Flume-NG數據采集系統的數據流模型、平臺架構、集群部署與配置應用實戰
2.Kafka分布式消息訂閱系統的應用介紹、平臺架構、集群部署與配置應用實戰
內存數據庫管理系統及其應用實踐(可選)1.Impala實時查詢系統平臺架構、核心關鍵技術剖析
2.Impala實時查詢系統的部署與應用開發實踐
3.Redis內存數據庫集群架構以及核心技術剖析
4.Redis集群的部署與應用開發實戰與案例分析
Cassandra數據管理系統應用實踐(可選)1.Cassandra集群的平臺架構以及核心關鍵技術
2.Cassandra一致性哈希算法與數據對象分布策略
3.Cassandra集群的安裝部署與配置優化
4.Cassandra應用開發實戰與案例分析
大數據項目應用完整實踐與咨詢討論1.根據講師布置的實際應用案例,開展大數據完整項目部署設計和應用開發實踐
2.大數據項目的需求分析、應用實施以及解決方案分享咨詢與交流討論
第四天學習考(kao)核(he)與行(xing)業經驗(yan)交流
大數據Hadoop與Spark架構應用培訓
轉載://citymember.cn/gkk_detail/20301.html
已(yi)開課時間(jian)Have start time
大數據課程內訓
- 大數據提升:用戶體驗提升與 武建偉(wei)
- 數據驅動價值 ——基于Ex 張曉如
- 《大數據分析與客戶開發》 喻國慶
- 《流量神器,銷量升級:如何 武建偉
- 數據創造價值——大數據分析 張曉如
- 互聯網大數據分析管理 孫平
- 大數據項目解決方案及應用 胡國慶(qing)
- 《銀行--網絡消費行為與網 武建偉
- 能源電力企業數字化轉型探索 李開東
- 《大數據精益化營銷思維與運 喻國慶(qing)
- 《精細運營——京東/天貓平 武建偉
- 建材門店--微信獲客與運營 武建偉