課程描述INTRODUCTION
Hadoop大數據平臺開發與案例分析培訓班
日程安(an)排SCHEDULE
課(ke)程大綱(gang)Syllabus
Hadoop大數據平臺開發與案例分析培訓班
一、 課程介紹
1.需求理解
Hadoop 設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop 一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。
對(dui)電信(xin)(xin)運(yun)(yun)營商而言,用戶上網日志包(bao)含了(le)大(da)(da)量用戶個性(xing)化需求(qiu)、喜好信(xin)(xin)息,對(dui)其(qi)進(jin)行分析和挖掘,能更好地了(le)解客戶需求(qiu)。傳統(tong)經營分析系統(tong)小型機加關系型數據(ju)庫的(de)架構(gou)無法滿足對(dui)海量非結(jie)構(gou)化數據(ju)的(de)處理(li)需求(qiu),搭(da)建基于(yu)X86的(de)Hadoop 平臺,引(yin)入(ru)大(da)(da)數據(ju)處理(li)技術的(de)方式,實現高效率、低(di)成(cheng)本、易擴展的(de)經營分析系統(tong)混(hun)搭(da)架構(gou)成(cheng)為(wei)電信(xin)(xin)運(yun)(yun)營商最為(wei)傾向的(de)選擇(ze)。本課程將(jiang)全面介紹(shao)Hadoop平臺開發和運(yun)(yun)維(wei)的(de)各項技術,對(dui)學員使用該項技術具(ju)有很高的(de)應(ying)用價(jia)值。
2.培訓課程架構與設計思路
(1)培訓架構:
本課程分為三個主要部分:
第一部分:重點講述大數據技術在的應用,使學員對大數據技術的廣泛應用有清晰的認識,在這環節當中會重點介紹Hadoop技術在整個大數據技術應用中的重要地位和應用情況。
第二部分:具體對hadoop技術進行模塊化分拆,從大數據文件存儲系統技術和分布式文件系統平臺及其應用談起,介紹Hadoop技術各主要應用工具和方法,以及在運維維護當中的主流做法,使學員全面了解和掌握Hadoop技術的精華。
第三部分:重點剖析大數據的應用案例,使學員在案例當中對該項技術有更深入的感觀印象
(2)設計思路:
本課程采用模塊化教學方法,以案例分析為主線,由淺入深、循序漸進、由理論到實踐操作進行設計。
(3)與企業的貼合點:
本課程結合企(qi)業(ye)轉型發(fa)展(zhan)(zhan)及大(da)數(shu)據(ju)發(fa)展(zhan)(zhan)戰略(lve),圍繞企(qi)業(ye)大(da)數(shu)據(ju)業(ye)務(wu)及行業(ye)應(ying)用(yong)市場拓展(zhan)(zhan)發(fa)展(zhan)(zhan)目標,重點講授Hadoop的(de)應(ying)用(yong)技術(shu),提升企(qi)業(ye)IT技術(shu)人員(yuan)的(de)開(kai)發(fa)和運維(wei)能力,有(you)很強的(de)貼合度。
二、培訓對象
各地企事業單位大數據產業相關人員,運營商 IT信息化和運維工程師相關人員,金融業信息化相關人員,或對大數據感興趣的相關人員。
三、培訓目標
掌握大(da)(da)(da)(da)數(shu)據(ju)處理平(ping)臺(Hadoop、Spark、Storm)技術(shu)架構、以及平(ping)臺的(de)安(an)裝部署、運(yun)維(wei)配置、應(ying)用(yong)開(kai)發;掌握主(zhu)流大(da)(da)(da)(da)數(shu)據(ju)Hadoop平(ping)臺和Spark實(shi)時處理平(ping)臺的(de)技術(shu)架構和實(shi)際應(ying)用(yong);利(li)用(yong)Hadoop+Spark對行(xing)業(ye)大(da)(da)(da)(da)數(shu)據(ju)進(jin)行(xing)存(cun)儲管理和分(fen)析挖掘(jue)的(de)技術(shu)應(ying)用(yong);講解Hadoop生態系統組件,包(bao)括Storm,HDFS,MapReduce,HIVE,Hbase,Spark,GraphX,MLib,Shark, ElasticSearch等大(da)(da)(da)(da)數(shu)據(ju)存(cun)儲管理、分(fen)布(bu)式數(shu)據(ju)庫、大(da)(da)(da)(da)型(xing)數(shu)據(ju)倉庫、大(da)(da)(da)(da)數(shu)據(ju)查(cha)詢與(yu)(yu)搜索、大(da)(da)(da)(da)數(shu)據(ju)分(fen)析挖掘(jue)與(yu)(yu)分(fen)布(bu)式處理技術(shu)
四、培訓大綱
(1)課程框架
時間培訓內容教學方式
第一天上午第一部分:移動互聯網、大數據、云計算相關技術介紹 第二部分:大數據的挑戰和發展方向理論講授+案例分析
下午第三部分:大數據文件存儲系統技術和分布式文件系統平臺及其應用 第四部分:Hadoop文件系統HDFS*實戰理論講授+案例分析+小組討論
第二天上午第五部分:Hadoop運維管理與性能調優 第六部分:*SQL數據庫Hbase與Redis理論講授+案例分析+實戰演練
下午第七部分:類SQL語句工具——Hive 第八部分:數據挖掘SPARK建模基礎介紹理論講授+案例分析+實戰演練
第三天上午第九部分:Kafka基礎介紹 第十部分:大數據典型應用與開發案例分析:互聯網數據運營理論講授+案例分析
下午第十一部分:當前數據中心的改造和轉換分析-以國內外運營商、互聯網公司為例 第十二部分:課程總結與問題答疑 評估培訓理論講授+案例分析+小組討論
第(di)四天學員考試與(yu)業界交流(liu)
課程內容:
模塊一:移動互聯網、大數據、云計算相關技術介紹
1、數據中心與云計算技術應用
2、智慧城市與云計算技術應用
3、移動互聯網、大數據與云計算關聯技術
4、移動云計算的生態系統及產業鏈
5、大數據技術在運營商、金融業、銀行業、電子商務行業、零售業、制造業、政務信息化、互聯網、教育信息化等行業中的應用實踐
6、國內外主流的大數據解決方案介紹
7、當前大數據解決方案與傳統數據庫方案的剖析比較
8、Cloudera Hadoop 大數據平臺方案剖析
9、開(kai)源的大(da)數據生態系統平(ping)臺剖析(xi)
模塊二:大數據的挑戰和發展方向
1、大數據時代的挑戰
.戰略決策能力
.技術開發和數據處理能力
.組織和運營能力
2、大數據時代的發展方向
.云計算是基礎設施架構
.大數據是靈魂資產
.分析、挖掘是手段
.發現和預測是最終目標
3、大數據挖掘在各行業應用情況
.電信行業應用及案例分析
.互聯網行業應用及案例分析
.金融行業應用及案例研究
.銷售行業應用案例分析(xi)
模塊三:大數據文件存儲系統技術和分布式文件系統平臺及其應用
1、Hadoop的發展歷程
.Hadoop大數據平臺架構
.基于Hadoop平臺的PB級大數據存儲管理與分析處理的工作原理與機制
.Hadoop 的核心組件剖析
2、分布式文件系統HDFS
.概述、功能、作用、優勢
.應用范疇、應用現狀
.發展趨勢
3、分布式文件系統HDFS架構及原理
.核心關鍵技術
.設計精髓
.基本工作原理
.系統架構
.文件存儲模式
.工作機制
.存儲擴容與吞吐性能擴展
4、分布式文件系統HDFS操作
.SHELL命令操作
.I/O流式操作
.文件數據讀取、寫入、追加、刪除
.文件狀態查詢
.數據塊分布機制
.數據同步與一致性
.元數據管理技術
.主節點與從節點工作機制
.大數據負載均衡技術
.HDFS大數據存儲集群管理技術
5、Hadoop生態系統組件
.Storm
.HDFS
.MapReduce
.HIVE
.Hbase
.Spark
.GraphX
.MLib
.Shark
模塊四:Hadoop文件系統HDFS*實戰
1、HDFS的設計
2、HDFS的概念
.數據塊
.namenode和datanode
.聯邦HDFS
.HDFS的高可用性
3、命令行接口
4、Hadoop文件系統
5、Java接口
.從Hadoop URL讀取數據
.通過FileSystem API讀取數據
.寫入數據
.目錄
.查詢文件系統
.刪除數據
6、數據流 .剖析文件讀取
.剖析文件寫入
.一致模型
7、通過Flume和Sqoop導入數據
8、通過distcp并行復制
9、Hadoop存檔
.使用Hadoop存檔工具
.不足
模塊五:Hadoop運維管理與性能調優
1、第二代大數據處理框架
.Yarn的工作原理及
.DAG并行執行機制
.Yarn大數據分析處理案例分析
.Yarn 框架并行應用程序實踐
2、集群配置管理
.Hadoop集群配置
.Hadoop性能調優與參數配置
.Hadoop機架感知策略與配置
.Hadoop壓縮機制
.Hadoop任務負載均衡
.Hadoop 集群維護
.Hadoop監控管理
3、HDFS的靜態調優技巧
.HDFS 的高吞吐量I/O性能調優技巧
.MapReduce/Yarn的并行處理性能調優技巧
.Hadoop集群的運行故障剖析,以及解決方案
.基于Hadoop大數據應用程序的性能瓶頸剖析與提
.Hadoop 大數據運維監控管理系統 HUE 平臺的安裝部署與應用配置
.Hadoop運維管理監控系統Ambari平臺的安裝部配置
.Hadoop 集群運維系統 Ganglia, Nagios的安裝部署與應用配置
模塊六:*SQL數據庫Hbase與Redis
1、*SQL基礎
.CAP理論
.base與ACID
.*SQL數據庫存儲類型 鍵值存儲 列存儲 文檔存儲 圖形存儲
2、Hbase分布式數據基礎
3、安裝Hbase
4、Hbase應用
.Hbase的邏輯數據模型,Hbase的表、行、列族、列、單元格、版本、row key排序
.Hbase的物理模型,命名空間(表空間)、表模式(Schema)的設計法則
.Hbase 主節點HMaster的工作原理,HMaster的高可用配置,以及性能調優
.Hbase 從節點RegionServer(分區服務節點)的工作原理,表分區及存儲I/O高并發配置,以及性能調優
.Hbase的存儲引擎工作原理,以及Hbase表數據的鍵值存儲結構,以及HFile存儲結構剖析
.Hbase表設計與數據操作以及數據庫管理操作 .Hbase集群的安裝部署、參數配置和性能優化
5、Hbase分布式數據庫簡介、發展歷程、應用場景、工作原理、以及應用優勢與不足之處
.Hbase分布式數據庫集群的主從式平臺架構和關鍵技術剖析
.Hbase偽分布式和物理集群分布式的控制與運行配置
.Hbase從節點RegionServer(分區服務節點)的工作原理,表分區及存儲I/O高并發配置,以及性能調優
.Hbase的存儲引擎工作原理,以及Hbase表數據的鍵值存儲結構,以及HFile存儲結構剖析
.Hbase表設計與數據操作以及數據庫管理操作
.Hbase集群的安裝部署、參數配置和性能優化
.ZooKeeper分布式協調服務系統的工作原理、平臺架構、集群部署應用實戰
.ZooKeeper集群的原理架構,以及應用配置
6、Redis內存數據庫介紹,以及業界應用案例
.Redis內存數據庫集群架構以及核心技術剖析
.Redis 集(ji)群的安(an)裝部署與應用開發實戰(zhan)
模塊七:類SQL語句工具——Hive
1、安裝Hive
2、示例
3、運行Hive
.配置Hive
.Hive服務
.metastore
4、Hive與傳統數據庫相比
.讀時模式vs.寫時模式
.更新、事務和索引
5、HiveQL
.數據類型
.操作與函數
6、表
.托管表和外部表
.分區和桶
.存儲格式
.導入數據
.表的修改
.表的丟棄
7、查詢數據
.排序和聚集
.MapReduce腳本
.連接
.子查詢
.視圖
8、用戶定義函數
.寫UDF
.寫UDAF
模塊八:數據挖掘SPARK建模基礎介紹
1、Spark簡介
.Spark是什么
.Spark生態系統BDAS
2、Spark架構
.Spark分布式架構與單機多核架構的異同
3、Spark集群的安裝與部署
.Spark的安裝與部署
.Spark集群初試
4、Spark硬件配置
.Spark硬件
.Spark硬件配置(zhi)流(liu)程(cheng)
模塊九:Kafka基礎介紹
1、Kafka介紹
2、kafka體系結構
3、kafka設計理念簡介
4、kafka通信協議
5、kafka的偽分布安裝、集群安裝
6、kafka的shell操作、java操作
7、kafka設計理念*
8、kafka producer和consumer開發
9、Kafka分布式消息訂閱系統的應用介紹、平臺架構、集群部署與配置應用實戰
10、Flume-NG數據采集系統的數據流模型、平臺架構、集群部署與配置應用實戰
11、Hadoop與DBMS之間數據交互工具Sqoop的應用實踐,
12、Sqoop導入導出數據以及Sqoop集群部署與配置
13、Kettle 集群的平臺架構、核心技術、部署配置和應用實戰
14、利用Sqoop實(shi)現 MySQL 與 Hadoop 集群之間
模塊十:大數據典型應用與開發案例分析:互聯網數據運營
1、案例1:貴州數據交易中心
.交易所交易形式:電子交易
.交易所服務:大數據交易、大數據清洗建模分析、大數據定向采購、大數據平臺技術開發
.大數據交易安全性探討分析 .數據交易中心商業模式探討分析
2、案例2:大數據應用案例:公共交通線路的智能規劃
.UrbanInsights:為公交公司提供基于訂閱訪問的大數據工具以及大數據咨詢服務
.Urban Insights數據源、數據收集、數據倉庫、數據分析——設計運營線路
.Urban Insights通過互聯網數據的運營
3、討論:浙江移動大數據應用與開發方向
模塊十一:當前數據中心的改造和轉換分析-以國內外運營商、互聯網公司為例
1、流商業大數據解決方案比較
2、主流開源云計算系統比較.
3、國內外代表性大數據平臺比較.
4、各廠商*的大數據產品介紹
5、案例分析 .Facebook的SNS平臺應用
.Google的搜索引擎應用
.Rackspace的日志處理 .Verizon成立精準市場營銷部
.TelefonicaDynamicInsights推出的名為“智慧足跡”的商業服務
.中(zhong)國聯(lian)通(tong)的“移動通(tong)信(xin)用戶上網記錄集中(zhong)查詢與分析支(zhi)撐(cheng)系(xi)統”
五、師資介紹
張老師:阿(a)里大(da)(da)(da)數(shu)(shu)(shu)據(ju)(ju)(ju)高級專家(jia),國內資深的(de)(de)Spark、Hadoop技(ji)術(shu)專家(jia)、虛擬(ni)化專家(jia),對HDFS、MapReduce、Hbase、Hive、Mahout、Storm、spark和(he)(he)(he)openTSDB等(deng)Hadoop生態系統中的(de)(de)技(ji)術(shu)進行了(le)多年的(de)(de)深入的(de)(de)研究,更(geng)主要的(de)(de)是這些技(ji)術(shu)在大(da)(da)(da)量的(de)(de)實(shi)際項(xiang)目(mu)中得到廣泛的(de)(de)應(ying)用(yong)(yong),因此(ci)在Hadoop開發和(he)(he)(he)運維方面積累了(le)豐(feng)富(fu)的(de)(de)項(xiang)目(mu)實(shi)施經驗。近年主要典型(xing)的(de)(de)項(xiang)目(mu)有:某(mou)(mou)電信(xin)集團網(wang)(wang)絡優化、中國移動某(mou)(mou)省移動公司(si)請賬單系統和(he)(he)(he)某(mou)(mou)省移動詳單實(shi)時(shi)查詢系統、中國銀(yin)聯(lian)大(da)(da)(da)數(shu)(shu)(shu)據(ju)(ju)(ju)數(shu)(shu)(shu)據(ju)(ju)(ju)票據(ju)(ju)(ju)詳單平臺、某(mou)(mou)大(da)(da)(da)型(xing)銀(yin)行大(da)(da)(da)數(shu)(shu)(shu)據(ju)(ju)(ju)記錄(lu)系統、某(mou)(mou)大(da)(da)(da)型(xing)通信(xin)運營商全國用(yong)(yong)戶上網(wang)(wang)記錄(lu)、某(mou)(mou)省交通部門違章系統、某(mou)(mou)區域醫(yi)療大(da)(da)(da)數(shu)(shu)(shu)據(ju)(ju)(ju)應(ying)用(yong)(yong)項(xiang)目(mu)、互(hu)聯(lian)網(wang)(wang)公共數(shu)(shu)(shu)據(ju)(ju)(ju)大(da)(da)(da)云(yun)(DAAS)和(he)(he)(he)構(gou)建游戲云(yun)(Web Game Daas)平臺項(xiang)目(mu)等(deng)。
六、頒發證書
參加相關培訓并通過考試的學員,可以獲得:
工業(ye)(ye)和信(xin)息(xi)化(hua)部頒(ban)發的-《大數據(ju)應(ying)用開發工程師證書(shu)》。該證書(shu)可(ke)作為(wei)專(zhuan)業(ye)(ye)技(ji)術(shu)人(ren)員(yuan)職業(ye)(ye)能力(li)考核的證明,以及專(zhuan)業(ye)(ye)技(ji)術(shu)人(ren)員(yuan)崗(gang)位聘用、任職、定級和晉升職務的重要(yao)依據(ju)。注(zhu):請(qing)學員(yuan)帶一(yi)寸彩(cai)照2張(背(bei)面注(zhu)明姓名(ming))、身份證復(fu)印件一(yi)張。
Hadoop大數據平臺開發與案例分析培訓班
轉載://citymember.cn/gkk_detail/65288.html
已(yi)開課時間Have start time
大數據課程內訓
- 大數據項目解決方案及應用 胡國慶
- 數據驅動價值 ——基于Ex 張曉如(ru)
- 《大數據分析與客戶開發》 喻國(guo)慶
- 《流量神器,銷量升級:如何 武建偉
- 《精細運營——京東/天貓平 武(wu)建偉(wei)
- 《銀行--網絡消費行為與網 武建偉
- 大數據提升:用戶體驗提升與 武建(jian)偉
- 互聯網大數據分析管理 孫平
- 建材門店--微信獲客與運營 武建偉
- 能源電力企業數字化轉型探索 李開東
- 數據創造價值——大數據分析 張曉如
- 《大數據精益化營銷思維與運 喻(yu)國慶