數據分析與數據挖掘方法論與工具
講師:尹立(li)慶 瀏覽次數:2565
課程描述INTRODUCTION
數據分析與數據挖掘方法
日程安排SCHEDULE
課程(cheng)大綱Syllabus
數據分析與數據挖掘方法
課程簡介
隨著大數據時代的快速到來,以及大數據在生產生活中迅速應用,大數據領域如雨后春筍般的出現大量的新技術,如Hadoop、Spark等技術已經成為大數據技術中最為重要的一部分,被越來越多的企業所使用。涵蓋了大數據領域的數據處理、統計分析、數據挖掘、機器學習、人工智能、大數據應用開發等各種不同類型的計算操作,應用范圍廣泛、前景非常廣闊。本課程是尹老師多年工作經驗的總結和歸納,從實際業務案例為入口,使學員從理論層到實操層面系統的學習數據處理技術,使學員深入理解數據分析。通過本課程的學習,學員即可以正確的分析企業的數據,為管理者、決策層提供數據支撐。
本課程重點講解的數據分析和數據挖掘方法論、算法、思路、流程、工具,并通過對SPSS與SAS數據處理軟件實現,為企業的戰略發展提供參考。
培訓目標
1、 介紹數據分析、數據挖掘方法論、算法、常用工具,在工作中如何應用數據分析;
2、 介紹數據分析思路,學習提煉數據、分析數據和建立數據模型的方法和技巧;
3、 讓學員掌握基礎統計分析知識,包括概率統計的概念、術語和基本統計的算法等;
4、 使學員具備分析企業業務數據的能力,提高分析數據、發現問題的能力,提高工作效率;
5、 使用SPSS實現數據挖掘與數據分析與建模;
6、 使學員具備數據分析與建模為企業管理者制定戰略決策提供數據依據;
7、 使學員深入理解數據分析與數據模型的概念、技術、思維模式;
8、 使學員具備數據收集、數據挖掘、信息提取的能力;
9、 使學員具備利用圖形輔助思考的能力;
10、 使學員具備大數據技術梳理技能,如歷史數據+預測方法+標準工序。
培訓對象
1、 即將投身于大數據、數據分析、數據挖掘領域的企業或者個人;
2、 本課程適合于想通過數據化決策制定企業戰略的決策者;
3、 適合于經常需要匯報工作的管理者;
4、 對數據可視化分析、數據可視化展現等感興趣的人士;
5、 對數據分析、數據挖掘算法等感興趣的人士;
6、 大型集團公司、大型網站、電商網站等數據挖掘、數據分析人員;
7、 云計算、大數據從業者;
8、 系統架構師、系統分析師、高級程序員、資深開發人員;
9、 牽涉到大數據的數據中心運維、規劃、設計負責人;
10、 政府機關,金融保險、移動互聯網、能源行業等大數據相關人員;
11、 高校、科研院所統計分析研究員,涉及到數據處理的人員;
課程內容:
第1個主題: 數據分析與數據挖掘概述(深入剖析數據數據分析與數據挖掘的過程與方法,介紹數據建模中的機器學習與數據挖掘)
1、 數據分析與建模的概念
2、 數據分析與建模過程
3、 數據分析模型開發過程
4、 數據建模概述
5、 機器學習概念
6、 機器學習算法剖析
7、 算法庫分類
8、 算法庫
9、 深度學習
10、 神經網絡
11、 人工智能
12、 商業智能
第2個主題: 數據挖掘和應用(介紹數據挖掘和應用)
1、 數據挖掘的基本任務
2、 數據挖掘建模過程
a) 定義挖掘目標
b) 數據取樣
c) 數據探索
d) 數據預處理
e) 挖掘建模
f) 建立模型
g) 業務理解
h) 模型擬合
i) 訓練集
j) 測試集
k) 模型評價
3、 常用的數學預測模型
a) 線性回歸
b) 回歸(預測)與分類
c) 決策樹與隨機森林
d) 聚類分析(kmeans)
e) 關聯規則
f) 時序模式
g) 離群點檢測
h) 深度學習
i) 人工智能
j) 神經網絡
4、 案例:如何從數據中挖掘出有價值的信息
第3個主題: 數據預處理(剖析數據預處理技術)
1、 數據分析挖掘的過程
2、 建立數據庫的方法
3、 企業對數據分析挖掘的錯誤認識
4、 有效運用數據為客戶提供針對性、主動化服務(精準營銷)
5、 數據源
6、 數據采集
7、 隨機抽樣
8、 數據去重
9、 數據缺失值處理
10、 檢驗數據邏輯錯誤
11、 離群點檢測
12、 數據轉換
13、 數據分組
14、 課堂實操:數據預處理案例講解
第4個主題: 數據的描述性分析(深入剖析數據的描述性分析)
1、 統計學基本概念
2、 統計數據的計量尺度
3、 常用基本統計量
4、 集中趨勢的描述指標
5、 離散趨勢的描述指標
6、 中心極限定理
7、 大數定律
8、 數據的分布
9、 正態分布的特征
10、 偏度和峰度
11、 檢測數據集的分布
12、 數據的分布擬合檢驗與正態性檢驗
13、 抽樣標準
14、 假設檢驗
15、 T檢驗
16、 置信區間
第5個主題: 數據的可視化(實踐數據可視化)
1、 散點圖
2、 直方圖
3、 經驗分布函數
4、 QQ圖
5、 莖葉圖
6、 離群點檢測
7、 箱型圖檢驗離群值
8、 蓋帽法
9、 課堂實操:SPSS描述性統計分析實現航空業客戶描述和行為分析模型
第6個主題: 主成分分析和因子分析(深入剖析主成分分析及因子分析)
1、 主成分分析
2、 總體主成分
3、 樣本主成分
4、 主成分分析模型
5、 案例:SPSS主成分分析模型實現
6、 課堂實操:SPSS主成分分析模型實現
第7個主題: 方差分析(深入剖析方差分析方法及SPSS實現)
1、 單因素方差分析
2、 單因素方差分析模型
3、 因素效應的顯著性檢驗
4、 因素各水平均值的估計與比較
5、 兩因素等重復試驗下的方差分析
6、 統計模型
7、 交互效應及因素效應的顯著性檢驗
8、 無交互效應時各因素均值的估計與比較
9、 有交互效應時因素各水平組合上的均值估計與比較
10、 兩因素非重復試驗下的方差分析
11、 金融案例:SPSS方差分析實現
12、 課堂實操:SPSS方差分析實現
第8個主題: Bayes統計分析(深入剖析Bayes統計分析)
1、 Baves統計模型
2、 Bayes統計分析的基本思想
3、 Bayes統計模型
4、 Bayes統計推斷原則
5、 先驗分布的Bayes假設與不變先驗分布
6、 共軛先驗分布
7、 先驗分布中超參數的確定
8、 Baves統計推斷
9、 參數的Bayes點估計
10、 Bayes區間估計
11、 Bayes假設檢驗
12、 案例:SPSS實現Bayes統計分析建模
13、 課堂實操:SPSS實現Bayes統計分析建模
第9個主題: 數學建模(深入剖析數學建模)
1、 數學建模
2、 數學預測模型
3、 模型評估
4、 模型參數優化
第10個主題: 回歸分析與分類分析原理與應用(深入剖析數據的回歸分析與分類分析的原理以及應用)
1、 回歸與分類
2、 回歸分析概念
3、 線性回歸模型及其參數估計
4、 一元線性回歸
5、 一元線性回歸模型
6、 一元線性回歸模型求解參數
7、 損失函數
8、 求偏導
9、 回歸方程的顯著性檢驗
10、 殘差分析
11、 誤差項的正態性檢驗
12、 殘差圖分析
13、 統計推斷與預測
14、 回歸模型的選取
15、 窮舉法
16、 逐步回歸法
17、 嶺回歸分析
18、 SPSS一元線性回歸
19、 金融案例:SPSS一元線性回歸模型檢驗
20、 多元線性回歸概述
21、 多元線性回歸模型
22、 金融案例:SPSS多元線性回歸實現航空業信用打分和評級模型
第11個主題: Logistic回歸分析(剖析Logistic回歸與其它回歸分析方法)
1、 Logistic回歸介紹
2、 Logistic函數
3、 Logistic回歸模型
4、 案例:SPSS Logistic回歸實現
5、 課堂實操:SPSS Logistic回歸實現航空業欺詐預測模型
6、 課堂實操:SPSS Logistic回歸實現航空業風險分析模型
第12個主題: 非線性回歸原理及應用(剖析非線性回歸原理及應用實踐)
1、 非線性回歸
2、 雙曲線函數
3、 冪函數
4、 指數函數
5、 對數函數
6、 S型曲線
7、 案例:SPSS非線性回歸實現
8、 課堂實操:SPSS非線性回歸實現航空業經營分析和績效分析模型
第13個主題: 數據建模常用距離(深入剖析數據建模過程中常用的距離模型)
1、 數據挖掘常用距離
2、 歐氏距離
3、 曼哈頓距離
4、 切比雪夫距離
5、 閔可夫斯基距離
6、 標準化歐氏距離
7、 馬氏距離
8、 夾角余弦
9、 漢明距離
10、 杰卡德距離 & 杰卡德相似系數
11、 相關系數 & 相關距離
12、 信息熵
第14個主題: 聚類分析與建模實現(深入剖析聚類分析以及通過SPSS聚類算法模型分析數據)
1、 聚類分析
2、 聚類算法
3、 樣品間相近性的度量
4、 快速聚類法
5、 快速聚類法的步驟
6、 用Lm距離進行快速聚類
7、 譜系聚類法
8、 類間距離及其遞推公式
9、 譜系聚類法的步驟
10、 變量聚類
11、 案例:SPSS聚類實現及繪圖
12、 案例:Kmeans應用案例剖析
13、 課堂實操:編寫程序實現Kmeans應用案例剖析
第15個主題: 決策樹分析與實現(深入剖析決策樹分析以及通過SPSS決策樹模型分析數據)
1、 決策樹分析
2、 決策樹
3、 決策樹構成要素
4、 決策樹算法原理
5、 決策樹法的決策過程
6、 決策樹算法
7、 案例:SPSS實現決策樹分析
8、 課堂實操:SPSS實現航空業客戶細分模型
9、 隨機森林
第16個主題: 關聯規則分析與實現(深入剖析關聯規則分析以及通過SPSS關聯規則算法模型分析數據)
1、 關聯規則
2、 支持度與置信度
3、 關聯規則挖掘的過程
4、 Apriori算法
5、 關聯規則案例
6、 支持度與置信度計算
7、 案例:SPSS實現關聯規則
8、 課堂實操:SPSS實現航空業數據關聯規則分析
第17個主題: 數據建模時序模式分析與實現(深入剖析時序模式分析)
1、 時序模式
2、 時間序列分析
3、 時間序列分析
4、 時間序列
5、 序列分析的三個階段
6、 課堂實操:SPSS實現航空業客戶流失模型
第18個主題: 數據分析工具SPSS/SAS在金融行業應用案例(深入剖析數據分析工具SPSS/SAS在金融行業應用案例)
1、 案例:風險分析模型
2、 案例:信用打分和評級模型
3、 案例:客戶細分模型
4、 案例:客戶描述和行為分析模型
5、 案例:欺詐預測模型
6、 案例:客戶流失模型
7、 案例:經營分析和績效分析模型
8、 案例:交叉銷售和增量銷售模型
9、 案例:SPSS實現航空業客戶流失模型建模
10、 課堂實操:SPSS實現金融行業客戶流失模型建模
第19個主題: 大數據個性化精準推薦實戰(深入理解大數據個性化精準推薦原理和實現技術)
1、 個性化推薦的理論依據
2、 個性化推薦的價值
3、 個性化推薦能達到的目的
4、 個性化推薦的原則
5、 個性化推薦技術發展史
6、 個性化推薦的相關技術
7、 基于用戶的常用推薦算法
8、 基于用戶的協同過濾推薦
9、 課堂實操:SPSS實現航空業交叉銷售和增量銷售模型
數據分析與數據挖掘方法
轉載://citymember.cn/gkk_detail/253114.html
已開(kai)課時間Have start time
- 尹立慶
[僅限會員]
IT相關內訓
- Fine BI 數據分析與 張曉如
- 信息安全風險評估與加固技能 張勝生
- Python高效辦公自動化 張曉如
- CISSP認證培訓課程 張勝生(sheng)
- 電力信息化:價值和建設分析 劉宇佳
- 滲透測試與攻防實戰高級課程 張勝生
- 云計算的應用領域和實踐 武威
- 網安管理崗培訓 張勝生
- 互聯網新技術在銀行的應用 武威(wei)
- 軟件安全意識加強與技能提高 張勝(sheng)生
- 大模型技術與應用培訓 葉梓
- IT崗位數智化能力提升路徑 甄文智(zhi)