課程描述INTRODUCTION
日程安排SCHEDULE
課(ke)程大(da)綱Syllabus
數據挖掘處理課程
一、數據挖掘導論
數據挖掘的基本任務與步驟:目標、數據探索、數據預處理、建模、模型評價
有監督學習
無監督學習和半監督學習算法模型
Sklean 數據挖掘和機器學習算法庫介紹
大數據建模常見問題
問題引出:客戶(hu)行為分析-用戶(hu)用電異常的識別
二、Python 編程快速入門
Python 編程環境與語法快速入門
基礎數據結構:字符串處理及應用
數據結構:列表、元組、集合、字典
Python 控制流:IF 與 while、for 循環
函數與模塊定義
Python 文件讀寫
Python 面向對象編程思想
Python 異常處理
實驗:
—— 讀寫 CSV 文件
—— 處理 Excel 文件
三、Python 數據分析進階
Python 并行編程:多線程與多進程實現
—— 進程與線程概念
—— 進程同步機制
—— 多進程實現
—— 多線程實現
輕松訪問數據庫
—— 連接訪問 Sqlite
—— 操縱 MySQL
—— Python 的對象關系映射模型
實驗:
—— 多進程讀取超大文件
—— SQLite 讀(du)寫(xie)練習南(nan)京(jing)?杭州?上海(hai)
四、Scikit-learn 數據預處理實踐
數據統計量:期望/方差/偏度/峰度
協方差和相關系數、方差與標準差
數據描述:集中趨勢、離散程度、分位數
數據可視化:直方圖、盒圖、散點圖
數據預處理基本方法
數據歸一化方法
對數據進行降維,主成分分析 PCA
實驗:
—— 利用隨機森林做特征篩選
—— 數據預處理:歸一化、缺失值處理
—— 降維 PCA 實現
—— 找出較好的特征組合:PCA 與 LDA 效果對比
—— 隨機森(sen)林評(ping)估特(te)征重(zhong)要性
五、Python 數據分析進階
高性能矩陣計算工具 Numpy:
—— Numpy 數組與元素索引
—— 矩陣計算
—— 通用函數、計算統計量
以表格處理數據——高級數據分析包
—— Pandas:數據框架 Dataframe
—— 快速索引數據
—— 常用函數
—— 快速可視化分析
—— 匯總與統計
實驗:基(ji)于 Pandas 的數據預(yu)處理(li)
六、數據可視化分析
Matplotlib 繪圖庫介紹
快速繪圖
常見繪圖函數:散點圖、柱狀圖、盒圖
圖片處理
三維繪圖演示
Pandas 快速繪圖南京?杭州?上海
實驗:
—— 繪制常見統計圖
—— 利用 Pandas 獲取(qu)數據并繪圖
七、Scikit-Learn 數據挖掘實踐
數值預測:Logistic/Softmax 回歸/隨機森林
梯度下降算法:BGD 與 SGD 介紹
Sklean 決策樹算法實現: ID3、C4.5、CART 決策樹算法
用 Bagging 改善分類性能
隨機森林方法
決策樹用于分析挖掘的建模實現和決策樹的評估
Sklean 決策樹算法應用編程
實驗:
—— 用隨機森林預測數值
—— 決策樹編程演示
—— 決(jue)策樹分析(xi)客戶數據(ju)
八、 Scikit-Learn 數據挖掘實踐
支持向量機 SVM
線性可分軟間隔 SVM
損失函數的理解
支持向量回歸 SVR
不平衡數據集的處理
分類器性能評價
支持向量機的參數調優
分類器性能評價
實驗:
—— 銀行信貸客戶分類
—— Grid 法調參
—— 不平衡分布對性能的影響
—— 交叉驗證
—— 多分類器性能比較:ROC 曲線
—— 問題討論:用電異常(chang)行為識別
九、無監督學習:Scikit-Learn 聚類分析
Jaccard 相似度
Pearson 相關系數與余弦相似度南京?杭州?上海
層次聚類
K-means 聚類
半監督 AP 聚類算法及其應用
密度聚類 DBSCAN
聚類評價和結果指標
實驗:
—— K-Means 算法原理和實現
—— 密度聚類
—— 比較不同的聚類算法
—— 問題討論(lun):客戶分級
十、神經網絡實踐
神經網絡基本原理
淺層神經網絡與深層網絡分析
神經網絡用于數值預測
神經網絡用于分類
Scikit-Learn 神經網絡實現
案(an)例分享:阿里(li)云(yun)天池賽電力 AI:預(yu)測用電量
十一、Python 數據挖掘項目實踐
根據客戶數據集特點,完成數據的預處理、特征篩選
客戶流失問題建模與分類
客戶分級建模
解決方案討論
大數據挖掘技術的發展
案例分享:用戶畫像
需新增重點內容:
基于阿里MAXCOMPUTE的相關PYTHON函數學習
多增加PYTHON機器學習的實驗課
大數據應用解(jie)決實踐(jian)方法及案(an)例
數據挖掘處理課程
轉載://citymember.cn/gkk_detail/273039.html
已開課時間Have start time
- 尹傳亮
大數據營銷內訓
- 企業區塊鏈技術的應用場景與 李璐
- 大數據提升:用戶體驗提升與 武建偉
- 《大數據精益化營銷思維與運 喻國(guo)慶
- 能源電力企業數字化轉型探索 李開東(dong)
- 數據創造價值——大數據分析 張曉如
- 《大數據分析與客戶開發》 喻國(guo)慶
- 數據驅動價值 ——基于Ex 張曉如
- 《精細運營——京東/天貓平 武建(jian)偉
- 《銀行--網絡消費行為與網 武(wu)建偉
- 建材門店--微信獲客與運營 武(wu)建偉
- 《流量神器,銷量升級:如何 武(wu)建(jian)偉
- 大數據項目解決方案及應用 胡(hu)國慶