課程(cheng)描述INTRODUCTION
日(ri)程安排SCHEDULE
課程(cheng)大(da)綱Syllabus
數據分析工具課程
【課程目標】
Python已經成為數據分析和數據挖掘的*語言,作為除了Java、C/C++/C#外*的語言。
本課程基于Python工具來實現大數據的數據分析和數據挖掘項目。基于業務問題,在數據挖掘標準過程指導下,采用Python分析工具,實現數據挖掘項目的每一步操作,從數據預處理、數據建模、數據可視化,到最終數據挖掘結束,幫助學員掌握Python用于數據挖掘,提升學員的數據化運營及數據挖掘的能力。
通過本課程的學習,達到如下目的:
全面掌握Python語言以及其編程思想。
掌握常用擴展庫的使用,特別是數據挖掘相關庫的使用。
學會使用Python完成數據挖掘項目整個過程。
掌握(wo)利用Python實現(xian)(xian)可視化呈現(xian)(xian)。掌握(wo)數據(ju)挖掘常(chang)見算法在Python中的實現(xian)(xian)。
【授課對象】
業務支持部、IT系統部、大數據(ju)系統開發部、大數據(ju)分(fen)析中(zhong)心、網絡運維部等相關技術人員。
【學員要求】
課程為實戰課程,要求:
每個學員自備一臺便攜機(必須)。
便攜機中事先安裝好Python 3.6版本及以上。
安裝好Numpy,Pandas,sklearn等常用庫。
注:講師現場提供開源(yuan)的(de)安裝程序、擴展庫,以及現場分析(xi)的(de)數據源(yuan)。
【課程大綱】
數據對象基本操作
目的:掌握數據集結構及基本處理方法,進一步鞏固Python語言
數據挖掘常用擴展庫介紹
Numpy數組處理支持
Scipy矩陣計算模塊
Matplotlib數據可視化工具庫
Pandas數據分析和探索工具
StatsModels統計建模庫
Scikit-Learn機器學習庫
Keras深度學習(神經網絡)庫
Gensim文本挖掘庫
數據集構建
Index, Series, Dataframe對象
手工構建(創建索引、序列、數據集)
讀取文件(CSV文件、Excel文件)
讀取數據庫
數據集保存(CSV、Excel)
數據集基本操作
基本屬性訪問
shape,ndim,index,columns,values,empty,size
數據類型處理:查看、修改、轉換
排序
排序依據:標題、索引、字段
排序順序:升序、降序
自定義排序:按標題、索引、字段、有序類別變量排序
基本訪問
行訪問、列訪問、值訪問
訪問方式:標簽、位置
訪問類型:單行列、多行列、連續行列
布爾數組訪問
字段管理、新增、刪除、修改、替換、移位
數據篩選:條件篩選、多值篩選、篩選空值/非空值
演練:用Python實現數據的基本訪問
大數據預處理
目的:掌握數據預處理的基本環節,以及Python的實現。
預處理任務
數據清洗
數據集成
數據處理
變量處理
數據清洗
重復值處理
重復字段、重復標題、重復索引
處理方式:查找、刪除、修改
錯誤值處理
查找錯誤值
置空/刪除
重新編碼/替換
離群值處理:
檢測標題:3σ準則,IQR準則,K均值
處理方式:查找、置空、截尾、縮尾
基于K均值的離群值檢測
缺失值處理:
查找、刪除
插補(固定值/均值/向下填充/向上填充/插入法/拉格朗日)
數據集成
數據追加
變量合并(連接類型)
數據處理
數據篩選
數據抽樣
簡單抽樣(有放回、無放回)
分層抽樣
離散化/分箱
等寬
等頻
自定義間隔
K均值
變量處理
處理方式:變量變換、變量派生
規范化:min-max /mean-std/exp-max
啞變量化
案例:用Python實現數據預處理
數據可視化處理
目的:掌握作圖擴展庫,實現數據可視化
統計基礎
數值變量:描述統計
類別變量:分類計數
分類統計:分類匯總
常用的Python作圖庫
Matplotlib庫
Pygal庫
各種圖形的畫法
柱狀圖
直方圖
餅圖
折線圖
散點圖
演練:用Python庫作圖來實現產品銷量分析,并可視化
影響因素分析/特征選擇
目的:掌握判斷事物間相關性的常用方法,熟悉建模前如何進行屬性篩選/特征選擇,以實現降維的目的。
影響因素分析常用方法
相關分析
相關分析原理
相關系數公式種類
Pearson相關系數
Spearman等級相關系數
Kendall等級相關系數
方差分析
方差分析原理
方差分析種類
單因素方差分析
多因素方差分析
協方差分析
列聯分析/卡方檢驗
列聯分析原理
計數與期望值
卡方檢驗公式
主成分分析:降維
PCA方法原理
回歸預測模型實戰
常用數值預測的模型
通用預測模型:回歸模型
季節性預測模型:相加、相乘模型
新產品預測模型:珀爾曲線與龔鉑茲曲線
回歸分析概念
常見回歸分析類別
回歸分析常見算法
普通最小二乘法OLS
嶺回歸(RR)
套索回歸Lasso
ElasticNet回歸
回歸模型的評估
判定系數R^2
平均誤差率MAPE
分類預測模型實戰
常見分類預測的模型與算法
如何評估分類預測模型的質量
正確率、查準率、召回率、F1
ROC曲線
邏輯回歸分析模型
邏輯回歸的原理
邏輯回歸建模的步驟
案例:用sklearn庫實現銀行貸款違約預測
決策樹模型
決策樹分類的原理
決策樹的三個關鍵問題
決策樹算法與實現
案例:電力竊漏用戶自動識別
決策樹算法
最優屬性選擇算法:ID3、ID4.0、ID5.0
連續變量分割算法
樹剪枝:預剪枝、后剪枝
人工神經網絡模型(ANN)
神經網絡概述
神經元工作原理
常見神經網絡算法(BP、LM、RBF、FNN等)
案例:神經網絡預測產品銷量
支持向量機(SVM)
SVM基本原理
維災難與核心函數
案例:基于水質圖像的水質評價
貝葉斯分析
條件概率
常見貝葉斯網絡
聚類分析(客戶細分)實戰
客戶細分常用方法
聚類分析(Clustering)
聚類方法原理介紹及適用場景
常用聚類分析算法
聚類算法的評價
案例:使用SKLearn實現K均值聚類
案例:使用TSNE實現聚類可視化
RFM模型分析
RFM模型,更深入了解你的客戶價值
RFM模型與市場策略
案例:航空公司客戶價值分析
關聯規則分析實戰
關聯規則概述
常用關聯規則算法
Apriori算法
發現頻繁集
生成關聯規則
FP-Growth算法
構建FP樹
提取規則
時間序列分析
案例:使用apriori庫實現關聯分析
案例:中醫證型關聯規則挖掘
案例實戰
客戶流失預測和客戶挽留模型
銀行欠貸風險預測模型
結束:課程(cheng)總結與問(wen)題答疑。
數據分析工具課程
轉載://citymember.cn/gkk_detail/273041.html
已開(kai)課時間Have start time
- 尹傳亮
大數據營銷內訓
- 大數據提升:用戶體驗提升與 武建偉
- 能源電力企業數字化轉型探索 李開(kai)東
- 《流量神器,銷量升級:如何 武建偉
- 數據驅動價值 ——基于Ex 張(zhang)曉(xiao)如
- 《精細運營——京東/天貓平 武建偉
- 建材門店--微信獲客與運營 武建偉(wei)
- 數據創造價值——大數據分析 張曉如
- 《大數據精益化營銷思維與運 喻國慶
- 《銀行--網絡消費行為與網 武建偉
- 企業區塊鏈技術的應用場景與 李璐
- 大數據項目解決方案及應用 胡(hu)國慶
- 《大數據分析與客戶開發》 喻國慶(qing)