分類(lei),就是確定(ding)某個對(dui)象(xiang)屬(shu)于哪個預定(ding)義的目標類(lei)的過(guo)程(cheng)。
在(zai)機(ji)器學習(xi)中,分(fen)類法(fa)有很多種,比如決策樹分(fen)類法(fa)、基于規則(ze)的(de)分(fen)類法(fa)、神經網(wang)絡(luo)、支持向(xiang)量機(ji)和樸素貝葉斯分(fen)類法(fa),等等。
而決策(ce)樹(shu)是(shi)最(zui)常見的一種簡單卻廣泛使用的分類技術。
決策(ce)樹,是一(yi)種樹形(xing)結構,其(qi)中每個節點表示一(yi)個屬性,每個分支代表屬性的取值,每個葉節點代表一(yi)種類(lei)別。
第一(yi)(yi)步:選擇一(yi)(yi)個屬性,構造根節點
比如選擇“月收入”構造根節(jie)點,其中(zhong)(zhong)“月收入”有(you)三個(ge)(ge)取舍{低、中(zhong)(zhong)、高},因此根節(jie)點有(you)三個(ge)(ge)分支,這(zhe)樣,形(xing)成3個(ge)(ge)子(zi)結點(也就是(shi)有(you)3個(ge)(ge)子(zi)類(lei)別)。
如下圖所(suo)示,根節(jie)點(dian)中(zhong)的(de)數據表示,總共有(you)14個(ge)人(ren)(ren),其中(zhong)違(wei)(wei)約用(yong)戶5個(ge),按(an)照“月(yue)收(shou)入”進行分類(lei),可以分成3個(ge)子類(lei)別,其中(zhong)“收(shou)入低(di)”的(de)類(lei)別共有(you)5個(ge)人(ren)(ren),其中(zhong)違(wei)(wei)約用(yong)戶3個(ge);“收(shou)入中(zhong)”的(de)用(yong)戶共有(you)4人(ren)(ren),沒有(you)人(ren)(ren)違(wei)(wei)約。
第二步:對于(yu)不純的子節點,選擇一(yi)個屬性繼續生長
對于“收(shou)入中(zhong)”子節點,只有一種用戶(非違約用戶),因(yin)此子節點是純的節點,不(bu)需要繼續生長(chang)了(le)。
對(dui)于“收入低”子(zi)節點,違(wei)約用戶和(he)非違(wei)約用戶都有(you),屬于不純(chun)節點,因此還需要繼續生長。
在“收(shou)(shou)入低”子(zi)節(jie)點(dian)中,選擇一個(ge)屬(shu)性“性別 ”繼續生長,性別有2個(ge)取值{男、女},因此子(zi)結點(dian)可以(yi)分解為2個(ge)子(zi)節(jie)點(dian)。“收(shou)(shou)入低、男性”子(zi)節(jie)點(dian)中共有3個(ge)人(ren)(ren),全(quan)部(bu)是違約用戶(hu);“收(shou)(shou)入低、女性”子(zi)節(jie)點(dian)共有2個(ge)人(ren)(ren),全(quan)部(bu)都不是違約用戶(hu)。
類似地,對于“收入高“的(de)子(zi)節點,選擇(ze)“行業”屬性進行生長,也得到2個子(zi)節點。
決(jue)策樹:構造決(jue)策樹,實現分類預測
第三(san)步(bu):停止(zhi)決策樹(shu)的生長(chang)
如上圖所示,當所有的(de)子結點(dian)都滿足了(le)停止生(sheng)長的(de)條件(比如所有子結點(dian)都是純(chun)的(de)),決策樹就算(suan)完成了(le)。
此(ci)時,所有的(de)葉結點(dian)就(jiu)是決策樹的(de)分類(lei)類(lei)別。
第四步:評估分(fen)類質量
決策(ce)樹構造好之后,需要評(ping)估模(mo)型的好壞(huai)(質量(liang))。
一(yi)般(ban)采用查(cha)準率(lv)和查(cha)全率(lv)來衡量模型的好壞,如上例所示。
查準率:總共(gong)有14個人(ren),模型分類正確的有14個人(ren),即查準率為(wei)100%。
查(cha)全率:總共(gong)有(you)5個人(ren)(ren)違約,模型(xing)查(cha)出(chu)來的也是5個人(ren)(ren),即查(cha)全率為100%。
查準率和查全率都(dou)比較高(gao),說明模型比較好,可用(yong)。
第五步:提取“違約用戶”的特征
我們將有違約用(yong)戶(hu)的葉結(jie)點用(yong)背景色標識出來,可以發現(xian)那些違約用(yong)戶(hu)的特征(zheng):
1) 月收入低,且性別為(wei)男(nan);
2) 月收入高,且(qie)在(zai)皮(pi)具行業(ye)工作。
第六步:預測新(xin)用戶預測
當(dang)決策樹模型構造(zao)好以后(hou),就(jiu)可以用來進行預測。
當一個新(xin)的申請貨(huo)款的用(yong)戶(hu)來貨(huo)款時,可以根據決策樹模型,來評估用(yong)戶(hu)最有可能屬于哪(na)一個節(jie)點,如果新(xin)用(yong)戶(hu)所屬葉節(jie)點的違約風險極高,則應該拒(ju)絕(jue)給新(xin)用(yong)戶(hu)貨(huo)款;否則可以進行放貨(huo)。
決策樹的構造,理解起(qi)來(lai)是很(hen)簡單的。而且(qie),容易生(sheng)成或(huo)提取可識別的類別特征。
當(dang)然,其背后(hou)的實現算法還(huan)有很(hen)多需要思(si)考(kao)的,比如(ru)應該選擇哪(na)個(ge)屬性來進行(xing)生長?屬性的分(fen)支取(qu)值如(ru)何確定(ding)?決策樹生長的停止條件如(ru)何確定(ding)?這些內(nei)容對于(yu)開發者(zhe)和算法設(she)計(ji)者(zhe)很(hen)重(zhong)要,請關注我后(hou)續的文(wen)章(zhang)。
轉載://citymember.cn/zixun_detail/111850.html