決策樹 decision tree
又稱:判定樹
定義:一個流程圖形式的樹結(jié)構(gòu),其中每個中間結(jié)點代表某個屬性或某組屬性上的測試,每個分支則對應(yīng)了該測試的不同結(jié)果,每個葉結(jié)點代表某個類別或預(yù)測結(jié)果。從訓(xùn)練數(shù)據(jù)中產(chǎn)生決策樹的算法,通常被稱為決策樹學(xué)習(xí)算法或決策樹算法。
學(xué)科:計算機科學(xué)技術(shù)_人工智能_機器學(xué)習(xí)
相關(guān)名詞:數(shù)據(jù)挖掘 決策樹分析 決策樹系統(tǒng)
圖片來源:視覺中國
【延伸閱讀】
決策樹是利用樹形圖進行決策的預(yù)測模型,表現(xiàn)出的是對象屬性與對象值之間的一種映射關(guān)系,是歸納學(xué)習(xí)和數(shù)據(jù)挖掘的重要方法。決策樹分為分類樹和回歸樹兩種:分類樹對離散變量做決策樹,回歸樹對連續(xù)變量做決策樹。
一般情況下,一棵決策樹包含一個根節(jié)點、若干個內(nèi)部節(jié)點和若干個葉結(jié)點。根節(jié)點包含樣本全集,從根節(jié)點到每個葉結(jié)點的路徑對應(yīng)了一個判定測試序列。內(nèi)部節(jié)點表示一個特征和屬性,每個內(nèi)部節(jié)點都是一個判斷條件,并且包含數(shù)據(jù)集中,滿足從根節(jié)點到該節(jié)點所有條件的數(shù)據(jù)的集合。根據(jù)內(nèi)部節(jié)點的屬性測試結(jié)果,內(nèi)部節(jié)點對應(yīng)的數(shù)據(jù)集合分別歸到兩個或多個子節(jié)點中。葉節(jié)點表示一個類,對應(yīng)于決策結(jié)果。葉節(jié)點為最終的類別,如果該數(shù)據(jù)被包含在該葉節(jié)點,則屬于該類別。
建立決策樹的目標(biāo)是通過訓(xùn)練樣本集,建立目標(biāo)變量關(guān)于各輸入變量的分類預(yù)測模型,全面實現(xiàn)輸入變量和目標(biāo)變量不同取值下的數(shù)據(jù)分組,進而用于對新數(shù)據(jù)對象的分類和預(yù)測。當(dāng)利用所建的決策樹對一個新數(shù)據(jù)對象進行分析時,決策樹能夠依據(jù)該數(shù)據(jù)輸入變量的取值,推斷出相應(yīng)目標(biāo)變量的分類或取值。決策樹算法主要圍繞兩大核心問題展開:第一,決策樹的生長問題,即利用訓(xùn)練樣本集,完成決策樹的建立過程。第二,決策樹的剪枝問題,即利用檢驗樣本集,對形成的決策樹進行優(yōu)化處理。
決策樹的算法很多,如ID3、C4.5、CART等。這些算法均采用自頂向下的貪婪算法,每個節(jié)點選擇分類效果最好的屬性將節(jié)點分裂為2個或多個子結(jié)點,繼續(xù)這一過程直到這棵樹能準(zhǔn)確地分類訓(xùn)練集,或所有屬性都已被使用過。
決策樹的優(yōu)勢有:結(jié)構(gòu)簡單,便于理解;效率高,較為適合訓(xùn)練集數(shù)據(jù)量較大的情況;通常不需要接受訓(xùn)練集數(shù)據(jù)外的知識;具有較高的分類精確度;等等。因此,決策樹算法廣泛應(yīng)用于各個領(lǐng)域,如文本分類、語音識別、模式識別和專家系統(tǒng)等。
責(zé)任編輯:張鵬輝