數(shù)據(jù)挖掘 data mining
定義:從巨量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程。
學(xué)科:計(jì)算機(jī)科學(xué)技術(shù)_人工智能_機(jī)器學(xué)習(xí)
相關(guān)名詞:數(shù)據(jù)集 算法 隨機(jī)噪聲
圖片來(lái)源:視覺(jué)中國(guó)
【延伸閱讀】
近年來(lái),隨著網(wǎng)絡(luò)技術(shù)的普及,數(shù)據(jù)庫(kù)技術(shù)也飛速發(fā)展。圖形、圖像、音頻、視頻、網(wǎng)頁(yè)等各種復(fù)雜數(shù)據(jù)都可以在數(shù)據(jù)庫(kù)中進(jìn)行管理,逐漸累積的數(shù)據(jù)量也在不斷增加。
數(shù)據(jù)庫(kù)在向人們提供大量的信息的同時(shí),也表現(xiàn)出了大量的信息特征。在這個(gè)信息大爆炸的年代,過(guò)量的信息也會(huì)對(duì)人類(lèi)產(chǎn)生一定的消極作用,最顯著的影響是有效的信息可能被淹沒(méi)在海量數(shù)據(jù)中很難被提煉出來(lái)。太多的無(wú)用信息勢(shì)必會(huì)增大信息的狀態(tài)轉(zhuǎn)移距離,這是一種能夠反映出丟失的有用知識(shí)的多少的指標(biāo)。這種情況下就會(huì)出現(xiàn)所謂的“信息豐富,知識(shí)匱乏”的困境。
因此,對(duì)大量的數(shù)據(jù)進(jìn)行深入分析,從中找出隱藏的信息,以便更好地利用這些數(shù)據(jù),成為人們的迫切需要。但是,僅僅依靠數(shù)據(jù)庫(kù)系統(tǒng)的增刪改查等功能還不能從數(shù)據(jù)中找出隱含的關(guān)系和規(guī)律,也不能從已有的數(shù)據(jù)中判斷出今后的發(fā)展方向,更不可能從數(shù)據(jù)中發(fā)掘出隱藏的知識(shí)。數(shù)據(jù)挖掘技術(shù)就是在這種情況下應(yīng)運(yùn)而生。
廣義上說(shuō),任何從數(shù)據(jù)中挖掘信息的過(guò)程都可以稱(chēng)為數(shù)據(jù)挖掘。從這一角度,數(shù)據(jù)挖掘可以看作是一種商業(yè)智能。但在技術(shù)方面,數(shù)據(jù)挖掘大致需要經(jīng)過(guò)以下步驟:
首先,要對(duì)源數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,使之成為適合于挖掘的數(shù)據(jù)集。其次,要在這種具有固定形式的數(shù)據(jù)集上完成知識(shí)的提煉。最后,采用合適的知識(shí)模式進(jìn)一步完成分析決策。
從狹義的觀點(diǎn)看,數(shù)據(jù)挖掘往往針對(duì)特定的數(shù)據(jù)和問(wèn)題,選擇一種或者多種挖掘算法,找到數(shù)據(jù)背后隱藏的規(guī)律,并使用這些規(guī)律來(lái)進(jìn)行預(yù)測(cè)、支持決策。
作為一項(xiàng)新興的處理數(shù)據(jù)技術(shù),數(shù)據(jù)挖掘技術(shù)有許多的新特征。首先,數(shù)據(jù)挖掘的對(duì)象是海量數(shù)據(jù),這也是數(shù)據(jù)挖掘技術(shù)產(chǎn)生的原因。其次,數(shù)據(jù)可能是包含隨機(jī)噪聲的、高維的,同時(shí)具有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。最后,數(shù)據(jù)挖掘綜合運(yùn)用了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)、數(shù)學(xué)等學(xué)科的知識(shí),多學(xué)科的交叉使其具有廣闊的應(yīng)用領(lǐng)域。
(延伸閱讀作者:大連理工大學(xué)計(jì)算機(jī)學(xué)院教授 楊鑫)
責(zé)任編輯:張鵬輝