數(shù)據(jù)清洗
data cleaning
定義:檢測(cè)和修正數(shù)據(jù)集合中錯(cuò)誤數(shù)據(jù)項(xiàng)以及對(duì)數(shù)據(jù)進(jìn)行平滑處理等操作的數(shù)據(jù)預(yù)處理過(guò)程。
學(xué)科:計(jì)算機(jī)科學(xué)技術(shù)_數(shù)據(jù)庫(kù)_數(shù)據(jù)庫(kù)新技術(shù)
相關(guān)名詞:文本挖掘 信息過(guò)濾 數(shù)據(jù)交換
圖片來(lái)源:視覺(jué)中國(guó)
【延伸閱讀】
在數(shù)據(jù)科學(xué)的發(fā)展進(jìn)程中,數(shù)據(jù)清洗在數(shù)據(jù)采集與分析之間起著橋梁作用,是不可或缺的一環(huán)。沒(méi)有經(jīng)過(guò)清洗的數(shù)據(jù)如同帶有雜質(zhì)的原材料,將直接影響分析結(jié)論的準(zhǔn)確性和可靠性。數(shù)據(jù)清洗的本質(zhì)任務(wù),是識(shí)別并修復(fù)所謂的臟數(shù)據(jù),以提升數(shù)據(jù)的完整性、正確性和一致性。
在現(xiàn)實(shí)信息系統(tǒng)中,臟數(shù)據(jù)(如客戶地址不完整、數(shù)值錄入格式錯(cuò)誤、采集設(shè)備漏讀或誤讀信號(hào)、不同數(shù)據(jù)源中的同一對(duì)象記錄不一致等)普遍存在于金融交易記錄、科研觀測(cè)數(shù)據(jù)、企業(yè)客戶信息等各類(lèi)場(chǎng)景中。為此,數(shù)據(jù)清洗被確認(rèn)為數(shù)據(jù)挖掘流程中的關(guān)鍵步驟,它不僅決定分析算法的可行性,也直接關(guān)系到結(jié)論的可靠性。
數(shù)據(jù)清洗通常分為分析樣本數(shù)據(jù)、定義臟數(shù)據(jù)類(lèi)型、識(shí)別臟數(shù)據(jù)及處理臟數(shù)據(jù)四個(gè)階段。處理方法因數(shù)據(jù)問(wèn)題類(lèi)型不同而異。
缺失值是最常見(jiàn)的問(wèn)題之一,處理策略包括用常量、均值、最大值、估計(jì)值或模型預(yù)測(cè)值填補(bǔ)空缺,或者在缺失嚴(yán)重時(shí)直接刪除該變量。在模型訓(xùn)練前,采用多重插補(bǔ)或基于推斷的填補(bǔ)算法(如貝葉斯網(wǎng)絡(luò)、決策樹(shù))可獲得更合理的補(bǔ)全結(jié)果。
對(duì)于錯(cuò)誤值和異常值,常常通過(guò)格式規(guī)范檢查、實(shí)體識(shí)別與基準(zhǔn)數(shù)據(jù)比對(duì)來(lái)發(fā)現(xiàn)問(wèn)題。例如,識(shí)別出負(fù)值的身高或日期格式不符的記錄,進(jìn)而加以修正。在結(jié)構(gòu)化數(shù)據(jù)中,可利用偏差分析、屬性約束、聚類(lèi)等方法篩查出不合邏輯或遠(yuǎn)離集中趨勢(shì)的異常點(diǎn)。利用分箱技術(shù)進(jìn)行數(shù)值平滑,也是一種有效的處理方式。
重復(fù)數(shù)據(jù)通常源自多數(shù)據(jù)源整合。其處理需要先識(shí)別出相同實(shí)體的不同表示,技術(shù)手段包括編輯距離、字段匹配、向量空間模型等相似度計(jì)算方式。去重后應(yīng)對(duì)重復(fù)記錄進(jìn)行合并,保留最可信的版本,避免分析時(shí)因重復(fù)信息放大偏差。
一致性問(wèn)題則涉及邏輯矛盾和語(yǔ)義沖突。例如,一個(gè)人聲稱是產(chǎn)品重度用戶,卻給出極低的熟悉度評(píng)分。此類(lèi)問(wèn)題可通過(guò)定義約束規(guī)則、交叉變量驗(yàn)證和參考外部數(shù)據(jù)源等方式解決。語(yǔ)義一致性的維護(hù),對(duì)支持決策型分析尤為重要。
盡管當(dāng)前數(shù)據(jù)清洗方法已經(jīng)較為系統(tǒng),但在大數(shù)據(jù)環(huán)境下仍然面臨著挑戰(zhàn)。一方面,大數(shù)據(jù)體量大、異質(zhì)性強(qiáng),難以全面制定有效規(guī)則;另一方面,數(shù)據(jù)更新頻繁使靜態(tài)規(guī)則迅速失效。此外,清洗算法的復(fù)雜性與計(jì)算資源要求也限制其在大數(shù)據(jù)場(chǎng)景中的應(yīng)用。現(xiàn)階段,研究者正探索更加智能的、誤差率更低的自動(dòng)化清洗算法,以適應(yīng)大規(guī)模、多源、多模態(tài)數(shù)據(jù)的需求。
數(shù)據(jù)清洗不僅是技術(shù)問(wèn)題,也是數(shù)據(jù)治理的重要組成部分。在數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、機(jī)器學(xué)習(xí)建模、可視化展示等所有依賴高質(zhì)量數(shù)據(jù)的環(huán)節(jié)中,清洗工作直接決定了數(shù)據(jù)價(jià)值的釋放程度。隨著人工智能和自動(dòng)化技術(shù)的發(fā)展,未來(lái)的數(shù)據(jù)清洗將更加依賴智能識(shí)別與自學(xué)習(xí)機(jī)制,實(shí)現(xiàn)從“規(guī)則驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”的轉(zhuǎn)變。
責(zé)任編輯:張鵬輝