當(dāng)前位置: 首頁(yè) ? 資訊 ? 科普博覽 ? 科技博覽 ? 正文

科技名詞|數(shù)據(jù)清洗 data cleaning

發(fā)布日期:2025-05-22??來(lái)源:全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)??瀏覽次數(shù):26
放大字體??縮小字體
核心提示:數(shù)據(jù)清洗data cleaning定義:檢測(cè)和修正數(shù)據(jù)集合中錯(cuò)誤數(shù)據(jù)項(xiàng)以及對(duì)數(shù)據(jù)進(jìn)行平滑處理等操作的數(shù)據(jù)預(yù)處理過(guò)程。學(xué)科:計(jì)算機(jī)科學(xué)技術(shù)_數(shù)據(jù)庫(kù)_數(shù)據(jù)庫(kù)新技術(shù)相關(guān)名詞:文本挖掘 信息過(guò)濾 數(shù)據(jù)交換圖片來(lái)源:視覺(jué)中國(guó)【延伸閱讀】在數(shù)據(jù)科學(xué)的發(fā)展進(jìn)程中,數(shù)據(jù)清洗在數(shù)據(jù)采集與分析之間起著橋梁作用,是不可或缺的一環(huán)。沒(méi)有經(jīng)過(guò)清洗的數(shù)據(jù)如同帶有雜質(zhì)的原材料,將

數(shù)據(jù)清洗

data cleaning

定義:檢測(cè)和修正數(shù)據(jù)集合中錯(cuò)誤數(shù)據(jù)項(xiàng)以及對(duì)數(shù)據(jù)進(jìn)行平滑處理等操作的數(shù)據(jù)預(yù)處理過(guò)程。

學(xué)科:計(jì)算機(jī)科學(xué)技術(shù)_數(shù)據(jù)庫(kù)_數(shù)據(jù)庫(kù)新技術(shù)

相關(guān)名詞:文本挖掘 信息過(guò)濾 數(shù)據(jù)交換

圖片來(lái)源:視覺(jué)中國(guó)

【延伸閱讀】

在數(shù)據(jù)科學(xué)的發(fā)展進(jìn)程中,數(shù)據(jù)清洗在數(shù)據(jù)采集與分析之間起著橋梁作用,是不可或缺的一環(huán)。沒(méi)有經(jīng)過(guò)清洗的數(shù)據(jù)如同帶有雜質(zhì)的原材料,將直接影響分析結(jié)論的準(zhǔn)確性和可靠性。數(shù)據(jù)清洗的本質(zhì)任務(wù),是識(shí)別并修復(fù)所謂的臟數(shù)據(jù),以提升數(shù)據(jù)的完整性、正確性和一致性。

在現(xiàn)實(shí)信息系統(tǒng)中,臟數(shù)據(jù)(如客戶地址不完整、數(shù)值錄入格式錯(cuò)誤、采集設(shè)備漏讀或誤讀信號(hào)、不同數(shù)據(jù)源中的同一對(duì)象記錄不一致等)普遍存在于金融交易記錄、科研觀測(cè)數(shù)據(jù)、企業(yè)客戶信息等各類(lèi)場(chǎng)景中。為此,數(shù)據(jù)清洗被確認(rèn)為數(shù)據(jù)挖掘流程中的關(guān)鍵步驟,它不僅決定分析算法的可行性,也直接關(guān)系到結(jié)論的可靠性。

數(shù)據(jù)清洗通常分為分析樣本數(shù)據(jù)、定義臟數(shù)據(jù)類(lèi)型、識(shí)別臟數(shù)據(jù)及處理臟數(shù)據(jù)四個(gè)階段。處理方法因數(shù)據(jù)問(wèn)題類(lèi)型不同而異。

缺失值是最常見(jiàn)的問(wèn)題之一,處理策略包括用常量、均值、最大值、估計(jì)值或模型預(yù)測(cè)值填補(bǔ)空缺,或者在缺失嚴(yán)重時(shí)直接刪除該變量。在模型訓(xùn)練前,采用多重插補(bǔ)或基于推斷的填補(bǔ)算法(如貝葉斯網(wǎng)絡(luò)、決策樹(shù))可獲得更合理的補(bǔ)全結(jié)果。

對(duì)于錯(cuò)誤值和異常值,常常通過(guò)格式規(guī)范檢查、實(shí)體識(shí)別與基準(zhǔn)數(shù)據(jù)比對(duì)來(lái)發(fā)現(xiàn)問(wèn)題。例如,識(shí)別出負(fù)值的身高或日期格式不符的記錄,進(jìn)而加以修正。在結(jié)構(gòu)化數(shù)據(jù)中,可利用偏差分析、屬性約束、聚類(lèi)等方法篩查出不合邏輯或遠(yuǎn)離集中趨勢(shì)的異常點(diǎn)。利用分箱技術(shù)進(jìn)行數(shù)值平滑,也是一種有效的處理方式。

重復(fù)數(shù)據(jù)通常源自多數(shù)據(jù)源整合。其處理需要先識(shí)別出相同實(shí)體的不同表示,技術(shù)手段包括編輯距離、字段匹配、向量空間模型等相似度計(jì)算方式。去重后應(yīng)對(duì)重復(fù)記錄進(jìn)行合并,保留最可信的版本,避免分析時(shí)因重復(fù)信息放大偏差。

一致性問(wèn)題則涉及邏輯矛盾和語(yǔ)義沖突。例如,一個(gè)人聲稱是產(chǎn)品重度用戶,卻給出極低的熟悉度評(píng)分。此類(lèi)問(wèn)題可通過(guò)定義約束規(guī)則、交叉變量驗(yàn)證和參考外部數(shù)據(jù)源等方式解決。語(yǔ)義一致性的維護(hù),對(duì)支持決策型分析尤為重要。

盡管當(dāng)前數(shù)據(jù)清洗方法已經(jīng)較為系統(tǒng),但在大數(shù)據(jù)環(huán)境下仍然面臨著挑戰(zhàn)。一方面,大數(shù)據(jù)體量大、異質(zhì)性強(qiáng),難以全面制定有效規(guī)則;另一方面,數(shù)據(jù)更新頻繁使靜態(tài)規(guī)則迅速失效。此外,清洗算法的復(fù)雜性與計(jì)算資源要求也限制其在大數(shù)據(jù)場(chǎng)景中的應(yīng)用。現(xiàn)階段,研究者正探索更加智能的、誤差率更低的自動(dòng)化清洗算法,以適應(yīng)大規(guī)模、多源、多模態(tài)數(shù)據(jù)的需求。

數(shù)據(jù)清洗不僅是技術(shù)問(wèn)題,也是數(shù)據(jù)治理的重要組成部分。在數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、機(jī)器學(xué)習(xí)建模、可視化展示等所有依賴高質(zhì)量數(shù)據(jù)的環(huán)節(jié)中,清洗工作直接決定了數(shù)據(jù)價(jià)值的釋放程度。隨著人工智能和自動(dòng)化技術(shù)的發(fā)展,未來(lái)的數(shù)據(jù)清洗將更加依賴智能識(shí)別與自學(xué)習(xí)機(jī)制,實(shí)現(xiàn)從“規(guī)則驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”的轉(zhuǎn)變。

責(zé)任編輯:張鵬輝

?
?
[ 資訊搜索 ]? [ 加入收藏 ]? [ 打印本文 ]? [ 違規(guī)舉報(bào) ]? [ 關(guān)閉窗口 ]

免責(zé)聲明:
本網(wǎng)站部分內(nèi)容來(lái)源于合作媒體、企業(yè)機(jī)構(gòu)、網(wǎng)友提供和互聯(lián)網(wǎng)的公開(kāi)資料等,僅供參考。本網(wǎng)站對(duì)站內(nèi)所有資訊的內(nèi)容、觀點(diǎn)保持中立,不對(duì)內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。如果有侵權(quán)等問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們,我們將在收到通知后第一時(shí)間妥善處理該部分內(nèi)容。



?
?

?
推薦圖文
推薦資訊
點(diǎn)擊排行
最新資訊
友情鏈接 >> 更多