一種基于函數依賴的數據清洗方法
本發明公開了一種基于函數依賴的數據清洗方法,其特征在于, 包括:對原始數據進行數據轉換,以將其不同類型的屬性全部轉換為 數值型屬性;對于數據轉換后的原始數據,提取其屬性的自依賴函數 特征;對于數據轉換后的原始數據,提取其屬性之間的互依賴函數; 根據自依賴函數特征和互依賴函數確定需要進行清洗及待清洗的屬性 及樣本,并根據該屬性及樣本形成相關清洗決策依據,判斷待清洗的 屬性對象是采用自依賴函數清洗還是采用互依賴函數進行清洗,若采 用自依賴函數清洗,則將不符合條件的樣本根據自依賴函數確定的多 項式進行校準修復,并加上白噪聲作為隨機擾動。本發明能夠解決大 數據中“臟數據”問題,為后續的大數據分析挖掘提供高質量的數據。
華中科技大學
2021-04-11