大數據分析之數據缺失值處理教程來啦!
2022-11-10 16:04:55
次
高質量的決策必然依賴于高質量的數據輸入。
數據分析師在進行挖掘建模時,先要對數據進行預處理,這一階段常常占據數據挖掘建模80%左右的工作量。數據預處理做得好,往往能讓后續的數據分析工作事半功倍,而數據缺失作為數據分析中經常遇到的問題,更是數據準備工作中不可忽視的重要一環。
什么是缺失值?
缺失值是指粗糙數據中由于缺少信息而造成的數據缺失或截斷,導致現有數據集中某個或某些屬性的值不完全。缺失值不僅包括數據庫中的NULL值,也包括用于表示數值缺失的特殊數值。
在實際業務中,數據往往都是來自不同的系統或業務部門,缺乏統一的標準和機制,結構多樣的海量的數據匯集在一起,很容易出現有缺失值的情況。
當數據缺失比例較小時,我們可以直接手動刪除缺失記錄,但在實際業務數據中,通常缺失數據占比較大,這時候如果手工進行處理效率非常慢,如果直接刪除缺失記錄,會造成大量信息丟失,影響最終的分析結論。
那么當數據出現缺失時,我們要進行怎樣的操作呢?下面我們用Tempo AI來進行演示,只需簡單幾步就可以實現從缺失值的識別到缺失值的處理過程。
缺失值識別
對于缺失值的識別可以使用到的節點包括屬性生成、描述數據特征和數據過濾節點。
?屬性生成節點
該節點可以使用isnull函數進行缺失值識別,該函數支持任意類型數據的缺失值識別,具體操作如下所示。
01、使用文件輸入和屬性生成節點構建流程;
02、通過文件輸入節點上傳存在缺失數據的數據集;
03、在屬性生成中用isnull函數對存在缺失的數據進行處理;
04、流程執行成功后,在洞察查看運行結果。如果存在空值返回true,如果不為空返回false。
?描述數據特征節點
該節點可通過勾選【缺失個數】選項進行實現。
01、首先使用文件輸入和描述數據特征節點構建流程;
02、通過文件輸入節點上傳存在缺失數據的數據集;
03、在描述數據特征中通過勾選【缺失個數】選項對存在缺失的數據進行整理;
04、流程執行成功后,在洞察查看運行結果,可查看到是否存在缺失值情況,以及具體每個指標的缺失值個數。
?數據過濾節點
該節點可以在【過濾條件】處選擇保留缺失或過濾非缺失達到此目的。
01、首先使用文件輸入和數據過濾節點構建流程;
02、通過文件輸入節點上傳存在缺失數據的數據集;
03、在數據過濾節點中,通過在【過濾條件】處選擇“缺失”,對存在缺失的數據進行識別,并選擇保留滿足以下任意條件的數據;
04、流程執行成功后,在洞察查看運行結果,將存在缺失過濾出來,可查看具體哪些數據存在缺失值。
缺失值處理
對于缺失值的處理可以使用到的節點包括數據過濾、缺失值處理和自動數據處理節點。
?數據過濾節點
該節點適用于將存在缺失值的行為全部刪除的情況。
01、使用文件輸入和數據過濾節點構建流程;
02、通過文件輸入節點上傳存在缺失數據的數據集;
03、在數據過濾節點中,在【過濾條件】處選擇“非缺失”,并選擇保留滿足以下全部條件的數據,對存在缺失的數據進行過濾;
04、流程執行成功后,在洞察查看運行結果,結果中已經將存在缺失情況的數據過濾掉,實現了對缺失值的處理。
?缺失值處理節點
該節點可以對【處理方式】根據使用場景進行選擇。
01、使用文件輸入和缺失值處理節點構建流程;
02、通過文件輸入節點上傳存在缺失數據的數據集;
03、在缺失值處理節點中通過選擇【處理方式】對缺失值進行處理;
04、流程執行成功后,在洞察查看運行結果。如果存在空值將按照設置處理方式進行填充。
?自動數據處理節點
該節點可以選擇缺失值填充規則來進行處理。
01、使用文件輸入和自動數據處理節點構建流程;
02、通過文件輸入節點上傳存在缺失數據的數據集;
03、在自動數據處理節點中通過選擇【缺失值填充規則】對缺失值進行處理;
04、流程執行成功后,在洞察查看運行結果。如果存在空值情況將按照缺失值填充規則進行填充。
Tempo 機器學習平臺在設計之初,就秉承著“智建模、易應用”的設計理念,除了上面所提到的方法,還支持通過建立預測模型來對缺失值進行填充,使用機器學習模塊的回歸和分類等相關節點進行預測模型建立和利用,從而達到填充缺失值的目的。
處理完缺失值后,還能使用Tempo機器學習平臺的多種數據預處理方法,輕松實現數據清理,集成,變換,歸約等數據處理工作,為后續的挖掘分析做準備。以圖形化、拖拽式的操作,讓用戶以更快的體驗,高效完成數據分析的全部流程,還支持分析成果一鍵式服務發布,能夠與企業現有業務系統無縫整合,真正賦能企業的數字化發展!