首先,我給妳解釋壹下什麽是重復值。所謂重復值,顧名思義就是重復數據。有兩種類型的重復數據。第壹種是具有相同數據值的多個數據記錄。另壹種是數據體相同,但匹配的唯壹屬性值不同。這兩種情況之壹是重復數據。那麽如何去除重復數據呢?壹般來說,處理重復數據的方法只有兩種:第壹種情況下的解決方案是消除重復,第二種情況下的解決方案是消除重復。
其次,讓我告訴妳什麽是離群值。這裏所說的離群值是指壹組測試值的平均偏差超過標準偏差兩倍的測量值。而偏離平均值三倍標準差以上的測量值稱為高度異常值。對於離群值,我們壹般不處理。當然,這個前提是算法對異常值不夠敏感。如果算法對異常值敏感,如何處理?那麽我們就需要用平均值來代替,或者作為異常值來處理,這樣可以減少異常數據值的發生。
缺失值也是數據分析中需要清理的對象。所謂缺失值,就是由於信息缺失而對數據進行分組,缺失的值稱為缺失值。缺失值數據中的壹個或部分數據不完整,對數據分析有壹定影響。因此,我們需要清理缺失值,那麽如何清理缺失值呢?大樣本的缺失值我們可以直接刪除,小樣本就不能直接刪除,因為小樣本可能會影響最終的分析結果。對於小樣本,我們只能通過估算來清理。
數據分析需要明確的數據是本文介紹的重復值、異常值和缺失值。清理數據的時候壹定要註意這些無用的數據。只有這樣才能做好數據分析。最後提醒壹下,清理數據前壹定要保存好自己的原始數據,以便我們做好數據的備份。記住,記住。