1、分箱:這是壹種簡單常用的預處理方法,通過考察相鄰數據來確定最終值,把待處理的數據(某列屬性值)按照壹定的規則放進壹些箱子中,考察每壹個箱子中的數據,采用某種方法分別對各個箱子中的數據進行處理。
2、聚類:將物理的或抽象對象的集合分組為由類似的對象組成的多個類,找出並清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。
3、回歸:試圖發現兩個相關的變量之間的變化模式,通過使數據適合壹個函數來平滑數據,即通過建立數學模型來預測下壹個數值,包括線性回歸和非線性回歸。
1、分箱:這是壹種簡單常用的預處理方法,通過考察相鄰數據來確定最終值,把待處理的數據(某列屬性值)按照壹定的規則放進壹些箱子中,考察每壹個箱子中的數據,采用某種方法分別對各個箱子中的數據進行處理。
2、聚類:將物理的或抽象對象的集合分組為由類似的對象組成的多個類,找出並清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。
3、回歸:試圖發現兩個相關的變量之間的變化模式,通過使數據適合壹個函數來平滑數據,即通過建立數學模型來預測下壹個數值,包括線性回歸和非線性回歸。