在企業管理信息化的背景下,數據分析技術已經成為企業應用的壹個重點,但由於歷史原因,大多數人對傳統的統計分析和新的數據挖掘並不了解,存在很多模糊的認識。先說兩個關於統計方法的常見誤區。
統計分析的兩個誤區
統計學有很強的數學背景,所以常見的誤解是統計學家等於數學家,數學家等於陳景潤,陳景潤等於哥德巴赫,所以統計學家等於哥德巴赫。問題是,哥德巴赫和企業數據管理有什麽關系?對於統計學來說,這種誤解真是壹大不幸。著名統計學家喬治·博克斯有句名言:所有的模型都是錯的,有些模型是有用的。從表面上看,這種言論似乎有些放肆,但正是統計學家在處理實際問題時采取的這種務實態度。統計學家是壹群處理數據的工程師。工程師也使用大量的數學公式和計算,但絕不是坐在房間裏證明深奧的數學定理或哥德巴赫猜想的極客。
還有壹種誤解,認為統計似乎與會計掛鉤。說這話的人是說,企業中統計人員的工作類似於會計,統計人員和會計的工作為統計分析提供了數據基礎。但是我們壹般所說的統計分析是指基於數理統計發展起來的很多方法。這樣,把統計和會計混為壹談,就有些低估了統計分析的難度和潛力。簡單來說,會計系統將業務活動轉化為數據,在數據編碼和標準化方面是獨壹無二的。它為企業管理提供了大量的基礎數據,會計系統構成了量化管理的基礎設施。統計方法要想在企業的管理實踐中發揮更大的作用,就要學習會計的這種標準化思維,讓自己用起來更方便,更貼近使用者的理解,壹句話,變得更“笨”。
再看企業決策支持系統。
從企業決策支持系統的角度評價各種量化管理方法的意義。這個時候實現壹個特定的統計方法或者數據挖掘技術,其實就相當於實現壹個項目。量化管理方法很多,統計方法是壹大類,特別適合不確定環境和信息不充分情況下的決策。
企業在選擇系統時應該怎麽做?壹個通用的問題解決模型可以說明通用的問題解決模型包括:問題、可利用的資源和技術、成本,綜合考慮這三個方面的作用可以得出壹個相對合理的解決方案。這種通用的問題解決模型當然適用於企業尋找信息途徑的努力。
從統壹的角度來看,企業量化管理的基礎是數據采集和處理系統,壹般稱為決策支持系統。有了這個金字塔,我們就可以清晰地看到壹步步的提煉過程(從噪音到數據、信息、知識、智慧)。決策至少取決於知識層面的處理結果,而未處理的原材料就是所謂的噪音。從這個壹般化的模型出發,我們可以把會計看作壹個信息系統,不同層次之間的接口需要通過具體的方法進行細化,每個接口上可以使用的技術也是不同的。
壹個信息系統可以包括會計系統、數據庫系統和數據分析系統。有壹種常見的誤解,認為統計方法只涉及來自數據的分析工作。其實巧婦難為無米之炊,統計方法的應用效果取決於基礎數據。收集什麽樣的基礎數據,如何節約數據收集的成本,如何減少數據收集過程中的誤差,都需要壹定的理論指導。統計學為這些問題提供了許多有效的解決方案。
和實際的礦壹樣,挖銀礦、煤礦、金礦用的技術完全不同。從噪音到智能的過程包括中間產品,還有壹個對癥下藥的問題。考慮到實現的成本和數據分析的難度(如數據量、數據維度等。),數據處理很容易被理解為壹門藝術,說統計分析和數據挖掘是藝術,就像淘金和醫療壹樣,不壹定是最貴的藥就是最好的,應該是基本正確的。比如統計方法和統計軟件的選擇有差異。小企業的信息化基本上可以依靠ACCESS數據庫和EXCEL接口來完成。大型企業的信息化需要與專業的管理軟件公司合作完成。前期信息化的成本和故障率往往比較高,類似於趕醫院的情況。
有的人有錢有病,典型的癥狀就是壹定要吃貴藥,不然就好不了。這種現象在企業信息化中也可以看到。比如美國企業的信息化接近堅持鍛煉,而中國企業的信息化更像是病後康復――在健康人的示範效應下,中國的企業特別焦慮,不註重信息系統的整合和自身的管理實踐,只買貴的不買對的,結果學費很多。筆者希望數據分析的應用不要陷入同樣的誤區。
計算機扮演的角色
從以往的情況來看,統計方法的大規模普及依賴於計算能力的不斷增強或者計算成本的大幅下降。芯片制造技術和軟件工程的快速發展給人們留下了深刻的印象,但數據的增長壹直領先於計算機的增長。這種無能的感覺是歷史上的常態。手工計算時,人們會認為多元線性回歸的計算很可怕;有手控電腦的時候,做主成分分析很嚇人;現在,海量數據來了。雖然擁有20年前無法想象的計算能力,但相關的分析工作仍然令人頭疼。但是,計算機還是讓統計跟在後面,不斷探索自己的領地。所以統計學要感謝計算機,是計算機讓統計學成為了壹門真正的實用學科。
另壹方面,計算機科學也在不斷入侵統計學領域,模糊了統計學的邊界。很多人都在自由地使用計算機,“自以為是”地進行數據分析或者所謂不嚴謹的統計分析,他們往往會忽視“統計專家”的意見。很多用統計學方法分析問題的人,甚至沒有接受過足夠的統計學訓練。對於很多計算數學的專家來說,統計學家的權威地位是比較陌生的。
但還是有很多統計方法是這樣發展起來的:實際應用部門的人提出壹種實證方法,然後其他非統計專業的人開始模仿推廣。最後,統計學家緊隨其後,試圖從統計學意義上解釋這種方法的合理性,使之更符合學術界的需要。廣泛使用的方法將進入統計學教科書,成為統計學不可分割的壹部分。有時,統計數據落後於應用程序。
目前,依靠嚴格的數學假設和推理的統計分析方法仍然是統計學的主流。但面對外行人的自由行動,統計人員卻束手無策。數據挖掘正在成為新的入侵者,甚至是競爭者。統計學家應該區分自己的理論和實際應用。結果統計學家開始分化,越來越多的人放下架子,這是好事。但是,很多計算科學出身的數據挖掘專家為了突出自己的革命形象,會宣稱自己不是統計學家,甚至強調自己不需要懂統計學,這有點虛無主義,有點過頭了。
標簽
我們可以從長計議。從數據轉換來看,會計做得不錯。從數據質量的描述和要求來看,會計核算更加規範,各種數據分析方法都可以借鑒。分析數據的體驗是統計方法更加豐富。如果新的數據分析方法壹定要劃清界限,那就沒有充分利用現有的經驗,顯然要付出更多不必要的成本。從企業信息化的需求出發,將企業的決策支持系統視為壹個整體,然後盡可能從企業整體的角度選擇和應用現有的各種量化管理方法。總之,不神化任何量化管理方法才是正道。