本文轉載自:人機與認知實驗室,作者:刁生富、姚誌穎,佛山科學技術學院
摘要:在高度重視大數據思維的同時,也要保持理性,認真對待其存在的局限性:全數據模式的錯識、量化思維的焦慮和相關性的過度崇拜;需從整體兼顧部分、量化整合質化、因果強調相關的互補中實現大數據思維的超越。
隨著新壹代信息技術的迅猛發展,尤其是移動互聯網、大數據、雲計算和智能穿戴等技術的廣泛普及,數據呈爆炸式增長態勢,人類社會進入到壹個以數據為特征的大數據時代。“壹個‘壹切都被記錄,壹切都被分析’的數據化時代的到來,是不可抗拒的”。〔1〕10大數據環境下,數據成為驅動經濟和社會發展的“新能源”,並創造出更大的經濟和社會效益。在科學研究領域,計算機圖靈獎得主吉姆·格雷提出了科學研究的“第四範式”,即以數據密集型計算為基礎的科研範式。在這樣的大背景下,“量化壹切”、“讓數據發聲”成為時代口號,人們更加重視“全數據而非樣本”的整體性思維,追求“量化而非質化”的量化思維,強調“相關性而非因果性”的相關性思維。這無疑對通過追求規律性、因果性和抽樣方法來把握事物間相互關系的傳統思維產生了巨大的沖擊。然而,任何事物都是對立統壹的,在當下大數據思維熱中需要保持理性,辯證看待其帶來的思維轉變,認真對待其存在的局限性,探尋互補之道,從而在思維層面上更好地適應大數據時代的生存和發展。
1大數據思維的局限性
1.全數據模式的錯識
隨著各種傳感器和智能設備的普及,能對事物實現實時的監測和數據的采集、傳輸,獲取到事物的數據不只是樣本數據,而是全部數據,這種模式被稱之為“全數據模式”。在全數據模式的基礎上,可以更全面地分析和把握事物的特征和屬性,也有利於決策更為客觀和科學。但對於全數據模式,有學者也提出: “N =所有”常常是對數據的壹種假設,而不是現實。因此,在追求全數據的同時,需要進行必要的審思。
首先,我們逐漸陷入數據的爆炸增長和技術滯後的矛盾之中。在大數據環境下,數據是瞬息變化的,並不是保持靜止狀態。根據 IBM 的估計,每天新產生的數據量達到2.5*1018字節,如果把1立方米的水比作壹個字節,那麽它的數據量比地球儲水總量為1.42*1018立方米還要大,其數據增量是非常驚人的。即使數據技術水平快速提高,但相對於數據增長速度仍然是滯後的。“即使我們確實收集了所有數據並用技術對其進行分析,那也只能把握點與點之間的關系,或者把握局部的相關性。但這不代表能獲得事物發展的普遍性規律和趨勢。”這說明,技術的相對滯後阻礙著全數據模式的實現。
其次,“數據孤島”的客觀存在,使“全數據模式”的實現受到壹定的限制。要實現“全數據模式”,其重要前提是實現數據開放與***享。隨著數據蘊藏的價值為企業和政府熟悉,數據開放與***享取得了壹定的成效,但到目前為止,數據資源流通渠道仍未完全打通,“數據孤島”問題在壹定程度上仍然存在。主要表現在:其壹,數據跨行業流動仍未真正實現。企業、政府在意識到數據潛在價值後,也快速地在部門間或部門內部實現數據資源的流動,以便於組織的便捷發展。然而,在各數據主體利益驅使下,部門間和部門內部的數據卻沒有實現真正的互流,這也成為“數據孤島”亟需解決的又壹重要問題。其二,數據交易市場的興起在壹定程度上加劇了“數據孤島”的形成。以數據銷售為盈利模式的新興企業,在利益的驅使下,必然會提高其所收集到的數據的保密程度,而這壹心理和行為也將使“數據孤島”的問題更加凸顯。其三,企業對接速度慢、數據更新速度快,使“數據孤島”問題突出。由於技術的發展速度跟不上數據的增長速度,數據更新較慢,新舊數據的***處將“蒙蔽”人的視覺,導致新層面的“數據孤島”。因此,所謂“全數據模式”也許會成為我們所憧憬的理想狀態,是數據技術發展所架構起來的新“烏托邦”,是信息社會的投影———柏拉圖的洞穴陰影。
最後,大數據的關鍵價值並不在於“大”和“全”,而是在於“有用”。全數據模式的追尋會造成這樣壹種錯覺:只要能獲取全部數據,就能挖掘更多的數據價值。而目前能夠被挖掘出價值的數據大多都是能被電腦識別的結構化數據,但在整個數據世界中,大多數有價值的數據都是基於文檔未被標識的非結構化數據。2014年新增數據中非結構化數據在數據總量中占比超過80%,2015年這個比例超過85%。與此同時,非結構數據增長的速度是結構化數據增速的兩倍以上。這導致了壹些因無法識別而不能被標識的非結構化數據成為“數據垃圾”,最終被拋棄。這樣,我們所謂的“全數據模式”的實現將變得更加困難。
2.量化思維的焦慮
大數據時代下,自然界和人類社會的壹切現象和行為變化被數據化,“量化壹切”成為現實可能。在物的數據化同時,我們需要註意量化思維存在的幾個問題。本體與方法的缺陷當今大數據時代,人們的壹切活動會留下數據痕跡,整個世界也逐漸演化為壹個數據化的世界,數據世界觀不斷凸顯。在數據世界觀指導下,“量化壹切”便成為了大數據時代的方法論。哲學家們也開始反思數據與世界的關系問題,甚至提出“世界的本原是數據”的論斷。但數據是否就成為了世界的本體呢?我們認為,之所以會產生這樣的壹種觀念,主要是源於對數據本質認識有所偏失,需要慎思這壹問題。
首先,大數據的數據來源主要是基於人們社會生活中有意識或無意識的行為。換言之,大數據是對人們社會生活的感性對象性活動這壹客觀存在的量化反映,而“量化壹切”正是在大數據時代下提出的認識事物的壹種理想方法。因此,本質上說,數據的根源依然是客觀的物質世界,離開了物質世界,數據便成了“無源之水,無木之本”。
其次,“量化壹切”的主要目的是基於人們過去的感性對象性活動所產生的數據進行采集、傳輸、存儲與分析,實現幹預和引導人們的行為。其主要作用是提高預測的客觀性和科學性,更好地發揮人的主觀能動性和創造性。但是,這種“量化壹切”的理想方法只意識到了“數據是人類社會生活的靜態數據”,卻忽略了“人類社會生活是動態的數據”這壹客觀事實。它把整個人類社會生活當成壹個沒有生命力的靜態數據集,忽視了整個自然界和人類社會中很多現象都是瞬息變化和復雜的。
(2)個人行為“被選擇”
量化預測將使個人行為“被選擇”。基於大數據技術對人們的行為、態度、性格等進行量化分析處理,能預測並幫助人們找到所謂的合適戀愛和結婚對象,但我們也會疑問:系統為個人找到的這壹對象是否就是最為合適的呢?如果我們遵循數據量化分析而做出這壹選擇,那麽個人的直覺和感覺是否應該摒棄?我們是讓渡自己的選擇權還是遵循系統使我們“被選擇”? 從另壹個角度看,這是壹個關於感性和理性關系的認識問題:感覺和靈感等感性因素是人生命之初所僅有的,是人對整個自然和社會最本能的直覺。而理性則是在感性的基礎上後天逐漸發展而獲得的。人們之所以更加重視理性,主要是由於理性因其清晰而嚴密的邏輯為人易於掌握,而感性卻因其不確定性使人易於忽略。但也正因為如此,理性是有所限制的,而感性卻因其不確定性能打破限制而無限延伸,也能對時刻變化發展的世界做出最本能的直覺反應。我們對基於大數據分析能找到所謂合適的戀愛或結婚對象有所疑慮,是因為猶如人腦不可能被電腦所代替壹樣,感性也不能被理性所代替。
大數據分析預測的對象也許是個不錯的選擇,但不壹定是合適的或最佳的選擇,而且這種預測其實對個體的選擇自由已經產生了壹定的影響。
(3)數據獨裁的加劇
量化預測加劇“數據獨裁”。數據化思維的核心是定量化,或者說“用數據說話”。量化分析所做的成功預測,會進壹步加劇了人們對數據資產的依賴。沃爾瑪所謂的“啤酒與尿布”的成功案例便是實證。現在,企業和政府都更加重視數據的作用,尤其是在決策過程中更加註重用數據說話,似乎缺乏數據,其說服力便大打折扣。如果政府做任何壹項決策都以數據為依據,則會產生與之期待相反的後果。比如,假設今年的 GDP 為6%,去年的 GDP 為6.3%,今年相比去年同比下降0.3 個百分點,是否就可斷定今年的經濟壹定不如去年呢?很顯然,僅以此數據為標準做出這樣的評估是不客觀的。互聯網哲學家葉夫根尼·莫羅佐夫對許多“大數據”應用程序背後的意識形態提出尖銳批評,警告即將發生“數據暴政”。“詞本無意,意由境生”,數據分析和預測需要與相應的場景聯系,否則會產生“歧義”。
(4)隱私窺視與道德拷問
“量化壹切”使個人隱私進壹步受到窺視,同時量化預測有時也有悖於道德倫理。首先,個人隱私暴露在太陽底下。可穿戴工具、智能芯片等各種智能設備的應用,能實時監測人們的壹切行為,我們裸露在“第三只眼”的監控下,成為“透明人”。如各種醫療傳感器能實時監測個體的生理變化等。其次,數據化隱私泄露加深社會歧視。隨著個人行為數據化,在數據利益誘導下,極易出現隱私泄露問題,也將加深社會歧視程度。例如,當醫院泄露個人醫療數據,數據顯示某人患有HIV,人們便帶著有色眼鏡看待此人,造成患者的心理失衡、生活受阻、就業困難等等,除了個人人權遭到侵犯,社會歧視程度也進壹步加深。最後,大數據預測有時也會違背人類道德。眾所周知,Target有壹個項目分析,就是根據個體瀏覽和購買孕婦產品的數據分析,能提前預知某少女何時懷孕,並將有關的妊娠產品優惠券送給該少女,其父親卻並不知情,得知後痛罵了經理壹頓。此事背後折射出兩個值得深思的問題:第壹,企業是如何獲知該少女懷孕的?個人的隱私是如何泄露的?反言之,我們的隱私處於窺視中,且在個人毫不知情、沒有同意下被獲取,這不僅是讓個體感到恐慌,也是觸犯法律的。第二,父親作為該少女最親密的人還未得知此事,而企業卻先獲悉並推送優惠券,這是否對別人的壹種不尊重?是 否有悖於道德倫理?相關的倫理問題值得反思。
3.相關性的過度崇拜
大數據的核心思維是相關思維,但相關思維在生活實踐中也衍生出過度崇拜的問題。人們之所以會對相關思維過度崇拜主要有以下幾個原因:首先,海量數據的存在,使人們無法直接從眾多雜亂的數據中挖掘出真正有價值的東西,因此,人們只能通過統計學上的相關性分析來獲取事物之間的關聯性,再進壹步地挖掘出背後真正的“知識”。其次,在高度復雜和高度不確定性的時代背景下,人們挖掘事物間因果性的難度進壹步加大。復雜性科學告訴我們,世界是復雜的、普遍聯系的,要求我們用復雜性思維去看待世界,從整體上去把握和研究整個人類社會。相關思維從宏觀上去把握事物間的關聯性這壹特性,更加劇了人們對相關思維的崇拜。最後,在瞬息變化的環境下,相關分析更適合商業運行邏輯:只重形式不求原因。對於實用性的商業活動,其追求的是在最短的時間內,用最低的成本來獲取最大的利潤,這進壹步加劇了企業對相關思維的過度崇拜。“大數據的本質,是壹種統計學上的相關性,從現象上看,它與經典科學中的統計規律是壹致的,這是它們相同的或者說是易混淆的地方”〔2〕。然而,在運用相關分析時須註意以下兩點問題:第壹,相關分析關鍵是要找到“關聯物”。隨著數據量的增長,數據的廣度和深度也不斷擴展,無意義的冗余、垃圾數據也越來越多,帶來的更多是數據噪聲,真正有價值的數據就被淹沒其中,如何從眾多的數據噪聲中尋找出其中的“關聯物”則是大數據分析需要解決的重要問題。第二,偽相關、虛假相關的客觀存在是大數據分析的難點。統計學上,相關關系的種類很多,有正相關和負相關、強相關和弱相關,同時也有假相關、偽相關等。假相關等相關關系會導致分析結果的錯誤而帶來嚴重的後果。谷歌流感系統幾次流感預測結果錯誤便證實了這壹點。如何識別假相關等相關關系則是大數據分析需要突破的難點所在。尋找事物的因果關系是人類長期以來形成的思維定勢和習慣,也是把握事物內在本質的必要途徑。著名科學哲學家賴辛巴赫認為: “不存在沒有因果關系的相關關系。”要防止對相關思維的盲目崇拜,突破大數據思維的局限性,就要註重運用互補思維來超越大數據思維的局限性。
2在互補中實現大數據思維的超越
1.整體兼顧部分
整體與部分作為標誌著客觀事物的可分性與統壹性的哲學範疇,具有重要的認識論意義。從方法論上看,“全數據模式”註重的是用整體方法去把握事物,而不是還原方法。因此,要克服“全數據模式”的局限性,必須要著眼整體,系統把握;兼顧部分,深化認識。實現整體方法和還原方法的統壹。
首先,著眼整體,系統把握。經典系統論認為,要把整個事物看成是壹個有機整體,註重把握整體的特性和功能。此外,復雜性科學認為,世界是復雜多變的,要求我們具備全局視野,從整體上把握復雜對象。大數據時代,我們應做的是通過把全數據作為壹個整體,利用機器和建模去尋找數據間的相關關系,尋找出“關聯物”,對數據背後折射的事物把握其整體屬性,進壹步分析事物內部各要素間的結構和聯系,深入挖掘要素間的因果性,具體地、綜合地認識事物。
其次,兼顧部分,深化認識。傳統還原論認為,把事物分割為不同的部分,通過對各部分的理解整合達到對整體的認識。雖然傳統還原論也存在著忽略事物各部分之間的相互聯系、相互作用的缺陷,但這並不能說明還原論已沒用處,其還原方法也並沒有消除人們對事物的整體認識。在研究策略方面,還原論的思想主要體現為壹種逐層分析的策略。因此,在復雜性時代下,運用好還原方法的關鍵在於認知還原事物的層次性。
大數據時代下,由於數據巨大且結構復雜,難以尋求各數據間的因果關系,因此,我們取用的是把全數據看成壹個整體去把握其相關性,但數據物化的這壹整體本質是什麽?則需要我們進壹步分析其內部各要素間的因果邏輯,這實質上運用的就是還原方法。從這個意義上講,因果邏輯探究是還原方法的具體體現,但這壹還原方法又與傳統還原方法相區別。因此,“還原方法與整體方法的復雜關系,歸根結底應該是“互補”的”。現代科學發展也表明,“不要還原論不行,只要還原論也不行;不要整體論不行,只要整體論也不行……科學的態度是把還原論與整體論結合起來”。只有充分認識整體與部分的辯證關系,認識整體方法和還原方法的復雜關系,才能利用好這壹工具去認識和改造世界。
2.量化整合質化
量化研究的目的是對事物及其運動的量的屬性作出回答,而質化研究的目的是深入研究對象的具體特征或行為,進壹步探討其產生的原因。從內容上看,質化研究與量化研究應該是統壹的、相互補充的:質化研究為量化研究奠定基礎,是量化研究的依據;而量化研究是質化研究的具體化,使質化研究更為科學、準確,從而得出更為廣泛而深入的結論。兩者從不同的角度去分析問題,各有其優點,也正因為如此,才能達到對事物更為全面的認識。因此,在科學研究中應將兩者結合起來,取長補短,發揮最大效應。首先,量的整體把握為質的研究奠定基礎。大數據環境下,“量化壹切”之所以顯示出其重要的作用主要基於三點原因:第壹,海量數據使“量化壹切”成為可能。基於各種智能設備的應用,人們的物理世界和虛擬世界都可以被量化,通過對感性對象的數據化分析,從量的相關系數所呈現的相關程度能夠找尋數據間的關聯性,把握數據間的相關關系,在量上確定數據物化的聯系。第二,“量化壹切”有利於我們從量的整體性把握事物。通過量化分析,能對事物在量的整體性上有壹個大致的認識,且這壹整體性認識並非是質化研究意義上對事物的抽象普遍認識,而是具體細化為對具有關聯性的具體事物的整體認識,即能讓我們構造壹個全新的整體圖景。第三,大數據本身實質是壹個量的關系集合體,具有實踐指導意義。艾伯特—拉斯洛·巴拉巴斯指出:“人類行為93%是可以預測的,只是過去我們沒有相關數據,也沒有壹定的方法來探究人類的行為。”因此,量化研究對於把握事物間的相關性趨勢具有重要的價值作用。其次,質的因果研究創建新聯系,滿足新需求。大數據的量化分析雖能使我們從整體上把握事物的相關性,但並不能明確兩者之間的因果性。因果關系是要素間相互作用過程與其效應之間的聯系。因此,在量的維度把握關聯事物的基礎上,需要深入研究事物內部各構成要素的結構和組合作用,探尋各內部要素的因果性,改變各要素間的相互作用,並結合人類發展的需求創造出滿足人們的需要的結果。另壹方面,在創造新的由內在要素間因果邏輯而推導出的因果關系,可進壹步在量化研究中進行考察或檢驗。如此,通過量化研究給質化研究提供有關感性對象的量化整體屬性和壹般結構,質化研究在此基礎上深入探究要素間的相互作用,得到具有代表性的結論,再放到全數據中進行量化研究予以實證,實現量化和質化的互補。
3.因果強調相關大數據時代背景下,舍恩伯格提出“我們知道是什麽就夠了,沒有必要知道為什麽。”此後,人們更註重相關關系,而不是因果關系。但是,在整個人類社會都積極關註相關關系的同時,也必然要反思和重估因果關系的重要性和影響。我們不禁會產生疑慮並反問:其壹,世界上存不存在因果關系這壹本體論問題?其二,相關關系與因果關系之間究竟是什麽關系?其三,在科學研究中如何實現兩者的互補?對於因果關系本體論的問題,我們認為,因果關系是客觀存在的。因果思維是人類長期以來形成的壹種思維習慣,也是我們認識世界本質的邏輯前提。近代以來,自然科學和人文社會科學的研究成果都是建立在因果關系這壹嚴密的數理邏輯推理之上的,而且自然科學的中心任務正是揭示事物之間的因果關系。關於因果關系與相關關系的關系問題,有學者認為是科學與技術關系在大數據時代背景下的壹種折射。科學是探究因果關系即因果律的學問,而技術是解決問題的方法、技巧,兩者關註的焦點存在差異,但兩者並非對立的關系,如同技術解決“怎麽做”、科學回答“為什麽”壹樣,相關關系可以在實踐中引導我們“怎麽做”,而因果關系可以回答我們“為什麽”這樣做。即便大數據時代更側重強調相關關系,也始終離不開對因果關系的追尋,這是由思維的本性所決定的。側重相關分析並沒有否定因果分析,也並沒說明因果關系不重要,反而是更有利於因果關系的深入分析,因為兩者並不是排斥的關系,而是並存的關系。我們可以在科學研究中實現兩者的優勢互補。首先,相關關系為因果關系研究奠定基礎。大數據時代,我們可以基於海量數據的基礎上通過相關分析快速、便捷、精確地尋找出某事物的關聯物,然後對關聯物進行因果關系的探尋,把握事物的本質。正如舍恩伯格所說: “通過找出可能相關的事物,我們可以在此基礎上進行進壹步的因果關系分析,如果存在因果關系的話,我們再進壹步找出原因。”而在尋找特征關聯物的過程中,其實也內含有因果關系的分析。
其次,因果關系是相關關系的內在規定和目標。在科學研究領域,我們所追尋的不僅是知道“是什麽”的相關性,更重要的是要明確事物之間“為什麽”的因果性,由此建立起來的科學理論才能經受住實踐的檢驗。從這個意義上講,因果關系是大數據時代下相關關系內在的、本質的規定,也是相關關系背後所追求的目標所在,起著決定性的作用。我們需要做的是,以因果思維為研究根基,以相關思維為研究導向,把兩者互補起來挖掘大數據蘊含的價值,實現大數據思維的超越。
歡迎大家評論
《召 集令 》
身懷學術絕技的妳速速前來!
1,有學術水準:壹定的專業學術水準是必須的!
2,有獨到思想:具深度,廣度,銳度者為最佳!
3,內容範疇:自然科學,社會科學等等不設限!
4,資訊或翻譯類文章:符合上述條件的均可以。
學術plus咨詢/投稿郵箱
聲明:版權歸原作者所有。文章觀點不代表本機構立場。
《中國電子科學研究院學報》歡迎各位專家、學者賜稿!投稿鏈接 ki.net
學報電話:010-
學報郵箱: