如何理解傳統數據與大數據之間的區別

針對大數據帶給教育的機遇與挑戰，與讀者深入探討和分享大數據與傳統數據的區別，及其行業落地的進展情況。

壹、大數據與傳統數據的區別

與所有新鮮事物壹樣，大數據是壹個尚未被明確定義的概念。它如此年輕，以至於最時髦的大學還沒來得及趕上開設這門專業，最時髦的專家也還未能讓自己的理論壹統江湖。所有對它進行研究的人都還在感悟，大數據究竟與傳統數據有怎樣的區別。

互聯網是個神奇的大網，大數據開發也是壹種模式，妳如果真想了解大數據，可以來這裏，這個手機的開始數字是壹八七中間的是三兒零最後的是壹四二五零，按照順序組合起來就可以找到，我想說的是，除非妳想做或者了解這方面的內容，如果只是湊熱鬧的話，就不要來了。

在google scholar（谷歌學術搜索）中鍵入big data，查詢近5年來的學術著作，***有355,000篇之多；而如果輸入“big data”與“education”兩個關鍵詞，模糊匹配下約出現17,600條結果，而精確匹配下則不足10篇。可見，教育領域的大數據挖掘，仍然是壹片未開墾，未有先來者制定規則的處女地。而在傳統數據領域，壹次PISA考試就能在全世界各地產生300篇以上的博士論文，全世界教育與心理計量方向每年約培養碩士與博士5000人，教育與心理統計分析相關的SSCI核心期刊多達489種，為IES、ETS等機構提供數據分析的專業機構有160余家，從業者4000多人，而像WWC這樣的行業標準已經形成——傳統的教育數據領域氣象格局已成，很難撼動其已有的方法論與評價體系。

數據量與分析手段也必然走向鳥槍換炮。傳統數據中，壹個學生讀完9年制義務教育產生的可供分析的量化數據基本不會超過10kb，包括個人與家庭基本信息，學校與教師相關信息，各門各科的考試成績，身高體重等生理數據，圖書館與體育館的使用記錄，醫療信息與保險信息等，以及其他類別的評估數據。這樣的數據量，壹臺較高配置的普通家庭電腦，初級的EXCEL或SPSS軟件就能進行5000名以下學生量的統計分析工作；而雙核處理器，ACESS，SurveyCraft等軟件的配置足以完成整個區域的高級統計運算。這樣的工作壹般只需要中級水平的教育與心理統計知識，壹套可供按部就班進行對照處理的數據分析模版，以及經過兩三個月的操作培訓就能基本勝任。

而大數據的分析則完全是另壹種層面的技術。根據美國著名的課堂觀察應用軟件開發商Classroom Observer的研究，在壹節40分鐘的普通中學課堂中壹個學生所產生的全息數據約有5-6GB，而其中可歸類、標簽、並進行分析的量化數據約有50-60MB，這相當於他在傳統數據領域中積累5000年的數據總和。而要處理這些數據，需要運用雲計算技術，並且需要采用Matlab，Mathematica，Maple等軟件進行處理並進行數據可視化。而能夠處理這些數據的專業人才壹般來自數學或計算機工程領域，需要極強的專業知識與培訓，而更為難能可貴的是，大數據挖掘並沒有壹定的方法，更多需要依靠挖掘者的天賦與靈感。

大數據與傳統數據最本質的區別體現在采集來源以及應用方向上。傳統數據的整理方式更能夠凸顯的群體水平——學生整體的學業水平，身體發育與體質狀況，社會性情緒及適應性的發展，對學校的滿意度等等。這些數據不可能，也沒有必要進行實時地采集，而是在周期性、階段性的評估中獲得。傳統數據反應的是教育的因變量水平，即學生的學科學習狀況如何，生理健康與心理健康狀態如何，對學校的主觀感受如何等問題。這些數據，完全是在學生知情的情況下獲得的，帶有很強的刻意性和壓迫性——主要會通過考試或量表調查等形式進行——因此也會給學生帶來很大的壓力。

而大數據有能力去關註每壹個個體學生的微觀表現——他在什麽時候翻開書，在聽到什麽話的時候微笑點頭，在壹道題上逗留了多久，在不同學科課堂上開小差的次數分別為多少，會向多少同班同學發起主動交流？這些數據對其他個體都沒有意義，是高度個性化表現特征的體現。同時，這些數據的產生完全是過程性的：課堂的過程，作業的過程，師生或生生的互動過程之中……在每時每刻發生的動作與現象中產生。這些數據的整合能夠詮釋教育微觀改革中自變量的水平：課堂應該如何變革才符合學生心理特點？課程是否吸引學生？怎樣的師生互動方式受到歡迎？……而最最有價值的是，這些數據完全是在學生不自知的情況下被觀察、收集的，只需要壹定的觀測技術與設備的輔助，而不影響學生任何的日常學習與生活，因此它的采集也非常的自然、真實。

所以，綜合以上的觀點，我們不難發現，在教育領域中，傳統數據與大數據呈現出以下區別：

1、傳統數據詮釋宏觀、整體的教育狀況，用於影響教育政策決策；大數據可以分析微觀、個體的學生與課堂狀況，用於調整教育行為與實現個性化教育。

2、傳統數據挖掘方式，采集方法，內容分類，采信標準等都已存在既有規則，方法論完整；大數據挖掘為新鮮事物，還沒有形成清晰的方法、路徑、以及評判標準。

3、傳統數據來源於階段性的，針對性的評估，其采樣過程可能有系統誤差；大數據來源於過程性的，即時性的行為與現象記錄，第三方、技術型的觀察采樣的方式誤差較小。

4、傳統數據分析所需要的人才、專業技能以及設施設備都較為普通，易獲得；大數據挖掘需要的人才，專業技能以及設施設備要求較高，並且從業者需要有創新意識與挖掘數據的靈感而不是按部就班者，這樣的人才十分稀缺。

二、大數據時代潛藏的教育危機

“不得不承認，對於學生，我們知道得太少”——這是卡耐基·梅隆大學（Carnegie Mellon University）教育學院研究介紹中的壹句自白，也同樣是美國十大教育類年會中出鏡率最高的核心議題。這種對於學生認識的匱乏，在21世紀之前長達數百甚至上千年的教育史中並沒有產生什麽消極的效應，但卻在信息技術革命後的近十年來成為教育發展的致命痼疾。

“過去，對於學生來說，到學校上學學習知識具有無可辯駁的重要性，而那是因為當時人們能夠接觸知識的渠道太少，離開學校就無法獲取成體系的知識”斯坦福大學教授Arnetha Ball在AERA（美國教育研究會）大會主旨發言中說道，“但是，互聯網的普及將學校的地位從神壇上拉了下來。”Ball的擔心不無道理。根據Kids Count Census Data Online發布的數據，2012年全美在家上學（Home-Schooling）的5-17歲學生已達到197萬人，相對逐年價下降的出生人口，這壹人口比重十分可觀。

與此同時，應運而生的則是內容越來越精致的網上課堂，而創立於2009年並迅速風靡全球的可汗學院（Khan Academy）正是其中的傑出代表。從知名學府的公開課到可汗學院，這種網絡學習模式受到熱捧恰恰證明了：人們對於學習的熱情並沒有過去，但是人們已經極端希望與傳統的學院式授課模式告別。壹成不變，甚至“目中無人”的傳統集體教學模式在適應越來越多元化、也越來越追求個性化的學生群體時顯得捉襟見肘。

可汗學院模式不但支持學生自主選擇感興趣的內容，還可以快速跳轉到自己適合的難度，從而提高了學習的效率。學習者沒有學習的壓力，時長、時機、場合、回顧遍數都可以由自己控制。

可以想象，如果可汗學院的模式進壹步發展，與計算機自適應（CAT）的評估系統相聯系，讓使用者可以通過自我評估實現對學習進度的掌握以及學習資料的精準獲取，那麽它將形成互聯網產品的“閉環”，其優勢與力量將是顛覆性的。

而如果傳統教育的課程模式不革新，課堂形態不脫胎換骨，教師角色與意識不蛻變，那麽學校的存在就只有對現代化學習資源匱乏的學生才有意義；而對於能夠自主獲得更適宜學習資源的學生來說，去學校可能只是為了完成壹項社會角色賦予的義務，甚至談不上必要性，也就更談不上愉快的體驗或興趣的驅使了。

大數據的研究可以幫助教育研究者重新審視學生的需求，通過高新的技術以及細致的分析找到怎樣的課程、課堂、教師是能夠吸引學生的。但問題在於，社會發展給予教育研究者的時間窗口並不寬裕，因為有太多人同樣在試圖通過大數據挖掘設法瓜分學生們有限的精力與註意力。而且從某種程度上，他們做得遠比教育研究者更有動力與誠意。

首當其沖的是遊戲的設計者——青少年是其主要消費群體。撇開馳名世界的暴雪公司（Blizzard Entertainment），美國藝電公司（Electronic Arts Inc.），日本任天堂公司（Nintendo）等國際巨鱷不談；即使是國內的盛大網絡，第九城市，巨人科技，淘米網絡等遊戲公司，亦都早已組建了專業實力強勁的“用戶體驗”研究團隊。他們會通過眼動跟蹤，心律跟蹤，血壓跟蹤，鍵盤與鼠標微操作速率等各種微觀行為來研究如何讓玩家在遊戲中投入更多的時間，更加願意花真實世界的錢來購買虛擬世界的物品。什麽時候應該安排敵人出現，敵人應當是什麽級別，主人公需要耗費多少精力才能夠將其擊敗，這些變量都得到了嚴格的設計與控制，原因只有壹個——大數據告訴遊戲創作者，這樣的設計是最能夠吸引玩家持續遊戲的。

其次是電影視頻、青春小說等鏈式文化產業。為什麽在網站上看視頻會壹個接壹個，無法停止，因為它會根據該賬號的歷史瀏覽記錄推算出其喜歡看什麽樣的視頻，喜歡聽什麽類型風格的歌，並投其所好；而暢銷網絡小說看似並沒有“營養”，但裏面的遣詞造句、語段字數，故事起伏設定，甚至主人公性格的類型都是有相關研究進行支持——讀者往往並不喜歡結構嚴密、精心設計的劇情——這就是為什麽情節千篇壹律的韓劇受人追捧的原因，他們通過收視率的反復研究，挖掘到了觀眾最需要的那些元素，並且屢試不爽。

此外還有許多更強大的研究者，比如電子商務，總能通過數據找到妳可能願意購買的商品——他們甚至知道買尿片的父親更願意買啤酒。

這些領域看似與我們教育者並無特別關聯，但是他們與我們最關心的對象——學生卻有著千絲萬縷的聯系。數百年甚至數十年前，學生並不會面對如此多的誘惑，學校在其生活中占據極大比重，對其影響也最為顯著，因此教育者對於學生的控制總是有著充分的自信。但是，當不同的社會機構與產品開始爭奪學生的註意力時，教育者的自信就只能被認為是壹種無法認清形勢的傲慢了——因為在這場“學生爭奪戰”中，傳統學校看上去實在缺乏競爭力。

即使教育研究者願意放下身段，通過大數據的幫助來悉心研究學生的需求與個性。但是人才的匱乏也是非常不利的壹點因素——相比於商業環境下對研究實效的追逐，教育研究的緩慢與空洞顯得相形見絀。在互聯網企業紛紛拋出“首席數據官”的頭銜，向各種數據科學狂人拋出橄欖枝，並且在風險投資的鼓舞下，動輒以百萬年薪進行延聘時，大數據研究的前沿陣地必然仍是在互聯網行業中最轟轟烈烈地開戰。

分析形勢後的姿態，以及投入的力度與強度，或許是教育領域在進入大數據研究時最先需要充分考慮的兩個先決條件。

三、誰在為大數據歡呼：壹場關於“人性”研究的啟蒙

孜孜不倦地觀測、記錄、挖掘海量的數據，有朝壹日終會推導出或簡約或繁復的方程，以此得以在自然科學的歷史豐碑上留名——數百年來，這種對數據的崇拜早已成為了物理學家、化學家、生物學家、天文地理學家們的信念。而牛頓，貝葉斯，薛定諤等壹代代巨匠的偉業也揭示了數據對於科學發現的無限重要價值。

相形之下，社會科學領域的研究就要慘淡地多——他們同樣看重數據，同樣追求統計與分析的“程序正義”，同樣勤勤懇懇地設計實驗與調研，去尋找成千上萬的被試，同樣像模像樣地去嵌套方程……但是幾乎很少有研究結果能夠得到普遍的承認，不管是社會學、心理學、經濟學、管理學還是教育學。

當然，社會科學領域的研究者們遇到的困難是顯而易見的：“人性”與“物性”是不同的，物質世界比較穩定，容易尋找規律；而由人組成的社會極其善變，難以總結。從數據的角度來說，人的數據不如物的數據那麽可靠：

首先是人不會像物那樣忠實地進行回應：誰知道壹個人填寫的問卷有多少是註意力不集中填錯的、語文水平不高理解錯的、還是壓根沒打算講真話？此外，人與人本身的差距也大於物與物的差距：兩個化學組成相同的物質表現出各種性質幾乎是完全壹樣的，但即使是兩個基因完全相同的雙胞胎也會因為不同的人生經驗，而表現出大相徑庭的行為特征。

但這些都還並不關鍵，最最重要的是：人無法被反復研究。人不是牛頓的木塊，不是伽利略的鉛球，不是巴普洛夫的狼狗，人不會配合壹次次從斜坡上被滑下來，壹次次從比薩塔頂被扔下來，壹次次流著口水幹等著送肉來的鈴聲。而我們知道，在“科學”的三個標準中，首當其沖的就是“可重復驗證”。

換句話說，我們可以獲得的關於“人性”的數據不夠大，不夠多，不夠隨時隨地，因此我們無法從數據中窺見人性。2002年諾貝爾經濟學獎授予心理學家丹尼爾?卡尼曼（Daniel Kahneman）時，似乎標示著社會科學領域已經接受了這樣壹種事實：人類的行為是無法尋找規律、無法預測、難以進行科學度量的。社會科學開始懷疑用純粹理性的方法是否可以解答關於“人性”的種種現象。與此相映成趣的是2012年的美國大選，奧巴馬的團隊依靠對網絡數據的精準篩選捕捉到了大量的“草根”選民，而對於其喜好與需求的分析與把握更是贏得其信任，從而在不被傳統民調與歷史數據規律看好的情況下壹舉勝出。這跨越十年的兩個標誌性事件讓人們對於“數據揭示人性”可能性的認識經歷了戲劇性的轉變。

如今，迅速普及的互聯網與移動互聯網悄然為記錄人的行為數據提供了最為便利、持久的載體。手機，iPad等貼近人的終端無時不刻不在記錄關於人的點點滴滴思考、決策與行為。最最重要的是，在這些強大的數據收集終端面前，人們沒有掩飾的意圖，人們完整地呈現著自己的各種經歷，人們不厭其煩壹遍又壹遍重復著他們不願在實驗情境下表現出來的行為，從而創造著海量的數據——傳統數據研究無法做到的事，傳統研究範式苦苦糾結的許多難點，都在大數據到來的那壹剎那遁於無形。

大數據的到來，讓所有社會科學領域能夠藉由前沿技術的發展從宏觀群體走向微觀個體，讓跟蹤每壹個人的數據成為了可能，從而讓研究“人性”成為了可能。而對於教育研究者來說，我們比任何時候都更接近發現真正的學生。