古詩詞大全網 - 成語用法 - 如何科學地解釋“相關≠因果”

如何科學地解釋“相關≠因果”

文/W先森

我在文章裏曾不止壹次地提到:相關不等同於因果,但壹直沒有很好地去解析中間的原理,今天就用這壹篇文章來詳細說說。

本文分了以下四個部分:

01 從壹些生活中的現象,談壹下我們的認知習慣;

02 說壹下相關和因果的區別

03 線性回歸模型——證明相關性的最可靠辦法

04 方法論部分:知道這些有啥用

02、03部分略燒腦,感覺理解困難的可以跳過。從統計學找相關性的方法中可以知道,要把兩個事件之間的因果證明出來是相當困難的,甚至只是證明相關性也具備壹定難度。

由此得知:

知道了這些以後,我們該怎樣去思考?

通常,如果妳感冒了,妳會怎樣去歸因?

從直接原因出發:可能不小心在哪裏著涼了?

從生活習慣出發:可能最近睡得太晚,或者吃得不太健康?

從周圍環境出發:可能哪個家人/朋友/同事最近剛好生病了?

這其實算是蠻正常的推測,還有壹種不正常的,就是用某件自己不喜歡的事情直接來斷定的。例如我媽就特別喜歡拿壹些看不順眼的東西來歸因:“看妳還敢喝那麽多可樂,感冒了吧?” 然而,我壹周才喝那麽壹兩罐可樂,說這會導致感冒,我肯定是不會相信的。

總而言之,在日常生活中,人們習慣用直覺去給事情歸因,而這常常是沒有根據,甚至是完全錯誤的。我們再來看幾個例子:

這些命題看起來都像是“很有道理”的因果,但其實要“破”這樣的說法很簡單:

請註意,這裏擡杠式的回復說是把因果破掉了,但也並沒有給出正確的論斷。

在此,這些例子要證明的是:

那到底怎樣的歸因才是對的呢?

下面我們就來了解壹下,統計學上對於相關和因果的概念,以及找到相關性的方法。

相關和因果,在統計學上的意義如下:

相關 的意思就是A事件與B事件 有關系 ,這裏的關系可以有很多種情況,可以是 A引起B 或 B引起A;又或者說A只是其中壹個原因,有可能還要湊齊其它C、D、E事件才能引起B。

因果 是相關的壹種,但其要求更為 嚴格 ,它比相關要攜帶多壹個屬性——必然性,也就是說,有因必有果,有A必有B。

如果A事件與B事件之間是因果關系,那麽兩者必然是相關的;但如果A事件與B事件之間只是相關,則兩者之間未必就會存在因果。

舉個例子,對水加熱到100攝氏度,水就會沸騰。

A = “對水加熱到100攝氏度”

B = “水會沸騰”

我們說A是因,B是果,如果放在平原地區去實驗,這個結論總是正確的。但如果把水放到海拔3000米以上的高原,沸點就會變低,這時A就不能推出B了,我們要把A變成A1才行:

A1 = “對水加熱至沸點(沸點隨海拔上升而降低)”

B = “水會沸騰”

科學就是這樣,即便是已被認定為因果的規律,也有可能要不斷更新。我們從物理學史也看到同樣的探索過程:從牛頓的力學三定律,到愛因斯坦的相對論,再到量子力學,再到弦論。真理總是不斷地被否定,而後又重建,所以:

那要統計學家們又是如何找到相關性,從而逐漸推導出因果的呢?下面,我們就來了解壹下統計學的回歸模型。

統計學有個叫做回歸模型的東西,能夠證明兩組數據的相關性。形象點描述就是,把兩組數據丟到壹個XY坐標系中表示,再用壹條直線或曲線去擬合,讓這條線能夠通過盡可能多的點。如果這條直線可以用壹個方程式來表達,那我們就說他們是線性相關的。

關於線性回歸,有壹個歷史上知名的研究,來自於英國統計學家弗朗西斯·高爾頓提出的高爾頓定律,結論是這樣的:

圖形展示的結果如下:

橫坐標是父母的身高,縱坐標是孩子的身高。

紫色小框的數據代表:父母矮,但孩子比父母高的部分

綠色小框的數據代表:父母高,但孩子比父母矮的部分

紅色的那條直線就是能夠通過最多點的線,它常常是壹個 回歸方程式

以上面的數據為例,求出這個方程式的數學步驟如下:

01 把同壹X值所對應的Y值與直線上的Y'值的差求出來,這個叫殘差

02 把所有殘差的平方和加起來,嘗試最小化這個“殘差的平方和”

03 對斜率和截距各自求偏導數

04 對壹個二元壹次方程組求解

類似的,我們還可以用Excel來做,方法相對簡單:

01 貼上數據

02 插入散點圖

03 添加元素-趨勢線

04 趨勢線設置-顯示公式

下面就是壹個睡眠數據分析的圖例,因不是本文的重點,暫不展開詳述。

最後,歸納壹下統計學找出相關性的步驟:

首先,得收集大量樣例數據;

然後,進行曲線擬合(線性回歸);

最後,確定相關的類型(正/負相關,直線/曲線相關,完全/強/弱相關等)

現在,我們得出了三個結論:

知道這些,對我們的日常生活又有什麽幫助呢?

留意自己或別人說話時用的表示因果的字眼:因為,所以,因此,就是,只能,肯定等等。這樣做可以有效察覺到壹個人的說話乃至思考的模式。

我就發現自己在回應別人時,習慣用“所以”開頭,但實際上這裏面根本沒有什麽因果關系,那只是我的壹種行為模式——習慣去歸納和推測別人的想法。

當我們自以為找到了什麽規律的時候,可以試試把因果掉轉過來思考。

《人類簡史》在談種族歧視時說到,人們總是以為是某種來自生物學的差別,導致了黑人的各種“劣等人”的表現。但實際上當時的黑人之所以有那樣的表現,是因為他們從來就沒有得到過很好的教育,生活的環境也壹直非常惡劣。

李開復在《向死而生》中也說過,如果這個病不是什麽惡劣行為所帶來的“果”,而是上天想要讓他知道什麽的“因”,那麽病就不是詛咒而變成是祝福了。

正如前面的例子說到的,平原人壹直以為水的沸點是100攝氏度,只到有壹天遇上了高原人才知道,水的沸點會隨海拔高度而變小。

跨界,跨學科,多視角,多維度,這些都是近段時間的熱詞,不單單因為這樣的研究方法夠全面,更能看到真相,還在於這樣的方法更容易出現創新。

網上的聽書,社群中的交友,這些都是良好的獲取跨學科視角的好方法。

即便我們通過研究,實踐,檢驗之後得出了壹些結論,這些結論也僅僅是假設。

世界總是在變化,這些變化普遍存在於人和環境當中,所以這些結論都是階段性的。我壹直認為,世界本無真理,現在看來那也是壹個錯誤的論斷。如果把時間這個維度也加入進來思考的話,其實我只能夠這樣來表述—— 世界上不存在總是正確的真理,但卻可以有現在最好,最管用的道理。

要如何才能不斷更新自我呢?

那就是為什麽今天我們都說要成為壹個終身學習者原因了。

最後,說壹個很久以前在報紙上讀到的故事:

故事講到這裏就結束了,如果妳把文章看到了這裏,相信壹定能對這個故事提出來不同的看法,請在評論區與我討論吧。