古詩詞大全網 - 成語故事 - 辛普森悖論

辛普森悖論

辛普森悖論

對於存在相關關系的兩組因子A、B,可能存在壹種現象,A、B為正相關,而將A分組後的A1和A2分別與B成反相關,這種現象即為辛普森悖論。

簡言之,就是分組和數據整體討論相關性時不同。

壹個構想的例子:

男女兩人對比兩家家餐廳推薦率時,發生分歧。壹人看的是兩家所有就餐人員的推薦率,選擇其中壹家,壹個人看中的是和根據篩選不同性別的推薦率來看,選擇另外壹家(不同性別下,均推薦率高)。

數據構成:

性別M餐廳N餐廳

男50/150=30% 180/360=50%

女200/250=80%36/40=90%

總250/400=62.5% ?216/400=54%

①總體來看 ?推薦M餐廳;②分性別來看,推薦N餐廳

那為什麽分性別來看推薦率高的反而總體看推薦率低:

N餐廳的女性推薦率高達90%,但它的樣本只有40個,只占總評論人數的10%;而M餐廳的女性推薦率雖然只有80%,但女性評論者有250個,這顯然會大幅拉高餐廳的總體好評率。

其實也就是看分組後的主要群體。在N餐廳的男性360,M餐廳女性250占比較大。那麽這些主要群體的評論高低將影響評論的方向。所以我們可以看到總體上,M餐廳更高,這個和M餐廳的主要分組群體(女性)推薦率80%高於N餐廳主要分組群體(男性)推薦率50%壹致。

簡單來說就是分組後其中的主要群組的影響權重更大。反過來就是樣本相對較小的群組雖然可能在數據指標上表現更高,但是此時對於總體指標表現影響較小,從而形成了辛普森悖論。

那麽是不是說,壹味考慮大群組的指標表現就可以了呢?在上面的假想例子中是可以說的通的,我們吃飯選擇餐廳,考慮的是整體大眾化的口味,來讓做出選擇的兩人都能滿意最後的選擇,那麽也就是可以選擇不考慮性別因素。而是考慮整體,也可以說是考慮整體中大分組群體的“眾數”表現即可。但是,現實生活中還有就是有些情景下我們需要具體對待。

下面看壹個典型的例子:

兩種治療腎結石的方案取舍,兩種方案的治愈率如下:

結石大小方案x ?方案y

小結石81/87=93% 234/270=87%

大結石192/263=73% 55/80=69%

總體273/350=78% 289/350=83%

壹樣的,分開看,選x;合並看,選y

方案x中的大結石群體和方案y中小結石群體為主要群體,所以它們的比率高低基本上影響了整體方案的治愈率高低。

這裏簡單插入壹下實際操作的場景:大結石肯定是比小結石嚴重,這個時候醫生處理的時候x方案更具有侵入性(醫學上帶有壹定創傷性的治療措施),結石小就會更傾向選擇保守方案y。大概意思可以理解為,重病猛藥,輕病帶著治。

這種場景下,就是說,治愈率和方案xy有關,又和結石大小有關;

而選擇方案xy本身在實際操作中是受到了結石大小影響的。(這裏感覺和辛普森悖論提出的人種膚色死刑率的案例有相似性,感興趣的可以去了解下)

那麽其實看這個方案選擇問題的,其實綜合來看總體情況是不切合實際的,是需要分開大小結石來看的,那麽分開看的的角度下,最終答案就是選x。

這麽看來,聚合數據看很有用,但是有些情況下,分組看,也許更貼近真相。

另外還有運動和病情惡化的例子,50歲分界線兩組數據,運動多,病情惡化少;合並壹起,運動多,惡化多;實際上是合在壹起,年齡越大,惡化越多,運動成了非唯壹變量。

再看最後壹個例子:

傑拉爾德·福特擔任美國總統期間的稅收、稅率變化,各收入群體稅率下降(tax/income),社會整體稅率卻提高了。因為總值占比較低的非高收入群體的稅率降低的多,總值占比較高的高收入群體降低的少,所以稅率變化主要受高收入群體的影響,整體稅收水平的漲幅高於收入總值,使得稅率不降反增。

但是從理解數據需求角度來說,個人仍更關註個人自己的稅率,是下降的,工資水平是增長的,這對於個人來說才是比較重要的信息。

總結下來:

①壹般都是遭遇比率類的問題;

②辛普森悖論和樣本大小存在壹定關系;

③辛普森悖論其實受“眾數”影響較大,眾數的比率指標往往反映了整體的比率指標情況,那麽在分析決策時候,我們要選擇的就是,是否要信賴分組中“眾數群體”的表現,作為決策指引;

④辛普森悖論跟混淆變量有關,需要控制變量,找到實際的相關因素,拆開表面數據;

⑤方法上可以多用散點圖來觀察問題。