古詩詞大全網 - 成語解釋 - 《赤裸裸的統計學》讀書筆記

《赤裸裸的統計學》讀書筆記

由於最近工作上都做數據分析的內容,所以根據眾產品大神推薦的數據分析應讀書單找了不少書來充電。《赤裸裸的統計學》是第壹本,它的作者是Charles Wheelan,壹名財經記者,他嘗試著用通俗易懂的筆法和具體的例子來向讀者介紹壹些統計學的基礎理論。同時也是向另壹本類似風格的統計學書籍——《統計數字會撒謊》致敬。

讀完後,個人覺得部分內容有壹定統計學基礎的人才比較容易理解,但整體而言,全書還是能符合作者的初衷的。現將部分自己可以理解且可能對數據分析工作有啟發的內容摘錄如下。

作者在這章中提出了平均數、中位數、百分位數和標準差等幾類常用於事實描述的數據。

平均數: 用於描述整體情況的基礎數據。例如想知道全體用戶的活躍情況,可以看人均每天訪問次數。

中位數: 用於描述數據集中的趨勢。例如用戶每天訪問次數中位數是2,證明至少有壹半的人的每天訪問次數是≤2的。

百分位數: 用於描述某個數據在整體數據中的位置,例如某個數據是25百分位數,證明有25%的數據是小於該數據,75%的數據是大於該數據。

標準差: 用於描述壹堆數據的離散情況,越大越離散。

如果兩類數據有相關關系並不等於是因果關系,舉例:家裏有超過3臺電視的孩子教育水平要更好,並不是指電視越多教育水平就越高。有可能是家裏電視多的,證明家裏富裕,用於孩子教育的錢會更多。

這章幫我回顧了大學課程《概率論》中關於期望值的內容,總結出兩個觀點:

①通過量化後的回報(期望值)對比成本來做決策,舉例:投入20萬,有70%的概率獲得200萬,30%的概率只剩2萬。那期望值=200×70%+2×30%=140.6萬,也就是回報的期望值是遠大於20萬的。

②大數定律,即隨著試驗次數的增多,結果的平均值會越來越接近期望值。第壹點中舉例的例子雖然回報的期望值遠大於投入,但是可能妳卻只夠錢投壹次,那麽風險還是很大的。但是如果妳有錢投個十次八次,那麽絕對是值得投的。

很有趣的壹個統計學問題:

以後有機會碰到類似的問題時,是不是知道該怎麽做了?

統計學在研究問題時,需要搜集數據,搜集數據的類型有兩類:縱向數據和橫向數據。

縱向數據: 指時間維度的縱向,對觀察對象持續觀察數年甚至數十年來搜集數據。

橫向數據: 指空間維度的橫向,對於不同地方的觀察對象采集數據。

在進行數據分析時,容易犯下以下偏見。

選擇性偏見: 即以偏概全,搜集到的數據並不能代表全體。

發表性偏見: 肯定性的數據結論要比否定性的數據結論更容易發表。

記憶性偏見: 通過回憶得到的數據,誰也無法確保準確性。

幸存者偏見: 數據樣本在觀察期沒有從頭到尾保持壹致,例如壹個班的平均成績越來越高是通過差生輟學來實現的,班級的實際成績水平並沒有得到真正的提高。

健康用戶偏見: 以單方面的因素來得出結論,例如定期吃維生素的人更加健康,但有可能是定期吃維生素的人還會定期運動等等。

中心極限定理的核心要義就是,壹個大型樣本的正確抽樣與其所代表的群體存在相似關系。而正確抽樣壹定要做到真正隨機。

進行數據分析的時候,我們通常會有正向思維和反向思維兩種方法。

正向思維就是指統計推斷:統計推斷是壹個讓數據說話、讓有價值的結論浮出水面的過程。

反向思維就是假設驗證:從邏輯學來看,如果我們能夠證明某個零假設不成立,那麽其對立假設(又稱備擇假設)肯定為真。

回歸分析能夠在控制其他因素的前提下,對某個具體變量與某個特定結果之間的關系進行量化。也就是說,我們能夠在保持其他變量效果不變的情況下,將某個變量的效果分離出來。應用到實際的數據分析工作中就是A/B測試,在執行A/B測試的過程中壹定要控制好只有壹個自變量。

通過最小二乘法得出的OLS 直線可以讓所有數據的殘差平方和為最小,從而求出自變量和因變量的線性關系圖