[筆記] 統計學的世界
這本書的重點著重在統計的基礎常識,注意在這裡我用的詞是常識而不是觀念,雖然這兩者常常是比鄰而居的,但是比起學習如何套用數學公式,這本書不教統計學的計算方法,數學也用的很淺,對於公式的原理通常都快速略過(一位作者的厲害之處往往在他願意捨棄多少內容,而不是他放入多少東西),但他教的是當我們需要把統計學應用到生活上時,該如何系統化的思考該注意哪些部份。
本書關注四個重點,數據如何產生,如何分析資料、用機率思考、統計推論。
一 數據從何而來
母體:就是你想知道的對象的全體。 樣本:就是母體的一部份。我們從樣本蒐集資訊,對母體做出結論。 個體(individual):一組數據描述的 對象,可能是人、動物、其他東西 變數(variable):個體的特質,不同的個體可能有不同的特質,像是人的性別、年齡 觀測研究:只在不干擾的情況下蒐集資訊 實驗:對個體進行某些處理,研究是否特定處理會導致反應改變,實驗最棒的好處是可以作為因果關係的證據。
二 好樣本壞樣本
你有很多方法可以取得爛樣本,像是使用方便抽樣,例如你要判斷一箱橘子裡頭有多少爛掉,只打開箱子抽取表面的橘子。或是在站在西門町做民意調查,只挑選那些看起來面對微笑無害的阿宅做訪問。或是使用自發性回應樣本,例如報紙或電視節目,讓觀眾自己打電話進來,那麼多半是對該議題有強烈立場的人才會採取行動。
最公正的樣本是使用簡單隨機樣本(Simple Random Sample, SRS),幫每個母體編號,用隨機的方式挑選個體作為樣本。你可以用電腦或是隨機亂數表做抽樣。
三 樣本告訴我們什麼?
首先要知道的是,樣本絕對沒有辦法告訴我們有關母體的確實資訊,但我們會利用樣本的事實,當作母體真實訊息的估計。我們會用 參數和統計量這兩個詞彙。 參數(parameter):描述母體的數字,參數是一個固定的值,但是我們實際上並沒辦法知道。
統計量(statistic):描述樣本的數字,一旦取得 了樣本就可以計算出來,但是換個樣本,統計量的值就可能會改變。我們常用統計量來估計參數。
另外,我們要定義兩個詞,一個是偏差,另一個是變異性。 偏差(bias):當我們取很多樣本時,統計量一直朝同一個方向偏離母體的參數值。 變異性(variability):當我們取很多樣本時,統計量的值會散開到什麼程度。變異性大就代表不同樣本的結果可能差別很大,一個好的抽樣方法應該要有小偏差和小變異性。
隨機抽樣的好處是能夠消除偏差,另外,使用大樣本可以降低變異性。 信賴敘述包含了誤差界限(margin of error)和信賴水準(level of confidence),像是我們有95%信心,在所有成年人當中,有54~60%曾在過去12月裡買過彩券。 因為統計量會有變異性,所以我們會用誤差界限來描述統計量和實際的值可能會差多少。95%的信心的誤差界限大約是1/sqrt(n),因此如果需要把誤差界線減半,需要使用四倍大的樣本。
使用隨機樣本所得到的統計量的變異性並不受母體大小影響,只要母體至少比樣本大100倍就好。另外樣本的統計量的變異性是由樣本大決定,而不是由母體大小決定。這對於小型研究團隊來說不是好消息,因為不管你是要對全台灣的民眾還是對全校的學生做統計,只要你要求同樣的誤差界限,就要使用同樣大的SRS。
四 真實世界的抽樣調查
真實世界中,簡單隨機抽樣不一定簡單,也不一定隨機。 誤差有分兩種,一種是抽樣誤差,另一種是非抽樣誤差。
抽樣誤差來自於抽樣本身的隨機性(可以夠過加大樣本降低),還有抽樣方法出問題。像是樣本涵蓋不全,母體當中的某些部份根本未被納入選擇範圍,像是有些學生住在宿舍沒有室內電話,那麼做電話抽查就打不到這些學生上。
非抽樣誤差包括了處理誤差(研究員key in資料錯誤)、回應誤差,受訪者可能會給與不正確的回答。有時候是受訪者刻意的,或是不自覺的。像是大家可能會謊報收入、學歷、或是記憶模糊導致回答偏離事實。另一種更嚴重的是無回應,這東西很難處理,通常只能仰賴訪查員的專業訓練。最後問題的措辭也會產生影響,把問題表達清楚不一定是容易的事情。「你贊不贊成蘇格蘭獨立」(51%)vs「你是否支持從英國分離出獨立的蘇格蘭」,(34%)。對應這種非抽樣誤差,解決方法在於用其他住戶代替不回應的人、或是給回應加權,試圖導正偏差。
因此相信調查結果之前,你該問以下問題
- 誰做的調查?
- 母體是誰?
- 樣本是怎麼選取的?(注意有沒有隨機)
- 樣本多大?
- 應答率多少?(多少比例的受訪者真的提供了資訊)
- 用什麼方式聯絡受訪者?
- 調查是什麼時候做的?
- 問題確實是怎麼問的?
五 實驗面面觀
實驗必須對特定對象加諸處理,如果沒有加諸處理,那就不是實驗。舉例來說,你要分析學生自己在家上網看影片學習,和去學校學習哪個效果比較好。於是你讓學生自由選擇是否在家或在學校,最後再度量他們的學習成果。最後發現在家上網學習的學生成績比 較好。但問題是你無法解釋到底是學生本來程度就好,還是是因為上網的關係。這種情況稱為cofounded(交絡),兩個變因混在一起讓你無法判斷原因。
通常單純做觀察,是很難避免cofounded。但如果你做實驗,就可以有效的避免這現象。而隨機化比較實驗是統計學裡頭最重要的概念之一
- 用隨機化的方法將受試對象分組,因為隨機,所以你分出的各組在實施實驗處理之前應該各方面都類似。
- 用比較的設計確保,除了實驗上的處理之外,其他的因素都會同樣做用到所有的組身上。
- 因此反應變數的差異必然是處理的效果所導致
即使隨機化可以消除不同組之間的差異,但差異還是存在,因此你的受試對象要夠多,才能降低機遇變異。此外不同組之間的反應變數差異也要夠大,使的差異不會因為運氣好就很容易發生。如果觀察結果大到某個成,光靠機遇很難發生這樣的結果,那麼我們就說這個結果具有統計顯著性(statistical significance) 如果沒辦法做實驗,那就只能夠透過觀察來研究問題,你可以挑選兩個組,進行觀察與比較,創造出實驗組和控制組,但要記得,比較並不能消除cofounded。
六 真實世界的實驗
就算你按照了實驗的原則設計並進行實驗,真實世界裡還是會冒出各種問題。像是研究人員在研究不同基因的小白鼠,是否會有不同的行為時,異常崩潰,因為似乎實驗室的環境只要有小小的不同,就會對小鼠的行為造成很大的影響。
為了正確的進行實驗,最重要的原則就是一視同仁,對所有受試對象都施行相同的處理,在各方面都一視同仁,唯一不同的就是實驗的處理。因此我們可能會透過雙盲的方式進行實驗,在正式醫學實驗裡,所有接觸受試者的人員都應該盡量雙盲。
另外,抽樣會遇到無回應,實驗也可能會遇到參與者退出、不合作等行為。像是參加新藥測試的病人可能會把藥拿去化驗,看看是不是新藥,還是安慰劑,如果是安慰劑的話,就選擇退出。
另外就算實驗提供有用的結果,一段時間之後,結果可能會改變。一個有趣的例子是1986年開始,美國的出售的車子必須裝置第三煞車燈,就是你後車廂的高處中間那個紅紅的燈。因為商用出租車的隨機比較實驗顯示,第三煞車燈減少5成以上的車尾碰撞。
結果實施近十年之後,美國保險學會發覺,車尾碰撞只減少了5%。效果遠遠不如當初實驗的預期。很可能是因為環境已經改變,當每輛車都裝上第三煞車燈的時候,效果就沒有那麼好了。
七 資訊道德
法律規定必須用設計完善的實驗來證明新藥有效並安全,但是沒有對手術做類似的規範。 基本的資訊道德:施行研究的機構必須設立試驗審查委員會,負責事先審查所有的研究計畫,以保護受試對象,使受試對象免於受到可能的傷害。在蒐集資料前,每一位受試對象都必須在知情且同意(informed consent)的狀況下測試,另外個人資料都必須要保密,只有整體的統計結果可以公開。
知情且同意聽起來很合理,但實際運作下往往不一定會順利,通常向實驗者說明實驗會是讓病人參與研究的障礙,因此研究人員 可能不會提到所有的風險、或是說明有比現在更好的療法,或是說明可能的結果太過樂觀,甚至是太過鉅細靡遺,讓整份同意書又臭又長。
保密和匿名不一樣,匿名在統計學研究很少見,因為不利於後續追蹤。
臨床試驗是為了研究療效,實際在病人身上進行的實驗,隨機化比較實驗是肯定新療法有效的唯一方法。但是試驗有風險,可是好處卻往往是之後的病人享受。赫爾辛基宣言指出,受試對象的福祉,永遠要擺在科學和社會利益之前。
著名的反例:塔斯克吉梅毒研究,1930年,梅毒在美國南方鄉下的黑人之間相當普遍,公共衛生處召集了399位梅毒患者和201位沒有感染梅毒的人,觀察梅毒在未經治療時,病情會如何發展。1943年開始,梅毒已經可以用抗生素治療,但這項研究到1970年代才中止,公共衛生處還阻止他們接受任何治療。
八 度量
了解你的變數是如何定義的,舉例來說,你要衡量休閒時間,那到底怎麼樣算是休閒時間?你要度量公路死亡人數,那麼怎麼樣才算是公路死亡?被車子撞的行人算嗎?在平交道被火車撞算嗎?因為車禍六個月才因為車禍中受的傷死亡算不算?什麼叫做失業? 不是所有的特質都可以衡量,我們往往傾向去量測那些容易衡量的。1981年,愛德蒙頓油人冰球隊的Wayne Gretzky,差不多在任何可以度量的項目裡都敬陪末座,力量、速度、反應、眼力等。但他後來竟然在該年打破了國家冰球聯盟的得分紀錄。 隨機誤差會導致你每次量得到的結果都不一樣。因此你可以透過多次度量取平均來消除隨機誤差。但有些度量方法是bias的, 就像某些體重計,你怎麼量就是會多重1kg,這時你必須要用比較好的器具來量。
九 數字合不合理
我們舉個關於捏造數據例子就好。1980年代,美國最低收入的1/5住戶,指賺到全美國總收入的4.3%,前1/5高的賺到43.7%。1998年,最低收入賺的錢只剩全部的3.6%,前1/5賺到49.2%。 富比士雜誌為了降低貧富差距,要怎麼做呢?首先一般來說,有錢住戶的每戶人數比窮住戶多,所以我們要改成計算每個人的收入。另外有錢人會繳比較多稅,所以要計算稅後收入。窮人有食物券或其他補助,也要算進去,最後收入高的人工時通常比較長,所以再根據工時做調整,最後變成看起來前1/5只比後1/5高3倍。
十 好的圖和壞的圖
注意季節變動,有些資料會在固定的間隔呈現固定的型態,有些資料在公佈的時後會說已經經過季節調整(seasonal adjustement),代表預期的季節變動已經消除。 注意刻度,不要被華麗的視覺效果蒙蔽。
十一 用圖形呈現分佈
看一個圖的時候,找整體型態,還有是否有異於整體型態的偏差。
十二 用數 字描述分佈
中位數:最中間的數,一半觀測值比他大,一半觀測值比他小。如果是基數,則挑中間,偶數挑中間兩個觀測值的平均。 四分位數:(Q1, Q3) 五數綜合圖:最小、Q1、中位數、Q3、最大。 平均數:BJ4 標準差standard deviation,度量的是觀測值和平均數中的平均距離,也就是先算出各具平方後的平均值,再取平方根。
- 假設n個觀測點,先找出每個觀測值距離平均數的距離,並平方
- 把所有距離的平方加起來,除以n-1, 所得到的距離平方的平均稱為變異數(variance)
- 標準差 = 變異數取平方根
只有在沒有離杜的時候,s(標準差)才會等於0,這種情況只會發生在所有觀測值都是同一點的時候。 應該避免使用標準差來描述偏斜的分佈,因為一個兩邊明顯不均的圖,分佈的情況並不一樣。只有在分佈大致對稱,且沒有離群值得時候,用平均數和標準差才是比較好的描述方式。 拿到資料,應該要先畫圖。
十三 常態分佈
當你拿到數據時,有系統的處理步驟是
- 把數據用直方圖畫出來
- 尋找整體型態(形狀, 中心, 離度)
我們可以使用密度曲線代替直方圖,密度曲線(density curve)的底下總面積是1, 密度曲線是把整體的分佈弄平滑後的理想情況,因此和真正的圖下方的面積並不一定會相等。 密度曲線下的面積代表全體觀測值得比例。中位數是左右各有一半觀測值得那個點。所以一個密度曲線的中位數就是等面積點。因此用目測法就可以大概知道中位數、四分位數在一個密度曲線的位置。另外對平均數來說,一組觀測值的平均就是他們的數量以及他們的值有關。因此對於密度曲線來說,平均數位於將該密度曲線做成實心材料,放到一個支點上的平衡點位置 常態曲線是對稱的鐘形曲線,具備以下性質。
- 給定平均數和標準差就可以完全描述該曲線
- 平均數決定該曲線的對稱中心
- 標準差決定形狀。同時也是平均數到左側和右側的反區點的距離(why?)
百分之(68-95-99.7)的資料會落在距離平均數(1-2-3)個標準差的範圍內 對於常態分佈來說,標準計分((觀測值-平均值)/標準差)可以直接轉換成百分位數。但其他分佈無法這樣做。
十四 描述關聯的方法 散佈圖和相關係數
分析原則:先畫圖,尋找整體型態和異於整體型態的偏差, 如果很有規則的時候再用很精簡的模型描述他。 相關係數的公式 r = 1/(n-1)sigma((x-avg_x/sx)*(y-avg_y/sy)) 意義;
- 正的r顯示正相關, 負的r顯示負相關
- 相關係數的r值永遠在+1~-1之間
- 當我們分別或同時改變x, y的單位的時候(EX: 英吋變公分),r並不會改變。
- 就算我們把x,y對調,相關係數還是一樣
- 相關係數只能描述兩變數的直線關聯,不能描述其他東西。
- 相關係數會受到少數離群值得嚴重影響。
十五 描述關聯 回歸、預測和因果
回歸直線是一條可以描述當解釋變數的x值改變時, 反應變數y會怎麼改變。我們常用回歸直線來預測給定一個x值,y值會是什麼。
最小平方回歸直線是一所有點的鉛直距離平方和為最小的直線。
為什麼使用regression(回歸)這個詞?原本這個字的意思是往回走,但是在這裡我們發現,回歸的意思是從x預測y。原因是因為最找把回歸方法用在生物和心理學的Sir Francis Galton(1922-1911)檢視了兒童身高和父母身高的關聯,發現身高超過平均的父母,通常兒女的身高也超過平均,但不會像父母那麼高,他稱這個現象為朝平均數回歸。所以這種說法就被用在這裡了。
所謂的預測,在於我們將數據對某個模型(model)做適配,有簡單的模型(像直線),也有複雜的模型,模型越能夠配合數據,那麼預測的效果越好。但問題是當變數很多的時候,型態就不一定看得出來,同時要是數據沒有呈現出很強的型態,那麼預測就很容易不准。最後是你無法預測超出你手中資料的知識。你沒辦法從3~8歲的兒童身高數據預測25歲的成人身高數據。
相關係數的平方r^2, 是y值得變異當中,可以用最小平方回歸來解釋的部份所佔的比例(why?)
若r=0.7或-0.7, 則代表大概有一半的數據(0.49)可以用直線關聯來解釋。
記得一件事,相關和因果是兩回事。即使兩個變數之間有很強的關聯,也不代表改變其中一個變數會對另一個變數造成改變。因為兩個涮之間的關聯常常受到許多潛在變因的影響,建立因果關係 最好的方法是,透過隨機化比較實驗。
舉例來說,我們發現世界各國的人均壽命和該國電視機的數量高度相關,那我們是不是只要送一堆電視機到第三世界,就可以提昇他們的人均壽命?
以下狀況都會造成x和y關聯 因果是因為x導致y。 共同反應是因為z, 同時導致x與y。
交絡是x和z都會對y產生影響。因此x和y有關連,但無法肯定全部都是因為x的關係。
但預測不需要有因果關係才能預測。預測的關聯性可能來自於因果或是共同反應或是交絡,但是不重要,只要有關聯我們就可以預測,只要你不隨意解釋關聯的原因即可。
只有在某些關聯性很強,我們又無法實驗的情況下,才能說這些關聯性的證據非常有可能有因果關係。像是我們發現大部分肺癌的病患是吸煙者,但是我們不可能做隨機比較實驗去驗證這件事情(有道德倫理問題)。但我們可以透過很多原則來說,我們有非常大的把握吸煙和肺癌有因果關係,像是關聯性很強、在不同國家不同團隊中發現吸煙致癌的關聯有一致性、吸越久的人似乎越容易得、在沒有開始吸煙以前肺癌人數沒有這麼多、動物實驗結果發現焦油會致癌等。
十六 消費者物價指數和政府統計
CPI(Customer Price Index)消費者物價指數,度量了商品和服務的價格隨著時間的變動。因此這代表了CPI衡量的是購買力,也就是同樣的商品和服務變貴了,那麼同樣的錢購買力就下降了。有些保險和退休金會跟CPI做連動,同時CPI可以比較現在的1 美元和1990的1美元的價值差別。
指數 = 變數值/基期值*100
所謂的指數(Index number),就是以某個基期的值為標準(例如1990年1月1號的石油每公升價格),指數就是相較於基期的改變量比值。指數是125代表該變數值是基期值得125%。指數80代表該變數值是基期值的80%。 在消費者物價指數中,衡量的方式是,比較同一組商品和服務(EX: 鹽、汽油、鐵),乘上固定的權重,然後比較在不同的時間下的總共價格。因此我們所追蹤的商品和服務叫做市場總覽(market basket)。
但問題是,市場總覽要怎麼要怎麼選?這是由抽樣問卷調查決定的。美國勞工統計局在消費者抽樣調查中抽了29000個住戶的消費資料進行分類,分成像是新鮮水果蔬菜、新車和中古車、醫院服務等分類,然後取特定項目的價值來代表該市場總攬的類別。但是因為商品和消費者的購買習慣會改變,因此這個項目其實不是完全固定的。
價錢要怎麼決定?是由購買點決定的,一個城市裡會有很多購買點,勞工統計局會統計大多數住戶都去哪些購買點購買,使選出的價格可以代表消費者的購買習慣。
同時,CPI並沒辦法衡量生活費用改變的情形,因為CPI衡量的是你每年都購買同一組商品時的價格變化,但問提示你不會一直購買同樣的商品或服務。而且如果某個商品價格太貴,你會改買別的。
政府統計會遇到幾個問題,像是政治影響可能會導致對統計相關部門施壓,另外如果蒐集太過私密的資料,可能人民會覺得政府介入過多等。比較好的解決方法是由政府補助大學進行社會調查。
十七 考慮可能性
機率最基本的概念是,短期不可預測,但長期會發生某種有規則而且可預測的模式。 隨機(random)並不代表偶然,統計裡的隨機,代表的是某種長期下才會出現的規則。 機率理論最早是從17世紀的費馬和巴斯卡討論賭博時開始的。 機率基本上是反直覺的。像是籃球有所謂的手風很順,連續投了幾球都進。但實際上,如果一個球員的長期命中率是1/2,那麼其實他進或不進,機率都是一樣的,只是剛剛好讓你注意到連續進的情況。一個連續進球的選手,下一球並不會因此比較容易進。你可能剛好在外地遇到某個朋友,你可能會說,怎麼這麼巧,但實際上你可能有1500個朋友,剛好遇到1500個的其中一個,並沒有那麼特別。還有賭徒的平均數迷思,前六把輸了,第七把贏得機會比較大,但實際上骰子沒有記憶,並不會因為看你可憐就平衡一下。 我們常講的機率是個人機率,意思是,我對這件事情發生的可能性判斷有多大。這是關乎於個人信心,和外界一切資訊都無關。例如我說,我認為該場比賽兄弟象贏統一獅的機率是80%,代表我個人對於這件事情有八成的把握。但真實世界的機率是根據同一個現象隨機重複多次而來的,這兩件事情要分清楚
十八 機率模型
一個隨機現象的機率模型(probabiliy model),描述了所有可能的結果,與任一一組結果的機率要如何分配,我們把其中一組的結果叫做一個事件(event)。 任何機率模型都符合以下規則
- 任何機率都在0~1之間
- 所有可能的結果合併起來應該是1