Skip to main content

[筆記] 統計學的世界

Opass
A life well lived

這本書的重點著重在統計的基礎常識,注意在這裡我用的詞是常識而不是觀念,雖然這兩者常常是比鄰而居的,但是比起學習如何套用數學公式,這本書不教統計學的計算方法,數學也用的很淺,對於公式的原理通常都快速略過(一位作者的厲害之處往往在他願意捨棄多少內容,而不是他放入多少東西),但他教的是當我們需要把統計學應用到生活上時,該如何系統化的思考該注意哪些部份

本書關注四個重點,數據如何產生,如何分析資料、用機率思考、統計推論。

一 數據從何而來

母體:就是你想知道的對象的全體。 樣本:就是母體的一部份。我們從樣本蒐集資訊,對母體做出結論。 個體(individual):一組數據描述的對象,可能是人、動物、其他東西 變數(variable):個體的特質,不同的個體可能有不同的特質,像是人的性別、年齡 觀測研究:只在不干擾的情況下蒐集資訊 實驗:對個體進行某些處理,研究是否特定處理會導致反應改變,實驗最棒的好處是可以作為因果關係的證據。

二 好樣本壞樣本

你有很多方法可以取得爛樣本,像是使用方便抽樣,例如你要判斷一箱橘子裡頭有多少爛掉,只打開箱子抽取表面的橘子。或是在站在西門町做民意調查,只挑選那些看起來面對微笑無害的阿宅做訪問。或是使用自發性回應樣本,例如報紙或電視節目,讓觀眾自己打電話進來,那麼多半是對該議題有強烈立場的人才會採取行動。

最公正的樣本是使用簡單隨機樣本(Simple Random Sample, SRS),幫每個母體編號,用隨機的方式挑選個體作為樣本。你可以用電腦或是隨機亂數表做抽樣。

三 樣本告訴我們什麼?

首先要知道的是,樣本絕對沒有辦法告訴我們有關母體的確實資訊,但我們會利用樣本的事實,當作母體真實訊息的估計。我們會用 參數統計量這兩個詞彙。 參數(parameter):描述母體的數字,參數是一個固定的值,但是我們實際上並沒辦法知道。

統計量(statistic):描述樣本的數字,一旦取得了樣本就可以計算出來,但是換個樣本,統計量的值就可能會改變。我們常用統計量來估計參數。

另外,我們要定義兩個詞,一個是偏差,另一個是變異性。 偏差(bias):當我們取很多樣本時,統計量一直朝同一個方向偏離母體的參數值。 變異性(variability):當我們取很多樣本時,統計量的值會散開到什麼程度。變異性大就代表不同樣本的結果可能差別很大,一個好的抽樣方法應該要有小偏差和小變異性。

隨機抽樣的好處是能夠消除偏差,另外,使用大樣本可以降低變異性。 信賴敘述包含了誤差界限(margin of error)信賴水準(level of confidence),像是我們有95%信心,在所有成年人當中,有54~60%曾在過去12月裡買過彩券。 因為統計量會有變異性,所以我們會用誤差界限來描述統計量和實際的值可能會差多少。95%的信心的誤差界限大約是1/sqrt(n),因此如果需要把誤差界線減半,需要使用四倍大的樣本。

使用隨機樣本所得到的統計量的變異性並不受母體大小影響,只要母體至少比樣本大100倍就好。另外樣本的統計量的變異性是由樣本大決定,而不是由母體大小決定。這對於小型研究團隊來說不是好消息,因為不管你是要對全台灣的民眾還是對全校的學生做統計,只要你要求同樣的誤差界限,就要使用同樣大的SRS。

四 真實世界的抽樣調查

真實世界中,簡單隨機抽樣不一定簡單,也不一定隨機。 誤差有分兩種,一種是抽樣誤差,另一種是非抽樣誤差。

抽樣誤差來自於抽樣本身的隨機性(可以夠過加大樣本降低),還有抽樣方法出問題。像是樣本涵蓋不全,母體當中的某些部份根本未被納入選擇範圍,像是有些學生住在宿舍沒有室內電話,那麼做電話抽查就打不到這些學生上。

非抽樣誤差包括了處理誤差(研究員key in資料錯誤)、回應誤差,受訪者可能會給與不正確的回答。有時候是受訪者刻意的,或是不自覺的。像是大家可能會謊報收入、學歷、或是記憶模糊導致回答偏離事實。另一種更嚴重的是無回應,這東西很難處理,通常只能仰賴訪查員的專業訓練。最後問題的措辭也會產生影響,把問題表達清楚不一定是容易的事情。「你贊不贊成蘇格蘭獨立」(51%)vs「你是否支持從英國分離出獨立的蘇格蘭」,(34%)。對應這種非抽樣誤差,解決方法在於用其他住戶代替不回應的人、或是給回應加權,試圖導正偏差。

因此相信調查結果之前,你該問以下問題

  • 誰做的調查?
  • 母體是誰?
  • 樣本是怎麼選取的?(注意有沒有隨機)
  • 樣本多大?
  • 應答率多少?(多少比例的受訪者真的提供了資訊)
  • 用什麼方式聯絡受訪者?
  • 調查是什麼時候做的?
  • 問題確實是怎麼問的?

五 實驗面面觀

實驗必須對特定對象加諸處理,如果沒有加諸處理,那就不是實驗。舉例來說,你要分析學生自己在家上網看影片學習,和去學校學習哪個效果比較好。於是你讓學生自由選擇是否在家或在學校,最後再度量他們的學習成果。最後發現在家上網學習的學生成績比較好。但問題是你無法解釋到底是學生本來程度就好,還是是因為上網的關係。這種情況稱為cofounded(交絡),兩個變因混在一起讓你無法判斷原因。

通常單純做觀察,是很難避免cofounded。但如果你做實驗,就可以有效的避免這現象。而隨機化比較實驗是統計學裡頭最重要的概念之一

  • 用隨機化的方法將受試對象分組,因為隨機,所以你分出的各組在實施實驗處理之前應該各方面都類似。
  • 用比較的設計確保,除了實驗上的處理之外,其他的因素都會同樣做用到所有的組身上。
  • 因此反應變數的差異必然是處理的效果所導致

即使隨機化可以消除不同組之間的差異,但差異還是存在,因此你的受試對象要夠多,才能降低機遇變異。此外不同組之間的反應變數差異也要夠大,使的差異不會因為運氣好就很容易發生。如果觀察結果大到某個成,光靠機遇很難發生這樣的結果,那麼我們就說這個結果具有統計顯著性(statistical significance) 如果沒辦法做實驗,那就只能夠透過觀察來研究問題,你可以挑選兩個組,進行觀察與比較,創造出實驗組和控制組,但要記得,比較並不能消除cofounded。

六 真實世界的實驗

就算你按照了實驗的原則設計並進行實驗,真實世界裡還是會冒出各種問題。像是研究人員在研究不同基因的小白鼠,是否會有不同的行為時,異常崩潰,因為似乎實驗室的環境只要有小小的不同,就會對小鼠的行為造成很大的影響。

為了正確的進行實驗,最重要的原則就是一視同仁,對所有受試對象都施行相同的處理,在各方面都一視同仁,唯一不同的就是實驗的處理。因此我們可能會透過雙盲的方式進行實驗,在正式醫學實驗裡,所有接觸受試者的人員都應該盡量雙盲。

另外,抽樣會遇到無回應,實驗也可能會遇到參與者退出、不合作等行為。像是參加新藥測試的病人可能會把藥拿去化驗,看看是不是新藥,還是安慰劑,如果是安慰劑的話,就選擇退出。

另外就算實驗提供有用的結果,一段時間之後,結果可能會改變。一個有趣的例子是1986年開始,美國的出售的車子必須裝置第三煞車燈,就是你後車廂的高處中間那個紅紅的燈。因為商用出租車的隨機比較實驗顯示,第三煞車燈減少5成以上的車尾碰撞。

結果實施近十年之後,美國保險學會發覺,車尾碰撞只減少了5%。效果遠遠不如當初實驗的預期。很可能是因為環境已經改變,當每輛車都裝上第三煞車燈的時候,效果就沒有那麼好了。

七 資訊道德

法律規定必須用設計完善的實驗來證明新藥有效並安全,但是沒有對手術做類似的規範。 基本的資訊道德:施行研究的機構必須設立試驗審查委員會,負責事先審查所有的研究計畫,以保護受試對象,使受試對象免於受到可能的傷害。在蒐集資料前,每一位受試對象都必須在知情且同意(informed consent)的狀況下測試,另外個人資料都必須要保密,只有整體的統計結果可以公開。

知情且同意聽起來很合理,但實際運作下往往不一定會順利,通常向實驗者說明實驗會是讓病人參與研究的障礙,因此研究人員可能不會提到所有的風險、或是說明有比現在更好的療法,或是說明可能的結果太過樂觀,甚至是太過鉅細靡遺,讓整份同意書又臭又長。

保密和匿名不一樣,匿名在統計學研究很少見,因為不利於後續追蹤。

臨床試驗是為了研究療效,實際在病人身上進行的實驗,隨機化比較實驗是肯定新療法有效的唯一方法。但是試驗有風險,可是好處卻往往是之後的病人享受。赫爾辛基宣言指出,受試對象的福祉,永遠要擺在科學和社會利益之前。

著名的反例:塔斯克吉梅毒研究,1930年,梅毒在美國南方鄉下的黑人之間相當普遍,公共衛生處召集了399位梅毒患者和201位沒有感染梅毒的人,觀察梅毒在未經治療時,病情會如何發展。1943年開始,梅毒已經可以用抗生素治療,但這項研究到1970年代才中止,公共衛生處還阻止他們接受任何治療。

八 度量

了解你的變數是如何定義的,舉例來說,你要衡量休閒時間,那到底怎麼樣算是休閒時間?你要度量公路死亡人數,那麼怎麼樣才算是公路死亡?被車子撞的行人算嗎?在平交道被火車撞算嗎?因為車禍六個月才因為車禍中受的傷死亡算不算?什麼叫做失業? 不是所有的特質都可以衡量,我們往往傾向去量測那些容易衡量的。1981年,愛德蒙頓油人冰球隊的Wayne Gretzky,差不多在任何可以度量的項目裡都敬陪末座,力量、速度、反應、眼力等。但他後來竟然在該年打破了國家冰球聯盟的得分紀錄。 隨機誤差會導致你每次量得到的結果都不一樣。因此你可以透過多次度量取平均來消除隨機誤差。但有些度量方法是bias的,就像某些體重計,你怎麼量就是會多重1kg,這時你必須要用比較好的器具來量。

九 數字合不合理

我們舉個關於捏造數據例子就好。1980年代,美國最低收入的1/5住戶,指賺到全美國總收入的4.3%,前1/5高的賺到43.7%。1998年,最低收入賺的錢只剩全部的3.6%,前1/5賺到49.2%。 富比士雜誌為了降低貧富差距,要怎麼做呢?首先一般來說,有錢住戶的每戶人數比窮住戶多,所以我們要改成計算每個人的收入。另外有錢人會繳比較多稅,所以要計算稅後收入。窮人有食物券或其他補助,也要算進去,最後收入高的人工時通常比較長,所以再根據工時做調整,最後變成看起來前1/5只比後1/5高3倍。

十 好的圖和壞的圖

注意季節變動,有些資料會在固定的間隔呈現固定的型態,有些資料在公佈的時後會說已經經過季節調整(seasonal adjustement),代表預期的季節變動已經消除。 注意刻度,不要被華麗的視覺效果蒙蔽。

十一 用圖形呈現分佈

看一個圖的時候,找整體型態,還有是否有異於整體型態的偏差。

十二 用數字描述分佈

中位數:最中間的數,一半觀測值比他大,一半觀測值比他小。如果是基數,則挑中間,偶數挑中間兩個觀測值的平均。 四分位數:(Q1, Q3) 五數綜合圖:最小、Q1、中位數、Q3、最大。 平均數:BJ4 標準差standard deviation,度量的是觀測值和平均數中的平均距離,也就是先算出各具平方後的平均值,再取平方根。

  • 假設n個觀測點,先找出每個觀測值距離平均數的距離,並平方
  • 把所有距離的平方加起來,除以n-1, 所得到的距離平方的平均稱為變異數(variance)
  • 標準差 = 變異數取平方根

只有在沒有離杜的時候,s(標準差)才會等於0,這種情況只會發生在所有觀測值都是同一點的時候。 應該避免使用標準差來描述偏斜的分佈,因為一個兩邊明顯不均的圖,分佈的情況並不一樣。只有在分佈大致對稱,且沒有離群值得時候,用平均數和標準差才是比較好的描述方式。 拿到資料,應該要先畫圖。

十三 常態分佈

當你拿到數據時,有系統的處理步驟是

  • 把數據用直方圖畫出來
  • 尋找整體型態(形狀, 中心, 離度)

我們可以使用密度曲線代替直方圖,密度曲線(density curve)的底下總面積是1, 密度曲線是把整體的分佈弄平滑後的理想情況,因此和真正的圖下方的面積並不一定會相等。 密度曲線下的面積代表全體觀測值得比例。中位數是左右各有一半觀測值得那個點。所以一個密度曲線的中位數就是等面積點。因此用目測法就可以大概知道中位數、四分位數在一個密度曲線的位置。另外對平均數來說,一組觀測值的平均就是他們的數量以及他們的值有關。因此對於密度曲線來說,平均數位於將該密度曲線做成實心材料,放到一個支點上的平衡點位置 常態曲線是對稱的鐘形曲線,具備以下性質。

  • 給定平均數和標準差就可以完全描述該曲線
  • 平均數決定該曲線的對稱中心
  • 標準差決定形狀。同時也是平均數到左側和右側的反區點的距離(why?)

百分之(68-95-99.7)的資料會落在距離平均數(1-2-3)個標準差的範圍內 對於常態分佈來說,標準計分((觀測值-平均值)/標準差)可以直接轉換成百分位數。但其他分佈無法這樣做。

十四 描述關聯的方法 散佈圖和相關係數

分析原則:先畫圖,尋找整體型態和異於整體型態的偏差, 如果很有規則的時候再用很精簡的模型描述他。 相關係數的公式 r = 1/(n-1)sigma((x-avg_x/sx)*(y-avg_y/sy)) 意義;

  1. 正的r顯示正相關, 負的r顯示負相關
  2. 相關係數的r值永遠在+1~-1之間
  3. 當我們分別或同時改變x, y的單位的時候(EX: 英吋變公分),r並不會改變。
  4. 就算我們把x,y對調,相關係數還是一樣
  5. 相關係數只能描述兩變數的直線關聯,不能描述其他東西。
  6. 相關係數會受到少數離群值得嚴重影響。

十五 描述關聯 回歸、預測和因果

回歸直線是一條可以描述當解釋變數的x值改變時, 反應變數y會怎麼改變。我們常用回歸直線來預測給定一個x值,y值會是什麼。

最小平方回歸直線是一所有點的鉛直距離平方和為最小的直線。

為什麼使用regression(回歸)這個詞?原本這個字的意思是往回走,但是在這裡我們發現,回歸的意思是從x預測y。原因是因為最找把回歸方法用在生物和心理學的Sir Francis Galton(1922-1911)檢視了兒童身高和父母身高的關聯,發現身高超過平均的父母,通常兒女的身高也超過平均,但不會像父母那麼高,他稱這個現象為朝平均數回歸。所以這種說法就被用在這裡了。

所謂的預測,在於我們將數據對某個模型(model)做適配,有簡單的模型(像直線),也有複雜的模型,模型越能夠配合數據,那麼預測的效果越好。但問題是當變數很多的時候,型態就不一定看得出來,同時要是數據沒有呈現出很強的型態,那麼預測就很容易不准。最後是你無法預測超出你手中資料的知識。你沒辦法從3~8歲的兒童身高數據預測25歲的成人身高數據。

相關係數的平方r^2, 是y值得變異當中,可以用最小平方回歸來解釋的部份所佔的比例(why?)

若r=0.7或-0.7, 則代表大概有一半的數據(0.49)可以用直線關聯來解釋。

記得一件事,相關和因果是兩回事。即使兩個變數之間有很強的關聯,也不代表改變其中一個變數會對另一個變數造成改變。因為兩個涮之間的關聯常常受到許多潛在變因的影響,建立因果關係最好的方法是,透過隨機化比較實驗。

舉例來說,我們發現世界各國的人均壽命和該國電視機的數量高度相關,那我們是不是只要送一堆電視機到第三世界,就可以提昇他們的人均壽命?

以下狀況都會造成x和y關聯 因果是因為x導致y。 共同反應是因為z, 同時導致x與y。

交絡是x和z都會對y產生影響。因此x和y有關連,但無法肯定全部都是因為x的關係。

但預測不需要有因果關係才能預測。預測的關聯性可能來自於因果或是共同反應或是交絡,但是不重要,只要有關聯我們就可以預測,只要你不隨意解釋關聯的原因即可。

只有在某些關聯性很強,我們又無法實驗的情況下,才能說這些關聯性的證據非常有可能有因果關係。像是我們發現大部分肺癌的病患是吸煙者,但是我們不可能做隨機比較實驗去驗證這件事情(有道德倫理問題)。但我們可以透過很多原則來說,我們有非常大的把握吸煙和肺癌有因果關係,像是關聯性很強、在不同國家不同團隊中發現吸煙致癌的關聯有一致性、吸越久的人似乎越容易得、在沒有開始吸煙以前肺癌人數沒有這麼多、動物實驗結果發現焦油會致癌等。

十六 消費者物價指數和政府統計

CPI(Customer Price Index)消費者物價指數,度量了商品和服務的價格隨著時間的變動。因此這代表了CPI衡量的是購買力,也就是同樣的商品和服務變貴了,那麼同樣的錢購買力就下降了。有些保險和退休金會跟CPI做連動,同時CPI可以比較現在的1美元和1990的1美元的價值差別。

指數 = 變數值/基期值*100

所謂的指數(Index number),就是以某個基期的值為標準(例如1990年1月1號的石油每公升價格),指數就是相較於基期的改變量比值。指數是125代表該變數值是基期值得125%。指數80代表該變數值是基期值的80%。 在消費者物價指數中,衡量的方式是,比較同一組商品和服務(EX: 鹽、汽油、鐵),乘上固定的權重,然後比較在不同的時間下的總共價格。因此我們所追蹤的商品和服務叫做市場總覽(market basket)。

但問題是,市場總覽要怎麼要怎麼選?這是由抽樣問卷調查決定的。美國勞工統計局在消費者抽樣調查中抽了29000個住戶的消費資料進行分類,分成像是新鮮水果蔬菜、新車和中古車、醫院服務等分類,然後取特定項目的價值來代表該市場總攬的類別。但是因為商品和消費者的購買習慣會改變,因此這個項目其實不是完全固定的。

價錢要怎麼決定?是由購買點決定的,一個城市裡會有很多購買點,勞工統計局會統計大多數住戶都去哪些購買點購買,使選出的價格可以代表消費者的購買習慣。

同時,CPI並沒辦法衡量生活費用改變的情形,因為CPI衡量的是你每年都購買同一組商品時的價格變化,但問提示你不會一直購買同樣的商品或服務。而且如果某個商品價格太貴,你會改買別的。

政府統計會遇到幾個問題,像是政治影響可能會導致對統計相關部門施壓,另外如果蒐集太過私密的資料,可能人民會覺得政府介入過多等。比較好的解決方法是由政府補助大學進行社會調查。

十七 考慮可能性

機率最基本的概念是,短期不可預測,但長期會發生某種有規則而且可預測的模式。 隨機(random)並不代表偶然,統計裡的隨機,代表的是某種長期下才會出現的規則。 機率理論最早是從17世紀的費馬和巴斯卡討論賭博時開始的。 機率基本上是反直覺的。像是籃球有所謂的手風很順,連續投了幾球都進。但實際上,如果一個球員的長期命中率是1/2,那麼其實他進或不進,機率都是一樣的,只是剛剛好讓你注意到連續進的情況。一個連續進球的選手,下一球並不會因此比較容易進。你可能剛好在外地遇到某個朋友,你可能會說,怎麼這麼巧,但實際上你可能有1500個朋友,剛好遇到1500個的其中一個,並沒有那麼特別。還有賭徒的平均數迷思,前六把輸了,第七把贏得機會比較大,但實際上骰子沒有記憶,並不會因為看你可憐就平衡一下。 我們常講的機率是個人機率,意思是,我對這件事情發生的可能性判斷有多大。這是關乎於個人信心,和外界一切資訊都無關。例如我說,我認為該場比賽兄弟象贏統一獅的機率是80%,代表我個人對於這件事情有八成的把握。但真實世界的機率是根據同一個現象隨機重複多次而來的,這兩件事情要分清楚

十八 機率模型

一個隨機現象的機率模型(probabiliy model),描述了所有可能的結果,與任一一組結果的機率要如何分配,我們把其中一組的結果叫做一個事件(event)。 任何機率模型都符合以下規則

  • 任何機率都在0~1之間
  • 所有可能的結果合併起來應該是1
  • 一個事件不發生的機率,等於1減去該事件發生的機率。
  • 如果兩個事件之間沒有共同的結果,則兩個事件中至少一個發生的機率等於兩個機率共同的和。

從母體抽樣的現象,其實正是一種機率的隨機模型。 統計量的分佈可以告訴我們他可能的值有哪些,以及每個值出現的頻率。有種圖叫做抽樣分佈圖,意思是說,當我們不斷的抽,一直抽,抽到爽後,統計量會有哪些可能的值,以及這些值得分佈。我們利用密度曲線的總面積是1,將密度曲線下的面積對應各個區間的機率分配,就可以用機率模型來描述抽樣分佈。

十九 模擬

如何使用隨機亂數表來模擬機率發生的情形。 布方之針(Buffon's needle)用機率來算pi。

二十 期望值

期望值意思是,對於具有數值結果的統計數字,將每個可能的結果的機率乘上數值相加。 大數法則,如果結果為數值的隨機現象重複多次,那麼實際觀測到的結果期平均值會接近期望值。

二十一 信賴區間

首先我們知道。抽樣估計得到的估計值是根據樣本而來,而樣本是每次抽樣都會改變的,因此統計量p-hat也會隨著樣本改變。 p-hat = 樣本中的成功數/n 當樣本夠大時,會有以下現象

  • p-hat的分佈會近似於常態
  • 抽樣分佈的平均數會和p(母體真正統計量)相等
  • 抽樣分佈的標準差是sqrt((p(1-p))/n)

意思是,從含成功比例p的母體抽樣大小為n的SRS, 重複做多次,會產生很接近常態分佈的p-hat。 所謂95%信心區間的意思是,當大量重複做多次的時候,我們有大概95%的區間會包含進母體真正的值。

二十二 什麼是顯著性檢定

統計檢定用生活化的方式說明就是,一個臭屁的籃球員說,我的命中率有八成,你說我不信,投給我看,結果他20球只進8球,你下結論,如果他命中率真的是80%,那麼幾乎不大可能會在投20次時只進八球,所以我不相信他的話。 在斷言正確的情況下很少發生的結果卻發生了,就是斷言不正確的證據。 統計檢定處理的是有關母體的斷言,剪定要判斷的是,樣本是否提供了有關此斷言不利的證據。 Ho: 原始假設(null hypothesis),關於母體的敘述。因此一定要用母體參數表示。例如p=0.5。 Ha: 對立假設(alternative hypothesis),希望可以取代Ho的假設。顯著檢定就是盡量找對Ha有利的證據。 P-value:統計檢定裡有一個P值(P-value),意思是在Ho假設為真的情況下,所得到的樣本結果會像實際觀測值一樣的機率。P值小代表越不可能,資料所提供否定Ho的證據就越強。 布方伯爵投了4040次銅板,得到2048次正面,正面的樣本比例是 p-hat = 2048/4040 = 0.507,這個結果比一半多一點,這個結果能不能作為該銅板不平衡的證據?

  1. 假設---原始假說是銅板是平衡的,因此對立假設是銅板不平衡。

Ho: p = 0.5 Ha: p != 0.5

  1. 抽樣分佈---假設原始假設為真,那麼樣本比例中的正面比例就會近似常態分佈,所以平均數=p=0.5,標準差=sqrt(p(1-p)/n) = sqrt(0.5*0.5/4040) = 0.00787
  2. P值---得到的結果p-hat和p的差距,會至少和p-hat一樣遠的機率有多大?我們的對立假設p!=0.5,只要p-hat往左偏或往右偏都算是提供證據,因此我們說,P值是p-hat向左右任意方向偏離0.5的程度至少和0.507相同的機率,這要看常態分佈底下的面積表示,在這裡是P=0.37。
  3. 結論:在布方的實驗中,真正的銅板有37%的時候,會得到離0.5如此遠的結果,並沒有足夠的證據顯示我們認為他的銅板不平衡。

我們可以在事前決定用於否定Ho的假設需要強到多少,才能算是顯著。等於是我們說,我們要求P值要多小。我們用alpha來表示,如果alpha=0.05,代表我們要求否定Ho的證據要強到當Ho正確時,這種結果發生的機率不超過5%。 如果P值小於alpha值,我們就說該組數據於水準alpha有統計顯著性(statistically significant at level alpha)

二十三 統計推論的使用和濫用

老樣子,推論最重要的事情是,了解你的數據和你想回答的問題。

  1. 數據必須是我從我們關心的母體做抽出的SRS
  2. 比SRS複雜的抽樣方法(例如分層樣本)並不能這樣推論
  3. 再棒的方法也救不了爛數據,如果你的數據是隨便蒐集的,那沒救了。
  4. 其他誤差來源也很重要,像是中途退出、吳回應等。信賴區間和假設檢定只會依據你餵進去的數字產生出來,那些實際的困難並不會納入考慮。
  5. 信賴水準告訴我們的只是,一再使用相同的方法,會抓到真正參數的比例,實際上這次有沒有抓到真正的參數,並不知道。
  6. 高信賴水準是有代價的,就是更寬的區間
  7. 樣本變大, 區間就會變窄,如果我們希望高信賴水準,又要有較窄的區間,那就要使用更大的樣本。想要讓區間範圍縮小一半,必須使用四倍大的樣本。
  8. P值只會告訴我們,對於原始假設,這樣的數據只有機率P會發生,你永遠也不會知道原始假設是真的錯了還是對了。
  9. 檢定只告訴我們不利於原始假設的證據強度,並沒有說我們正在尋求的母體效應有多大或多重要。像是統計檢定只管說,該銅板的真實機率是0.5的情況下發生的機率有P。他可不管說可能對人來說,P=0.52已經算是相當平衡。
  10. 較大的樣本會讓顯著性檢定較為敏感。但一項發現有統計顯著性,可能並沒有實際上的用途。像是你發現該銅板是的正面機率是0.502,並沒有太大用途。
  11. 小樣本做的統計顯著性檢定敏感度可能不夠,並不足以提供不利於原始假設的證據。沒有統計顯著性不代表效應不存在,只代表我們目前沒有合理的證據支持他。小樣本常常會漏掉母體中確實存在的效應。

不要只看P值,那沒有意義。顯著性檢定的P值不僅和樣本大小密切相關,同時也和母體的真正值有關。如果只報告P值,卻不報告樣本大小,也不提作為樣本結果的統計量是什麼,是很糟糕的作法。 不要濫用檢定,檢定的正確使用方法是,先決定你要尋求什麼效應,設計研究來找這個效應,用顯著性檢定來衡量你得到的證據。而不是你有一堆數據,然後開始全面亂檢定,最後發現有好幾個特色符合統計顯著性檢定。這樣想好了,假設統計的顯著性檢定是5%,那麼你找100個證據去檢定,你應該也期望大概有5個左右的檢定會因為隨機性的關係通過,這樣就沒太大意義。

二十四 雙向表和卡方檢定

要顯示兩個類別變數的關聯性,可以透過雙向表。 像是男,女性別對教授職位的關係,我們可以建立一個雙向表。 辛浦森詭論(Simpson's paradox), 在幾組值都顯示出的關聯和比較,可能會在數據合併成一組時,全部消失或倒轉方向。 雙向表

成功失敗總數
去鬱敏141024
鋰鹽61824
安慰劑42024
總數244872

Ho: 所有古柯鹼成癮患者的母體當中,處理和戒癮成功並沒有關聯。

Ha:癮君子能否成功戒除古柯鹼,和進行的處理有關聯。

檢定Ho的過程就是把實際計數和預期計數做比較,如果實際和預期相差很大,就代表不利Ho。

Ho為真的時候,雙向表中任何一格的預期計數 = 列總和*行總和/表總和

舉例來說,Ho為真時,去鬱敏組的預期計數是24*24/72=8

卡方檢定 度量雙向表中觀察到的計數和預期計數的差距,統計量的公式是 X^2 = sigma(((觀察到-預期的)^2)/預期的)

sigma代表對應表內的每一格的加總 X^2 = (14-8)^2/8 + (10-16)^2/16 + (6-8)^2/8 + (18-16)^2/16 + (4-8)^2/8 + (20-16)^2/16 =4.5 + 2.25 + 0.5 + 0.25 + 2.00 + 1.00 = 10.50

但你怎麼知道10.5到底算大還是不大?答案是看看實際狀況下在原始假設為真時,X^2會有怎麼樣的分佈。這個抽樣分佈不是常態分佈,是右偏分佈,又因為X^2的值不可能為負,所以只含>0的值,還有對應不同大小的雙向表,抽樣分佈也會不同。 當無關連的原始假設為真的時候,卡方統計量的抽樣分佈就稱為卡方分佈(chi-square distribution)。

卡方分佈是由其自由度(degree of freedom, df)決定的,有r列和c行的雙向表,用的是自由度為(r-1)(c-1),我們使用的是(3-1)(2-1) = 2的卡方分佈表。

卡方檢定有一些限制,觀測值越多越精確,當預計數小於5的格子比例不超過20%,且每一格的預期計數至少是1時就可以使用卡方檢定。