[筆記] 統計學的世界

January 26, 2016

A life well lived

這本書的重點著重在統計的基礎常識，注意在這裡我用的詞是常識而不是觀念，雖然這兩者常常是比鄰而居的，但是比起學習如何套用數學公式，這本書不教統計學的計算方法，數學也用的很淺，對於公式的原理通常都快速略過（一位作者的厲害之處往往在他願意捨棄多少內容，而不是他放入多少東西），但他教的是當我們需要把統計學應用到生活上時，該如何系統化的思考該注意哪些部份。

本書關注四個重點，數據如何產生，如何分析資料、用機率思考、統計推論。

一數據從何而來

母體：就是你想知道的對象的全體。樣本：就是母體的一部份。我們從樣本蒐集資訊，對母體做出結論。個體(individual)：一組數據描述的對象，可能是人、動物、其他東西變數(variable)：個體的特質，不同的個體可能有不同的特質，像是人的性別、年齡觀測研究：只在不干擾的情況下蒐集資訊實驗：對個體進行某些處理，研究是否特定處理會導致反應改變，實驗最棒的好處是可以作為因果關係的證據。

二好樣本壞樣本

你有很多方法可以取得爛樣本，像是使用方便抽樣，例如你要判斷一箱橘子裡頭有多少爛掉，只打開箱子抽取表面的橘子。或是在站在西門町做民意調查，只挑選那些看起來面對微笑無害的阿宅做訪問。或是使用自發性回應樣本，例如報紙或電視節目，讓觀眾自己打電話進來，那麼多半是對該議題有強烈立場的人才會採取行動。

最公正的樣本是使用簡單隨機樣本(Simple Random Sample, SRS)，幫每個母體編號，用隨機的方式挑選個體作為樣本。你可以用電腦或是隨機亂數表做抽樣。

三樣本告訴我們什麼？

首先要知道的是，樣本絕對沒有辦法告訴我們有關母體的確實資訊，但我們會利用樣本的事實，當作母體真實訊息的估計。我們會用參數和統計量這兩個詞彙。參數(parameter)：描述母體的數字，參數是一個固定的值，但是我們實際上並沒辦法知道。

統計量(statistic)：描述樣本的數字，一旦取得了樣本就可以計算出來，但是換個樣本，統計量的值就可能會改變。我們常用統計量來估計參數。

另外，我們要定義兩個詞，一個是偏差，另一個是變異性。偏差(bias)：當我們取很多樣本時，統計量一直朝同一個方向偏離母體的參數值。變異性(variability)：當我們取很多樣本時，統計量的值會散開到什麼程度。變異性大就代表不同樣本的結果可能差別很大，一個好的抽樣方法應該要有小偏差和小變異性。

隨機抽樣的好處是能夠消除偏差，另外，使用大樣本可以降低變異性。信賴敘述包含了誤差界限(margin of error)和信賴水準(level of confidence)，像是我們有95%信心，在所有成年人當中，有54~60%曾在過去12月裡買過彩券。因為統計量會有變異性，所以我們會用誤差界限來描述統計量和實際的值可能會差多少。95%的信心的誤差界限大約是1/sqrt(n)，因此如果需要把誤差界線減半，需要使用四倍大的樣本。

使用隨機樣本所得到的統計量的變異性並不受母體大小影響，只要母體至少比樣本大100倍就好。另外樣本的統計量的變異性是由樣本大決定，而不是由母體大小決定。這對於小型研究團隊來說不是好消息，因為不管你是要對全台灣的民眾還是對全校的學生做統計，只要你要求同樣的誤差界限，就要使用同樣大的SRS。

四真實世界的抽樣調查

真實世界中，簡單隨機抽樣不一定簡單，也不一定隨機。誤差有分兩種，一種是抽樣誤差，另一種是非抽樣誤差。

抽樣誤差來自於抽樣本身的隨機性(可以夠過加大樣本降低)，還有抽樣方法出問題。像是樣本涵蓋不全，母體當中的某些部份根本未被納入選擇範圍，像是有些學生住在宿舍沒有室內電話，那麼做電話抽查就打不到這些學生上。

非抽樣誤差包括了處理誤差(研究員key in資料錯誤)、回應誤差，受訪者可能會給與不正確的回答。有時候是受訪者刻意的，或是不自覺的。像是大家可能會謊報收入、學歷、或是記憶模糊導致回答偏離事實。另一種更嚴重的是無回應，這東西很難處理，通常只能仰賴訪查員的專業訓練。最後問題的措辭也會產生影響，把問題表達清楚不一定是容易的事情。「你贊不贊成蘇格蘭獨立」(51%)vs「你是否支持從英國分離出獨立的蘇格蘭」，(34%)。對應這種非抽樣誤差，解決方法在於用其他住戶代替不回應的人、或是給回應加權，試圖導正偏差。

因此相信調查結果之前，你該問以下問題

誰做的調查？
母體是誰？
樣本是怎麼選取的?(注意有沒有隨機)
樣本多大?
應答率多少？(多少比例的受訪者真的提供了資訊)
用什麼方式聯絡受訪者？
調查是什麼時候做的？
問題確實是怎麼問的？

五實驗面面觀

實驗必須對特定對象加諸處理，如果沒有加諸處理，那就不是實驗。舉例來說，你要分析學生自己在家上網看影片學習，和去學校學習哪個效果比較好。於是你讓學生自由選擇是否在家或在學校，最後再度量他們的學習成果。最後發現在家上網學習的學生成績比較好。但問題是你無法解釋到底是學生本來程度就好，還是是因為上網的關係。這種情況稱為cofounded(交絡)，兩個變因混在一起讓你無法判斷原因。

通常單純做觀察，是很難避免cofounded。但如果你做實驗，就可以有效的避免這現象。而隨機化比較實驗是統計學裡頭最重要的概念之一

用隨機化的方法將受試對象分組，因為隨機，所以你分出的各組在實施實驗處理之前應該各方面都類似。
用比較的設計確保，除了實驗上的處理之外，其他的因素都會同樣做用到所有的組身上。
因此反應變數的差異必然是處理的效果所導致

即使隨機化可以消除不同組之間的差異，但差異還是存在，因此你的受試對象要夠多，才能降低機遇變異。此外不同組之間的反應變數差異也要夠大，使的差異不會因為運氣好就很容易發生。如果觀察結果大到某個成，光靠機遇很難發生這樣的結果，那麼我們就說這個結果具有統計顯著性(statistical significance) 如果沒辦法做實驗，那就只能夠透過觀察來研究問題，你可以挑選兩個組，進行觀察與比較，創造出實驗組和控制組，但要記得，比較並不能消除cofounded。

六真實世界的實驗

就算你按照了實驗的原則設計並進行實驗，真實世界裡還是會冒出各種問題。像是研究人員在研究不同基因的小白鼠，是否會有不同的行為時，異常崩潰，因為似乎實驗室的環境只要有小小的不同，就會對小鼠的行為造成很大的影響。

為了正確的進行實驗，最重要的原則就是一視同仁，對所有受試對象都施行相同的處理，在各方面都一視同仁，唯一不同的就是實驗的處理。因此我們可能會透過雙盲的方式進行實驗，在正式醫學實驗裡，所有接觸受試者的人員都應該盡量雙盲。

另外，抽樣會遇到無回應，實驗也可能會遇到參與者退出、不合作等行為。像是參加新藥測試的病人可能會把藥拿去化驗，看看是不是新藥，還是安慰劑，如果是安慰劑的話，就選擇退出。

另外就算實驗提供有用的結果，一段時間之後，結果可能會改變。一個有趣的例子是1986年開始，美國的出售的車子必須裝置第三煞車燈，就是你後車廂的高處中間那個紅紅的燈。因為商用出租車的隨機比較實驗顯示，第三煞車燈減少5成以上的車尾碰撞。

結果實施近十年之後，美國保險學會發覺，車尾碰撞只減少了5%。效果遠遠不如當初實驗的預期。很可能是因為環境已經改變，當每輛車都裝上第三煞車燈的時候，效果就沒有那麼好了。

七資訊道德

法律規定必須用設計完善的實驗來證明新藥有效並安全，但是沒有對手術做類似的規範。基本的資訊道德：施行研究的機構必須設立試驗審查委員會，負責事先審查所有的研究計畫，以保護受試對象，使受試對象免於受到可能的傷害。在蒐集資料前，每一位受試對象都必須在知情且同意(informed consent)的狀況下測試，另外個人資料都必須要保密，只有整體的統計結果可以公開。

知情且同意聽起來很合理，但實際運作下往往不一定會順利，通常向實驗者說明實驗會是讓病人參與研究的障礙，因此研究人員可能不會提到所有的風險、或是說明有比現在更好的療法，或是說明可能的結果太過樂觀，甚至是太過鉅細靡遺，讓整份同意書又臭又長。

保密和匿名不一樣，匿名在統計學研究很少見，因為不利於後續追蹤。

臨床試驗是為了研究療效，實際在病人身上進行的實驗，隨機化比較實驗是肯定新療法有效的唯一方法。但是試驗有風險，可是好處卻往往是之後的病人享受。赫爾辛基宣言指出，受試對象的福祉，永遠要擺在科學和社會利益之前。

著名的反例：塔斯克吉梅毒研究，1930年，梅毒在美國南方鄉下的黑人之間相當普遍，公共衛生處召集了399位梅毒患者和201位沒有感染梅毒的人，觀察梅毒在未經治療時，病情會如何發展。1943年開始，梅毒已經可以用抗生素治療，但這項研究到1970年代才中止，公共衛生處還阻止他們接受任何治療。

八度量

了解你的變數是如何定義的，舉例來說，你要衡量休閒時間，那到底怎麼樣算是休閒時間？你要度量公路死亡人數，那麼怎麼樣才算是公路死亡？被車子撞的行人算嗎？在平交道被火車撞算嗎？因為車禍六個月才因為車禍中受的傷死亡算不算？什麼叫做失業？不是所有的特質都可以衡量，我們往往傾向去量測那些容易衡量的。1981年，愛德蒙頓油人冰球隊的Wayne Gretzky，差不多在任何可以度量的項目裡都敬陪末座，力量、速度、反應、眼力等。但他後來竟然在該年打破了國家冰球聯盟的得分紀錄。隨機誤差會導致你每次量得到的結果都不一樣。因此你可以透過多次度量取平均來消除隨機誤差。但有些度量方法是bias的，就像某些體重計，你怎麼量就是會多重1kg，這時你必須要用比較好的器具來量。

九數字合不合理

我們舉個關於捏造數據例子就好。1980年代，美國最低收入的1/5住戶，指賺到全美國總收入的4.3%，前1/5高的賺到43.7%。1998年，最低收入賺的錢只剩全部的3.6%，前1/5賺到49.2%。富比士雜誌為了降低貧富差距，要怎麼做呢？首先一般來說，有錢住戶的每戶人數比窮住戶多，所以我們要改成計算每個人的收入。另外有錢人會繳比較多稅，所以要計算稅後收入。窮人有食物券或其他補助，也要算進去，最後收入高的人工時通常比較長，所以再根據工時做調整，最後變成看起來前1/5只比後1/5高3倍。

十好的圖和壞的圖

注意季節變動，有些資料會在固定的間隔呈現固定的型態，有些資料在公佈的時後會說已經經過季節調整(seasonal adjustement)，代表預期的季節變動已經消除。注意刻度，不要被華麗的視覺效果蒙蔽。

十一用圖形呈現分佈

看一個圖的時候，找整體型態，還有是否有異於整體型態的偏差。

十二用數字描述分佈

中位數：最中間的數，一半觀測值比他大，一半觀測值比他小。如果是基數，則挑中間，偶數挑中間兩個觀測值的平均。四分位數：(Q1, Q3) 五數綜合圖：最小、Q1、中位數、Q3、最大。平均數：BJ4 標準差standard deviation，度量的是觀測值和平均數中的平均距離，也就是先算出各具平方後的平均值，再取平方根。

假設n個觀測點，先找出每個觀測值距離平均數的距離，並平方
把所有距離的平方加起來，除以n-1, 所得到的距離平方的平均稱為變異數(variance)
標準差 = 變異數取平方根

只有在沒有離杜的時候，s(標準差)才會等於0，這種情況只會發生在所有觀測值都是同一點的時候。應該避免使用標準差來描述偏斜的分佈，因為一個兩邊明顯不均的圖，分佈的情況並不一樣。只有在分佈大致對稱，且沒有離群值得時候，用平均數和標準差才是比較好的描述方式。拿到資料，應該要先畫圖。

十三常態分佈

當你拿到數據時，有系統的處理步驟是

把數據用直方圖畫出來
尋找整體型態(形狀, 中心, 離度)

我們可以使用密度曲線代替直方圖，密度曲線(density curve)的底下總面積是1, 密度曲線是把整體的分佈弄平滑後的理想情況，因此和真正的圖下方的面積並不一定會相等。密度曲線下的面積代表全體觀測值得比例。中位數是左右各有一半觀測值得那個點。所以一個密度曲線的中位數就是等面積點。因此用目測法就可以大概知道中位數、四分位數在一個密度曲線的位置。另外對平均數來說，一組觀測值的平均就是他們的數量以及他們的值有關。因此對於密度曲線來說，平均數位於將該密度曲線做成實心材料，放到一個支點上的平衡點位置 常態曲線是對稱的鐘形曲線，具備以下性質。

給定平均數和標準差就可以完全描述該曲線
平均數決定該曲線的對稱中心
標準差決定形狀。同時也是平均數到左側和右側的反區點的距離(why?)

百分之(68-95-99.7)的資料會落在距離平均數(1-2-3)個標準差的範圍內對於常態分佈來說，標準計分((觀測值-平均值)/標準差)可以直接轉換成百分位數。但其他分佈無法這樣做。

十四描述關聯的方法散佈圖和相關係數

分析原則：先畫圖，尋找整體型態和異於整體型態的偏差, 如果很有規則的時候再用很精簡的模型描述他。相關係數的公式 r = 1/(n-1)sigma((x-avg_x/sx)*(y-avg_y/sy)) 意義；

正的r顯示正相關, 負的r顯示負相關
相關係數的r值永遠在+1~-1之間
當我們分別或同時改變x, y的單位的時候(EX: 英吋變公分)，r並不會改變。
就算我們把x,y對調，相關係數還是一樣
相關係數只能描述兩變數的直線關聯，不能描述其他東西。
相關係數會受到少數離群值得嚴重影響。

十五描述關聯回歸、預測和因果

回歸直線是一條可以描述當解釋變數的x值改變時, 反應變數y會怎麼改變。我們常用回歸直線來預測給定一個x值，y值會是什麼。

最小平方回歸直線是一所有點的鉛直距離平方和為最小的直線。

為什麼使用regression(回歸)這個詞？原本這個字的意思是往回走，但是在這裡我們發現，回歸的意思是從x預測y。原因是因為最找把回歸方法用在生物和心理學的Sir Francis Galton(1922-1911)檢視了兒童身高和父母身高的關聯，發現身高超過平均的父母，通常兒女的身高也超過平均，但不會像父母那麼高，他稱這個現象為朝平均數回歸。所以這種說法就被用在這裡了。

所謂的預測，在於我們將數據對某個模型(model)做適配，有簡單的模型(像直線)，也有複雜的模型，模型越能夠配合數據，那麼預測的效果越好。但問題是當變數很多的時候，型態就不一定看得出來，同時要是數據沒有呈現出很強的型態，那麼預測就很容易不准。最後是你無法預測超出你手中資料的知識。你沒辦法從3~8歲的兒童身高數據預測25歲的成人身高數據。

相關係數的平方r^2, 是y值得變異當中，可以用最小平方回歸來解釋的部份所佔的比例(why?)

若r=0.7或-0.7, 則代表大概有一半的數據(0.49)可以用直線關聯來解釋。

記得一件事，相關和因果是兩回事。即使兩個變數之間有很強的關聯，也不代表改變其中一個變數會對另一個變數造成改變。因為兩個涮之間的關聯常常受到許多潛在變因的影響，建立因果關係最好的方法是，透過隨機化比較實驗。

舉例來說，我們發現世界各國的人均壽命和該國電視機的數量高度相關，那我們是不是只要送一堆電視機到第三世界，就可以提昇他們的人均壽命？

以下狀況都會造成x和y關聯因果是因為x導致y。共同反應是因為z, 同時導致x與y。

交絡是x和z都會對y產生影響。因此x和y有關連，但無法肯定全部都是因為x的關係。

但預測不需要有因果關係才能預測。預測的關聯性可能來自於因果或是共同反應或是交絡，但是不重要，只要有關聯我們就可以預測，只要你不隨意解釋關聯的原因即可。

只有在某些關聯性很強，我們又無法實驗的情況下，才能說這些關聯性的證據非常有可能有因果關係。像是我們發現大部分肺癌的病患是吸煙者，但是我們不可能做隨機比較實驗去驗證這件事情(有道德倫理問題)。但我們可以透過很多原則來說，我們有非常大的把握吸煙和肺癌有因果關係，像是關聯性很強、在不同國家不同團隊中發現吸煙致癌的關聯有一致性、吸越久的人似乎越容易得、在沒有開始吸煙以前肺癌人數沒有這麼多、動物實驗結果發現焦油會致癌等。

十六消費者物價指數和政府統計

CPI(Customer Price Index)消費者物價指數，度量了商品和服務的價格隨著時間的變動。因此這代表了CPI衡量的是購買力，也就是同樣的商品和服務變貴了，那麼同樣的錢購買力就下降了。有些保險和退休金會跟CPI做連動，同時CPI可以比較現在的1美元和1990的1美元的價值差別。

指數 = 變數值/基期值*100

所謂的指數(Index number)，就是以某個基期的值為標準(例如1990年1月1號的石油每公升價格)，指數就是相較於基期的改變量比值。指數是125代表該變數值是基期值得125%。指數80代表該變數值是基期值的80%。在消費者物價指數中，衡量的方式是，比較同一組商品和服務(EX: 鹽、汽油、鐵)，乘上固定的權重，然後比較在不同的時間下的總共價格。因此我們所追蹤的商品和服務叫做市場總覽(market basket)。

但問題是，市場總覽要怎麼要怎麼選？這是由抽樣問卷調查決定的。美國勞工統計局在消費者抽樣調查中抽了29000個住戶的消費資料進行分類，分成像是新鮮水果蔬菜、新車和中古車、醫院服務等分類，然後取特定項目的價值來代表該市場總攬的類別。但是因為商品和消費者的購買習慣會改變，因此這個項目其實不是完全固定的。

價錢要怎麼決定？是由購買點決定的，一個城市裡會有很多購買點，勞工統計局會統計大多數住戶都去哪些購買點購買，使選出的價格可以代表消費者的購買習慣。

同時，CPI並沒辦法衡量生活費用改變的情形，因為CPI衡量的是你每年都購買同一組商品時的價格變化，但問提示你不會一直購買同樣的商品或服務。而且如果某個商品價格太貴，你會改買別的。

政府統計會遇到幾個問題，像是政治影響可能會導致對統計相關部門施壓，另外如果蒐集太過私密的資料，可能人民會覺得政府介入過多等。比較好的解決方法是由政府補助大學進行社會調查。

十七考慮可能性

機率最基本的概念是，短期不可預測，但長期會發生某種有規則而且可預測的模式。 隨機(random)並不代表偶然，統計裡的隨機，代表的是某種長期下才會出現的規則。 機率理論最早是從17世紀的費馬和巴斯卡討論賭博時開始的。機率基本上是反直覺的。像是籃球有所謂的手風很順，連續投了幾球都進。但實際上，如果一個球員的長期命中率是1/2，那麼其實他進或不進，機率都是一樣的，只是剛剛好讓你注意到連續進的情況。一個連續進球的選手，下一球並不會因此比較容易進。你可能剛好在外地遇到某個朋友，你可能會說，怎麼這麼巧，但實際上你可能有1500個朋友，剛好遇到1500個的其中一個，並沒有那麼特別。還有賭徒的平均數迷思，前六把輸了，第七把贏得機會比較大，但實際上骰子沒有記憶，並不會因為看你可憐就平衡一下。我們常講的機率是個人機率，意思是，我對這件事情發生的可能性判斷有多大。這是關乎於個人信心，和外界一切資訊都無關。例如我說，我認為該場比賽兄弟象贏統一獅的機率是80%，代表我個人對於這件事情有八成的把握。但真實世界的機率是根據同一個現象隨機重複多次而來的，這兩件事情要分清楚

十八機率模型

一個隨機現象的機率模型(probabiliy model)，描述了所有可能的結果，與任一一組結果的機率要如何分配，我們把其中一組的結果叫做一個事件(event)。任何機率模型都符合以下規則

任何機率都在0~1之間
所有可能的結果合併起來應該是1
一個事件不發生的機率，等於1減去該事件發生的機率。
如果兩個事件之間沒有共同的結果，則兩個事件中至少一個發生的機率等於兩個機率共同的和。

從母體抽樣的現象，其實正是一種機率的隨機模型。統計量的分佈可以告訴我們他可能的值有哪些，以及每個值出現的頻率。有種圖叫做抽樣分佈圖，意思是說，當我們不斷的抽，一直抽，抽到爽後，統計量會有哪些可能的值，以及這些值得分佈。我們利用密度曲線的總面積是1，將密度曲線下的面積對應各個區間的機率分配，就可以用機率模型來描述抽樣分佈。

十九模擬

如何使用隨機亂數表來模擬機率發生的情形。布方之針(Buffon's needle)用機率來算pi。

二十期望值

期望值意思是，對於具有數值結果的統計數字，將每個可能的結果的機率乘上數值相加。大數法則，如果結果為數值的隨機現象重複多次，那麼實際觀測到的結果期平均值會接近期望值。

二十一信賴區間

首先我們知道。抽樣估計得到的估計值是根據樣本而來，而樣本是每次抽樣都會改變的，因此統計量p-hat也會隨著樣本改變。 p-hat = 樣本中的成功數/n 當樣本夠大時，會有以下現象

p-hat的分佈會近似於常態
抽樣分佈的平均數會和p(母體真正統計量)相等
抽樣分佈的標準差是sqrt((p(1-p))/n)

意思是，從含成功比例p的母體抽樣大小為n的SRS, 重複做多次，會產生很接近常態分佈的p-hat。所謂95%信心區間的意思是，當大量重複做多次的時候，我們有大概95%的區間會包含進母體真正的值。

二十二什麼是顯著性檢定

統計檢定用生活化的方式說明就是，一個臭屁的籃球員說，我的命中率有八成，你說我不信，投給我看，結果他20球只進8球，你下結論，如果他命中率真的是80%，那麼幾乎不大可能會在投20次時只進八球，所以我不相信他的話。在斷言正確的情況下很少發生的結果卻發生了，就是斷言不正確的證據。統計檢定處理的是有關母體的斷言，剪定要判斷的是，樣本是否提供了有關此斷言不利的證據。 Ho: 原始假設(null hypothesis)，關於母體的敘述。因此一定要用母體參數表示。例如p=0.5。 Ha: 對立假設(alternative hypothesis)，希望可以取代Ho的假設。顯著檢定就是盡量找對Ha有利的證據。 P-value:統計檢定裡有一個P值(P-value)，意思是在Ho假設為真的情況下，所得到的樣本結果會像實際觀測值一樣的機率。P值小代表越不可能，資料所提供否定Ho的證據就越強。布方伯爵投了4040次銅板，得到2048次正面，正面的樣本比例是 p-hat = 2048/4040 = 0.507，這個結果比一半多一點，這個結果能不能作為該銅板不平衡的證據？

假設---原始假說是銅板是平衡的，因此對立假設是銅板不平衡。

Ho: p = 0.5 Ha: p != 0.5

抽樣分佈---假設原始假設為真，那麼樣本比例中的正面比例就會近似常態分佈，所以平均數=p=0.5，標準差=sqrt(p(1-p)/n) = sqrt(0.5*0.5/4040) = 0.00787
P值---得到的結果p-hat和p的差距，會至少和p-hat一樣遠的機率有多大？我們的對立假設p!=0.5，只要p-hat往左偏或往右偏都算是提供證據，因此我們說，P值是p-hat向左右任意方向偏離0.5的程度至少和0.507相同的機率，這要看常態分佈底下的面積表示，在這裡是P=0.37。
結論：在布方的實驗中，真正的銅板有37%的時候，會得到離0.5如此遠的結果，並沒有足夠的證據顯示我們認為他的銅板不平衡。

我們可以在事前決定用於否定Ho的假設需要強到多少，才能算是顯著。等於是我們說，我們要求P值要多小。我們用alpha來表示，如果alpha=0.05，代表我們要求否定Ho的證據要強到當Ho正確時，這種結果發生的機率不超過5%。如果P值小於alpha值，我們就說該組數據於水準alpha有統計顯著性(statistically significant at level alpha)

二十三統計推論的使用和濫用

老樣子，推論最重要的事情是，了解你的數據和你想回答的問題。

數據必須是我從我們關心的母體做抽出的SRS
比SRS複雜的抽樣方法(例如分層樣本）並不能這樣推論
再棒的方法也救不了爛數據，如果你的數據是隨便蒐集的，那沒救了。
其他誤差來源也很重要，像是中途退出、吳回應等。信賴區間和假設檢定只會依據你餵進去的數字產生出來，那些實際的困難並不會納入考慮。
信賴水準告訴我們的只是，一再使用相同的方法，會抓到真正參數的比例，實際上這次有沒有抓到真正的參數，並不知道。
高信賴水準是有代價的，就是更寬的區間
樣本變大, 區間就會變窄，如果我們希望高信賴水準，又要有較窄的區間，那就要使用更大的樣本。想要讓區間範圍縮小一半，必須使用四倍大的樣本。
P值只會告訴我們，對於原始假設，這樣的數據只有機率P會發生，你永遠也不會知道原始假設是真的錯了還是對了。
檢定只告訴我們不利於原始假設的證據強度，並沒有說我們正在尋求的母體效應有多大或多重要。像是統計檢定只管說，該銅板的真實機率是0.5的情況下發生的機率有P。他可不管說可能對人來說，P=0.52已經算是相當平衡。
較大的樣本會讓顯著性檢定較為敏感。但一項發現有統計顯著性，可能並沒有實際上的用途。像是你發現該銅板是的正面機率是0.502，並沒有太大用途。
小樣本做的統計顯著性檢定敏感度可能不夠，並不足以提供不利於原始假設的證據。沒有統計顯著性不代表效應不存在，只代表我們目前沒有合理的證據支持他。小樣本常常會漏掉母體中確實存在的效應。

不要只看P值，那沒有意義。顯著性檢定的P值不僅和樣本大小密切相關，同時也和母體的真正值有關。如果只報告P值，卻不報告樣本大小，也不提作為樣本結果的統計量是什麼，是很糟糕的作法。不要濫用檢定，檢定的正確使用方法是，先決定你要尋求什麼效應，設計研究來找這個效應，用顯著性檢定來衡量你得到的證據。而不是你有一堆數據，然後開始全面亂檢定，最後發現有好幾個特色符合統計顯著性檢定。這樣想好了，假設統計的顯著性檢定是5%，那麼你找100個證據去檢定，你應該也期望大概有5個左右的檢定會因為隨機性的關係通過，這樣就沒太大意義。

二十四雙向表和卡方檢定

要顯示兩個類別變數的關聯性，可以透過雙向表。像是男,女性別對教授職位的關係，我們可以建立一個雙向表。辛浦森詭論(Simpson's paradox), 在幾組值都顯示出的關聯和比較，可能會在數據合併成一組時，全部消失或倒轉方向。雙向表

	成功	失敗	總數
去鬱敏	14	10	24
鋰鹽	6	18	24
安慰劑	4	20	24
總數	24	48	72

Ho: 所有古柯鹼成癮患者的母體當中，處理和戒癮成功並沒有關聯。

Ha：癮君子能否成功戒除古柯鹼，和進行的處理有關聯。

檢定Ho的過程就是把實際計數和預期計數做比較，如果實際和預期相差很大，就代表不利Ho。

Ho為真的時候，雙向表中任何一格的預期計數 = 列總和*行總和/表總和

舉例來說，Ho為真時，去鬱敏組的預期計數是24*24/72=8

卡方檢定度量雙向表中觀察到的計數和預期計數的差距，統計量的公式是 X^2 = sigma(((觀察到-預期的)^2)/預期的)

sigma代表對應表內的每一格的加總 X^2 = (14-8)^2/8 + (10-16)^2/16 + (6-8)^2/8 + (18-16)^2/16 + (4-8)^2/8 + (20-16)^2/16 =4.5 + 2.25 + 0.5 + 0.25 + 2.00 + 1.00 = 10.50

但你怎麼知道10.5到底算大還是不大？答案是看看實際狀況下在原始假設為真時，X^2會有怎麼樣的分佈。這個抽樣分佈不是常態分佈，是右偏分佈，又因為X^2的值不可能為負，所以只含>0的值，還有對應不同大小的雙向表，抽樣分佈也會不同。當無關連的原始假設為真的時候，卡方統計量的抽樣分佈就稱為卡方分佈(chi-square distribution)。

卡方分佈是由其自由度(degree of freedom, df)決定的，有r列和c行的雙向表，用的是自由度為(r-1)(c-1)，我們使用的是(3-1)(2-1) = 2的卡方分佈表。

卡方檢定有一些限制，觀測值越多越精確，當預計數小於5的格子比例不超過20%，且每一格的預期計數至少是1時就可以使用卡方檢定。

一 數據從何而來​

二 好樣本壞樣本​

三 樣本告訴我們什麼？​

四 真實世界的抽樣調查​

五 實驗面面觀​

六 真實世界的實驗​

七 資訊道德​

八 度量​

九 數字合不合理​

十 好的圖和壞的圖​

十一 用圖形呈現分佈​

十二 用數字描述分佈​

十三 常態分佈​

十四 描述關聯的方法 散佈圖和相關係數​

十五 描述關聯 回歸、預測和因果​

十六 消費者物價指數和政府統計​

十七 考慮可能性​

十八 機率模型​

十九 模擬​

二十 期望值​

二十一 信賴區間​

二十二 什麼是顯著性檢定​

二十三 統計推論的使用和濫用​

二十四 雙向表和卡方檢定​