我們在研究時,常需要對實驗的結果作評估,不然就不叫做研究了。這時,好幾個名詞就會出現,準確率、錯誤率、敏感性、特殊性(有人用「特異性」)、召回率等等,這一些名詞常會困擾很多的研究人員,本文希望能夠將這幾個名詞作個簡單的解釋,你若有不同的意見,歡迎提出討論。
為了說明方便起見,我們用一個醫學檢驗的例子來做說明:一個人懷疑自己有某種疾病(Disease)到醫院做了某一種檢驗(Test),就這麼一個例子喔。這個人他可以真正的有病,假設是肝病好了,也可能沒有病,我們就用D+和D─來表示,他的檢驗結果可能是正(陽性),也可能是負(陰性),我們就用T+和T─來表示;假設某一個醫學檢驗中心有n個病人去做檢驗,這n個人中,n(D+)個人真正有肝病,n(D-)沒有肝病,n = n(D+)+ n(D-), 這個人檢驗的結果是陽性和陰性的人數分別是n(T+)和 n(T-), n = n(D+)+ n(D-)。有了這些數量,我們就可以來定義敏感性(sensitivity)和特殊性(specificity)了。
所謂敏感性就是真正有病的人(D+)被檢驗出來(T+)的比率,sen = n(T+) / n(D+), 也就是說這種檢驗對這種疾病的敏感程度。相對的,所謂特異性就是沒有病的人(D-)也正確的被檢驗為陰性(T-)的比率,spe = n(T-) / n(D-), 這兩種值理論上我們都希望很高;但矛盾來了,假設一個檢驗不管三七二十一,我們都把它看成陽性的,那敏感性不就是100%了嘛,問題是特異性變成0%;所有去醫院檢查有沒有肝病的人都被說成有肝病,這事情不就嚴重了嗎?從另一個方向來看,你如果將所有的檢驗結果都說成陰性,那特殊性不也就是100%,但敏感性呢?理想的狀況是檢驗的結果為:有病的人就是陽性的,沒有病的人都是陰性的,這種結果當然是最好了,但現在的醫學檢驗有哪一種可以這樣宣稱呢?敏感性和特殊性都是100%,太理想了吧!(補充一下,有學過統計學的人,你會發現1 - spe和1 - sen就相當於第一型和第二型的錯誤(Type I and II errors))
以和我研究相關的人臉辨識(face recognition)來說,它的技術還不是那麼的精準,所以敏感性和特殊性都不到100%,那我們的希望是什麼呢?假設你是拿來做公司的安全入門監控,你的系統會判斷出要進大門的這個人身份,他是否是你這一家公司的員工,你會要求判斷出是否為員工的準確度很高(就是高特殊性),不是本公司的人(D-)不可以進來(T-),不然這個進來的人可能是小偷喔。你在做系統設計的時候,就會採用一個比較嚴苛檢驗的標準,問題是:本公司的人也可能會被擋下來,在真正的應用中,這時可以啟動第二種身份認證的方法。所以,最極端的狀況,你知道了嗎?每一個人都拒絕,都用其他的認證方法,這樣特殊性100%喔。
在統計的應用上,我們常常可以看到下列四種組合的名詞:真陽(True positive), 假陽(False positive), 真陰(true negative), 假陰(False negative).以我教學的經驗,學生常常會弄錯,要弄清楚這四個詞,記得第一個英文是形容詞,說明我們的決策是對的(true)或錯的(false),第二個詞是檢驗的結果,有陽性(positive),也有陰性(negative),我們當然是希望決策是對的,所以真陽(true positive)和真陰(true negative)都是越高越好。歸納一下,以前面有病和沒病,檢驗的陽性和陰性,我們可以定義出:
- 真陽(True positive): 有病被檢驗為陽性。
- 偽陽(False positive): 沒病被檢驗為陽性。在臨床應用上這個人可能要再做進一步的檢查,也可能(最壞的狀況)沒事要挨一刀。
- 真陰(True negative): 沒病被檢驗為陰性。
- 偽陰(False negative): 有病被檢驗為陰性。有了致命疾病沒有被檢查出來,延誤就醫,會要人命的。
瞭解了這樣的定義,我們可以看出有病的人的檢驗結果可能為陽性,也可能為陰性,也就是真陽和偽陰;沒病的人的檢驗結果也可能是陽性或陰性,也就是真陰和偽陽,有點昏頭了吧,還要繼續喔。上面的敏感性和特殊性的定義就要用(真/偽)*(陰/陽)的組合來表示了:
sen = n(T+) / n(D+) = 真陽 /(真陽 + 偽陰), (這個真陽,表示的是它的人數,其他同)。
spe = n(T-) / n(D-) = 真陰 /(真陰 + 偽陽),
更正確的用法應該是要用條件機率的表現方法,暫時略去。
在不同的應用中,我們的研究成果可能要用不同的分析方法,大家都用過搜尋引擎吧,這時候有所謂的召回率(recall)和準確度(precision),召回率是你要找的東西,有多少被你找到,這裡所謂的「東西」可能就是網頁,你要召回的東西啦,假設,你的答案是世間所有可能的網址,bingo,你找到所有你要的東西,這召回率當然很高了(這不就是敏感度嗎),但我們找到的東西,垃圾很多,所以還要算找到的東西到底有多少是真正你要找的,這就是準確率了,你找了1000筆資料,只有10筆有用,準確度就只有1%耶。
在人臉辨識的應用裡,問題又有點不一樣了,我們不只是要認這是不是我們的員工,我們還要認出他的身份,他的名字,這時候,假設我們有1000個測試的人臉,我們只要算有幾個人我們認對了就好,假設我們認對了800人(名字都對),準確度就是0.80,不是這樣,你還能做什麼統計?
(後註:在聽完一場政治人物辦的「音樂會」後─有贈送禮物,有煙火秀喔,還能完成這一篇文章也很佩服我自己。)
留言列表