網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策
test-2021_Pansci_All_Top

0

0
0

文字

分享

0
0
0

換個位子,換腦袋!機率在不同行業代表什麼意思?——《塗鴉學數學》

臉譜出版
・2020/07/23 ・1983字 ・閱讀時間約 4 分鐘 ・SR值 494 ・六年級

TAAi 2020 25th 人工智慧研討會

  • 作者/ 班‧歐林 (Ben Orlin);譯者/王年愷

若說人類「不擅長」機率,太過簡化又太讓人難堪了。

機率是現代數學裡一門相當精妙的分支,當中處處有悖論陷阱。即使是基本的問題,也可能讓冷靜無情的專家暈頭轉向。嘲諷別人機率算錯,就像是在笑他們怎麼那麼不會飛,或是怎麼那麼不會喝下一整個海洋的水,或是怎麼那麼不防火。

如果真要說句公道話,應該說人類處理機率的能力實在爛透了。康納曼和特沃斯基在心理學研究中發現,人類對於不確定的事件有頑固的錯誤想法。他們會一而再、再而三地高估可能性微乎其微的事件,並低估幾乎鐵定會發生的事件。

圖/臉譜出版提供

這沒什麼大不了的,不是嗎?老實說,我們什麼時候看過機率在真實世界裡冒出頭來呢?又不是一輩子都在想辦法抓住知識性的工具,讓我們也許能在每一個清醒時刻的種種不確定性混沌中稍稍有些安穩⋯⋯

test-2021_Pansci_All_inread_p4

好吧,為了以防萬一——本章是一個操作指南,說明各種不同的人類怎麼去思考不確定性。這個東西就算再難,也不表示我們不能拿它來玩一玩。

如果你是政治記者

圖/臉譜出版提供

哈囉!你是一位政治記者。你會報導即將到來的選舉。你會報導失敗的選戰。在罕見的特別日子裡,你甚至還會報導像是「政策」和「治理」的事。

另外,稍微不可能的事情發生時,你好像會感到困惑。情況並非一直如此。在某個遙遠的過去,你會把選舉視為無限可能的神奇時刻。你輕描淡寫最可能發生的結果來增加刺激感,讓每一場選戰看起來都像是比賽結束鈴聲響起時從中場丟球正中籃框定勝負的。

2004 年美國總統大選當天晚上,小布希在俄亥俄州領先 100,000 票,未開出的選票不到 100,000 張時,你卻說俄亥俄州的選舉結果「太接近,無法確定」。到了 2012 年的總統大選,機率模型預測歐巴馬獲勝的可能性是 90%,你卻說選戰是「兩邊都有可能贏」。

test-2021_Pansci_All_inread_p8

然後,2016 年又把你的世界完全顛倒過來了。川普贏了希拉蕊.柯林頓。第二天醒來時,你覺得你經歷了一次量子奇異點,選舉結果就像是一隻突然憑空冒出來的兔子一樣完全無法預料。但對機率學家席佛(Nate Silver)及看法相近的人來說,這個結果只不過有一點意外而已,發生的機率為三分之一—就像丟骰子丟出 5 或 6 一樣。

如果你是氣象預報員

圖/臉譜出版提供

哈囉!你是一位氣象預報員,是電視上的雲層先知。你的一舉一動都自信滿滿,每一次交談的結尾都是「現在把現場交還棚內主播」。

另外,你會故意把機率說得模稜兩可,讓觀眾不會對你生氣。當然,你會盡可能誠實。如果你說明天的降雨機率是 80%,你所說的完全正確:在這樣的日子當中,降雨的日子總共有 80%。

但是,當降雨比較不可能發生時,你會誇大這些數據。你害怕有人把雨傘留在家裡,天空卻下起雨來,他們跑到網路上罵你。因此,當你說明天降雨機率是 20% 時,這種日子實際上只有 10% 會降雨。你會增加機率,來減少觀眾的咒罵。

test-2021_Pansci_All_inread_p12

假如觀眾更了解機率是什麼,也許你就能夠說出真話。當觀眾聽到「10%」的時候,好像會理解成「不會發生」。假如他們真的理解真正的意思(「每十次會發生一次」),你就能放鬆講出心裡真正想說的數據。在這一天到來以前,你仍然只能兜售半真半假的數據。

現在把現場交還棚內主播。

如果你是千年鷹號太空船船長

圖/臉譜出版提供

哈囉!你是「千年鷹號」(Millennium Falcon)1 太空船船長。你是一位星際暴徒、壞蛋,也是心腸寬大的俠盜。你一生的伙伴是一隻身上只穿一條子彈帶的 8 英尺長太空狗。

另外,你完完全全否認有「可能性」這件事。你不是一個會冷靜反思和考慮戰略的人。你會走私違禁品,也會顛覆整個帝國。你是快速拔槍殺人的冒險之士,只要稍有遲疑便會喪命,多猶豫幾下的話還會更慘。

在散兵坑裡沒有機率專家,而且你一生都躲在散兵坑裡。對你來說,繁複的機率算式只是累贅,和某個一直說「我的天啊」及「請容我建議」的神經質金色機器人一樣是拖油瓶。

我會覺得,我們每一個人的心裡都有一點你的特質。在需要冷靜、細心評估的時候,機率是相當有用的東西,但有時候我們需要一種自信,是頑強的量化數據給不了的。在需要直覺和行動的時刻,被機率拴住的人可能會畏縮,不敢跳出非跳不可的一大步。在這種時候,我們必須忘掉數據,儘管去飛。

註解:

  1. 譯注:《星際大戰》中的宇宙飛船,用於走私業務,影史上最著名的太空船之一。

——本文摘自《塗鴉學數學:以三角形打造城市、用骰子來理解經濟危機、玩井字遊戲學策略思考,24堂建構邏輯思維、貫通幾何學、破解機率陷阱、弄懂統計奧妙的數學課》,2020 年 5 月,臉譜出版

文章難易度
Ad manager Post Bottom code
[集雅]廣告測試

0

0
0

文字

分享

0
0
0
29年來最大墜落事件!中國長征五號B 遺骸該如何處置?——《科學月刊》
科學月刊
・2020/08/19 ・2938字 ・閱讀時間約 6 分鐘 ・SR值 524 ・七年級

TAAi 2020 25th 人工智慧研討會

  • 黃楓台/美國俄亥俄州立大學工程力學博士。專長為衛星軌道分析與太空資訊分析,目前負責太空產業推動工作。

太空時代的來臨雖拓展人們的視野,但火箭發射過程及報廢衛星所造成的太空垃圾卻也引發許多安全問題,而近期中國長征五號 B 的殘骸墜落事件,又讓各界開始討論太空殘骸的處置。太空垃圾可分為無控制與可控制兩種類型。無控制的殘骸需隨時監控,並預測可能的墜落位置;而可控制的太空垃圾在經過規劃後,可順利掉落在位於南太平洋中心的太空墳場。

太空垃圾分布示意圖。位於地球靜止軌道上的環狀帶、位於近地軌道上的雲狀帶為兩個主要的分布帶。圖:WIKI

節節推進!衛星與太空船的發射過程

發射衛星或是太空船,要靠發射載具一節一節火箭的推進、脫離、再推進及再脫離,逐步加速至進入軌道所需速度,再與最後一節火箭分離後進入軌道。多節火箭的尺寸與重量,通常是第一節火箭最大,第二節次之,而後逐漸變小。

除非像是 SpaceX 的獵鷹 9 號(Falcon 9)第一節火箭可以回收再使用,一般來說,發射載具前幾節的火箭在發射過程中,會在燃料燃燒完畢後先行脫離墜落到預先規劃的區域,而最後一節火箭則會達到軌道運行的速度,成為另類的人造衛星或太空垃圾在太空中繞地球運行。為避免最後一節火箭變成太空垃圾,有些火箭會在與衛星分離後,再進行一次反向推進控制,使火箭速度小於入軌速度,返回地球燒毀於大氣層中。

test-2021_Pansci_All_inread_p4
SLC-40上的獵鷹9號全推力型運載火箭,載有執行CRS-8任務的天龍號太空船。圖:WIKI

長征五號 B 的火箭結構、任務與結果

長征五號是中國為了探月、載人及太空站任務所研製的最大型發射載具,運載能力可將大於 22 噸的衛星送入低地球軌道,也能將重達 14 噸的衛星送入地球同步轉移軌道(geostationary transfer orbit, GTO,〔註〕)。

長征五號的外型分為兩種形式,一種是兩節火箭外加四個輔助推進器的長征五號發射載具,另一種則是一節火箭外加四個輔助推進器的長征五號 B 型發射載具。根據資料顯示,長征五號的第一節火箭高度為 31.7 公尺,直徑 5 公尺,總重 182.4 噸,燃料重量 165.3 噸,而僅有火箭的結構體也有約 17 噸,可說是一個龐然大物。

今(2020)年 5 月 5 日,於海南島文昌基地發射的長征五號 B 發射載具搭載兩項酬載,包含新一代載人太空船試驗艙及柔性充氣式貨物返回艙試驗艙。在火箭升空約三分鐘後,四具輔助推進器分離掉入海中,並持續利用第一節火箭推進,在發射八分鐘後分離,酬載與第一節火箭本身皆進入低地球軌道。

由於公開資料沒有顯示最後入軌道高度,根據 5 月 9 日的美國追蹤資料顯示,火箭正在高度 152~270 公里間的橢圓軌道上繞地球運行。在此高度且沒有進行額外軌道維持的情形下,由於大氣阻力的影響,火箭會在幾天內返回地球。最後該節火箭殘骸經確認在 5 月 11 日太平洋時間 8 點 33 分,掉落在非洲西岸的大西洋與象牙海岸。

test-2021_Pansci_All_inread_p8

與長征五號 B 相比,2018 年墜落地球的中國天宮一號太空站,尺寸長 10.4 公尺,最大直徑 3.35 公尺,重量約 8.5 噸,跟長征五號第一節火箭相比算是小巫見大巫。也難怪哈佛大學-史密松天體物理學中心(Harvard-Smithsonian Center for Astrophysics)的天文學家麥克道威爾(Jonathan McDowell)表示:「長征五號第一節火箭是自 1991 年 39 噸重的禮炮七號(Salyut-7)以來,重返大氣層的最大失控物體。」

2020 年 5 月 5 日 長征五號 B 火箭首飛成功

甚麼是太空墳場?低地球軌道太空垃圾的處置方式

自 1957 年發射第一顆人造衛星迄今,人造的太空垃圾包括停止任務的衛星、入軌火箭、火箭與衛星等碎片已超過 1 萬 7 千個,主要分布在 3 萬 6 千公里的地球同步軌道及 1000 公里以下的低地球軌道。

為了保護人類對於太空使用的永續性,有兩種建議各國對於任務結束的衛星的處置方式。若是地球同步軌道衛星,可以將衛星送到離地球更遠的地方;而在低地球軌道的衛星,則可以讓衛星減速降低軌道高度,使衛星能在 25 年內落到大氣層中燃燒掉。然而對於低地球軌道上的大型太空垃圾,因為進入大氣層後,仍有未燃燒完全的部分殘骸將會掉到地球表面,進而可能對人類產生危害,也因此每當有大型太空垃圾掉回地球時,總會引起各太空大國的注意,發布最新軌道運作的情形。

test-2021_Pansci_All_inread_p12

重返地球的太空垃圾可分為無控制與可控制兩類。對於無控制的太空垃圾,雖然可以透過地面雷達追蹤與數值模擬預測最後掉落位置,提前預警避免造成更大傷害,但是太空垃圾的表面積可能因滾動而不斷變化,再加上太陽活動導致大氣密度改變的不確定性,使得預測重返的地球時間會有誤差。若以飛行速度每秒 7.5 公里的太空殘骸為例,當預測重新進入地球大氣層時間有一分鐘的誤差,則可能造成掉落的位置出現約 450 公里的差距。

對於可控制的太空垃圾,在地面的操作人員則可以規劃一個人煙罕至的區域,讓太空垃圾掉落,此地點稱為太空墳場。太空墳場又稱為尼莫點(Point Nemo),正式名稱為海洋難抵極(Oceanic Pole of Inaccessibility),或是南太平洋無人居住區(South Pacific Ocean Uninhabited Area)。

尼莫點是地球表面距離陸地最偏遠的地點,位於南太平洋中央的海面上,與最近的陸塊相隔 2688 公里(圖一)。尼莫點是由加拿大測量工程學家盧卡泰拉(Hrvoje Lukatela)在 1992 年所發現,他以法國小說《海底兩萬哩》(Twenty Thousand Leagues Under the Sea)中的角色尼莫船長命名,其中的尼莫(Nemo)是拉丁語「無人」的意思。

圖一:位於南太平洋中央的太空墳場尼莫點,尼莫點是地球上距離陸地最遙遠的位置,與最近的陸地迪西島相隔約 2688 公里。

依據報導,目前大約有 250~300 件太空垃圾被棄置在太空墳場,迄今為止,從太空掉落到地球的最大物體是 2001 年的俄羅斯和平號太空站(Mir)的太空實驗室,重量高達 120 噸。

小心頭頂!大型太空垃圾從天降

中國目前規劃在 2021 年和 2022 年還要再發射至少三次長征五號 B 火箭,酬載分別為天和號核心艙、問天號實驗艙及夢天號實驗艙,因此未來幾年還會有幾次不受控制的大型太空垃圾再入地球。雖然臺灣面積不大,被掉落的大型太空垃圾波及機會不高,但是國人還是要提高警覺,避免「禍從天降」。

〔註〕地球同步轉移軌道是衛星要從較低高度的軌道,移動到 3 萬 6 千公里高的地球同步軌道的一種軌道。

延伸閱讀

  1. Stephen Clark, U.S. military tracking unguided re-entry of large Chinese rocket, Spaceflight Now, 2020.
  2. Moinak Pal, Massive Chinese rocket falls back to Earth; biggest once since Salyut 7 Space Station fell in 1991, Times Now, 2020.
  3. Point Nemo, Earth’s watery graveyard for spacecraft, Phys.org, 2020.

 

〈本文選自《科學月刊》2020年 8月號〉

科學月刊/在一個資訊不值錢的時代中,試圖緊握那知識餘溫外,也不忘科學事實和自由價值至上的科普雜誌。

 

Ad manager Post Bottom code
[集雅]廣告測試
科學月刊
202 篇文章 ・ 1 位粉絲
非營利性質的《科學月刊》創刊於1970年,自創刊以來始終致力於科學普及工作;我們相信,提供一份正確而完整的科學知識,就是回饋給讀者最好的品質保證。

0

0
0

文字

分享

0
0
0
醫療檢測的準確度:「偽陰性」、「偽陽性」到底是什麼意思?如何計算準確度?
林澤民
・2020/04/28 ・7517字 ・閱讀時間約 15 分鐘 ・SR值 605 ・十年級

TAAi 2020 25th 人工智慧研討會

  • 作者/林澤民
最近關於新冠病毒全面篩檢的問題時不時就在媒體上出現。圖/Martin Lopez@Pexels

最近因為大家關心新冠病毒是否要全面篩檢的問題,媒體上常見一些醫事檢驗學的術語。其中最常聽到的是「偽陰性」,但也常讀到「特異性」與「敏感性」;這些名詞都與新冠病毒檢測的準確度有關。在瘟疫變成每個人生存威脅的時候,這些專門術語也變得跟我們的生活息息相關。

本文嘗試用基本統計檢定概念來詮釋這些名詞,更進一步用數據科學中衡量搜尋、辨識工具準確度的概念來探討醫療檢測的準確度。

「檢測準確度」與「統計檢定」概念可互相對應

在醫檢學,「敏感性」(sensitivity) 常與「特異性」(specificity) 共同用來衡量檢測的準確度。

test-2021_Pansci_All_inread_p4

這些名詞,不熟悉醫檢學的讀者可能會覺得莫測高深,但其實它們與基本統計學所教的統計檢定的基本概念是互相對應的,只是著重點有所不同。這裡先簡單地解釋它們與統計檢定概念的關係,以利讀者了解醫檢學的術語。

先說特異性。特異性是不帶原者中採檢陰性的比例,一般簡稱為「真陰性」的比例。而敏感性則是帶原者中採檢陽性的比例,也可稱為「真陽性」的比例。

表一、醫療檢測結果類型

受檢者
不帶原
(non-carrier)
帶原
(true-carrier)
採檢結果陽性
(positive)
偽陽性
(false positive)
真陽性
(true positive)
陰性
(negative)
真陰性
(true negative)
偽陰性
(false negative)

如果把上圖跟基本統計學學生所熟悉的下圖相比較,就可以看出醫檢術語與傳統統計檢定概念的對應關係。

test-2021_Pansci_All_inread_p8

表二、統計結果檢定類型

虛無假設(H0) v. 研究假設(HA)
虛無假設為真
(H0 Ture)
研究假設為真
(HA True)
採檢結果拒絕虛無假設
(positive)
型一錯誤
(size of test=α)
檢定強度
(power of test=1-β)
無法拒絕虛無假設
(negative)
信心水平
(1-α)
型二錯誤
(β)

所以當我們把「比例」視同「機率」時,特異性其實就是統計檢定的信心水平,而敏感性就是統計強度。連結到型一錯誤的機率 α(即顯著水平,也稱檢定規模)、型二錯誤的機率 β,可以清楚看到:

特異性 = 真陰性的機率 = 信心水平 = 1 – α

敏感性 = 真陽性的機率 = 檢定強度 = 1 – β

因為 α、β 是錯誤的機率,愈小愈好,所以特異性、敏感性都是愈高愈好。但 α、β 並不是互相獨立的。如果樣本數固定、所要檢定的效應(即 H0 跟 HA 的差距)也固定,通常 α 愈小 β 會愈大、α 愈大 β 會愈小,因此特異性跟敏感性之間也有同樣的互換關係。

特異性、敏感性這兩個概念其實都還是傳統所謂「頻率學派」(frequentist) 統計學的概念,它們並未涉及貝氏定理的反機率。在討論新冠病毒採檢準確度的問題時,我們更需關注的其實是反機率的問題:「當採檢為陽性時,其為偽陽性的機率有多高?」反過來說:「當採檢為陰性時,其為偽陰性的機率有多高?」

test-2021_Pansci_All_inread_p12

這些問題,也是近年來撼動頻率學派統計檢定方法的貝氏學派統計學者所指出的問題。

要算這些反機率就必須用到貝氏定理。最近在機器學習、自然語言處理等領域被廣泛使用的 F1 便是由「真陽性」的機率與反機率混合組成的一種檢測準確度 (accuracy) 的度量。

關於貝氏統計學派對傳統頻率學派統計檢定方法的批評,可參考:P 值的陷阱(上):P 值是什麼?又不是什麼?  P 值的陷阱(下):「摘櫻桃」問題

在討論新冠病毒採檢準確度的問題時,我們更需關注的其實是反機率的問題:「當採檢為陽性時,其為偽陽性的機率有多高?」反過來說:「當採檢為陰性時,其為偽陰性的機率有多高?」圖/GIPHY

數據科學中的「準確度」:F1 分數

F1 分數有時簡稱 F 分數,也稱為 Sørensen-Dice 係數。在數據科學裡,F1 常被用來做為搜尋、辨識「相似」資料準確度的度量。它可以用來衡量搜尋引擎的準確度,也常用在自然語言處理中資料的搜尋、辨識,當然它也可以用於人臉辨識。

想像你要用文本分析的方法來研究瘟疫流行期間海峽兩岸情緒的互動。台灣這邊,你要找出一月以來所有與疫情及兩岸情緒互動有關的貼文;大陸那邊,你專注於搜尋微信上面的貼文。你使用的辨識工具是一組包括疫情及兩岸關係的關鍵詞;你希望這組關鍵詞能夠正確地指認出每一篇相關貼文。

你知道你的辨識工具的準確度跟你使用的關鍵詞有關,為了要正確找出相關貼文,你希望辨識的準確度越高越好;但是不論你使用了哪些關鍵詞,你的工具的準確度不會是百分之百。有時一篇貼文明明跟你研究的主題有關,你的辨識工具卻指認不出來;有時明明跟研究主題無關的貼文,卻被認定有關。

如何在網路上精準搜尋資料也是門學問呢!圖/GIPHY

不過,這樣的文本處理過程,其實與醫療檢測有類似之處:對同一篇貼文,用關鍵詞為工具來辨識貼文性質的結果可以有偽陽性、真陽性、真陰性、偽陰性四種類型,這基本上跟表一是一樣的。

F1 包含了兩個成分:召回率 (Recall) 和精密性 (Precision)。F1 是這兩個成分的平均數,但不是算數平均數而是調和平均數

\( F1=\frac{2}{\frac{1}{Recall}+\frac{1}{Precision}} \)

因為召回率精密性的值都介於 0 與 1 之間,F1 的值也會介於 0 與 1 之間。如果召回率和精密性之一的值趨近於 0,F1 的值也會趨近於 0;如果召回率和精密性的值都等於 1,F1 的值也會等於 1。

特別值得注意的是:作為調和平均數,F1 的值永遠小於或等於召回率和精密性的算術平均數。這也就是說:相較於算術平均數,F1 的值會更被它的成份中比較小的那個數值拉低。不論召回率和精密性之中哪個成分的值較小,在計算 F1 時,較小那個成分實質上有較大的權重。這是調和平均數與算數平均數不同的地方。

那麼什麼是召回率?什麼是精密性?

召回率其實就是醫檢學中的敏感性(真陽性)。之所以喚作召回率,應該就是真正具有某種性質的受檢群體,有多少比例能夠被正確指認出來的意思。召回率可以用型二機率表示如下:

召回率 = 敏感性 = 真陽性的機率 = Pr(採檢結果陽性 | 受採檢者為帶原者)= 1 – β

精密性則是召回率的反機率:

精密性 = 召回率(敏感性、真陽性)的反機率 = Pr(受採檢者為帶原者 | 採檢結果陽性)

為什麼算準確度除了召回率還要加上召回率的反機率?這是因為反機率其實是更實際、更重要的考慮。召回率的分母是不特定的群體,而精密性(召回性的反機率)的分母是特定的。以醫療檢測來說,召回率(敏感性)的分母包括所有帶原者,但受採檢的個人並不知道自己帶不帶原,採檢的防疫人員也不知道帶原者是哪一群人,因此召回率只是一個抽象的概念。

相對來說,精密性(敏感性的反機率)的分母是所有採檢陽性者,不但採檢陽性的個人知道自己是陽性,防疫人員也知道採檢陽性的是哪一群人,因此它是比較具體的概念。採檢陽性的人會極想知道自己是真正帶原還是不帶原,防疫人員更需要考量採檢陽性的人中有多少真正帶原或其實不帶原。

採檢陽性的人會極想知道自己是真正帶原,還是不帶原。圖/GIPHY

用貝氏定理計算反機率的詳細步驟,可參考:會算「貝氏定理」的人生是彩色的!該如何利用它讓判斷更準確、生活更美好呢?以及本文附錄。

但貝氏定理要求必須先對帶原、不帶原的先驗機率作出假設。我們假設所有受檢者中帶原者的比例為 π ──或者說每一隨機受檢者帶原的機率為 π ──而不帶原的比例為 1-π。

這 π 可以是客觀估計的頻率,也可以是醫生經由對受檢者問診或疫調形成的主觀判斷。我們算出的結果是:

\( Precision=\frac{(1-\beta )\pi }{\alpha+ (1-\alpha -\beta )\pi } \)

精密性(敏感性的反機率)可能甚小於敏感性。例如當 π = 0.1,α=0.05,β=0.2 時,敏感性為 0.8,敏感性的反機率約為 0.14。這是因為採檢陽性者當中有甚多是偽陽性者的緣故。

假設桃園機場每天有 1000 位入境旅客全部接受篩檢,其中未帶原者有 990 人而帶原者只有 10 人。雖然偽陽性 (α) 只有 5%,990 位未帶原者中也會有將近 50 位被誤檢為陽性,而真陽性 (1-β) 雖然高達 80%,10 位帶原者中也只有 8 位確診陽性。這樣採檢陽性者一共 58 人中,帶原者的比例也只有 8/58,大約 14%。

假設受檢者 1000 人, π = 0.1,α=0.05,β=0.2 時,敏感性為 0.8

   \受檢者(人)
採檢結果\
不帶原
990
帶原
10
陽性偽陽性
50*
真陽性
8
陰性真陰性
940
偽陰性
2

*因 990 的 5%為 49.5 人不合常理,此處四捨五入

這就是貝氏定理的奧妙之處:雖然型一、型二的錯誤機率都不能說很大,當真正帶原者的比例很小時,以採檢陽性者為分母來算,偽陽性的比例會比 α 高甚多,而真陽性的比例會比 1 – β 低甚多。這是與一般人的直覺很不一樣的。因為大多數人不帶原,只要有一點點偽陽性的機率(α),採檢陽性的人中便會有許多不帶原者。如果不了解貝氏定理而對這一點感到困惑,便是犯了所謂「基率謬誤」(base rate fallacy)。

從精密性的公式可以看出:當 α=0,特異性 100% 的時候,精密性也是 100%。此時 F1 的公式簡化為:

\( F1=\frac{2}{\frac{1}{Recall}+\frac{1}{Precision}}=\frac{2Recall}{1+Recall} \)

也就是 F1 完全由召回率(敏感性、真陽性)來決定,召回率越高,F1 也越高;此時沒有反機率的問題。

將 F1 應到到醫學檢驗上

要用 F1 來衡量醫事檢驗的準確度,只要把召回率改成敏感性(真陽性)、把精密性改成敏感性(真陽性)的反機率就可得到下列 F1 分數:

\( F1=\frac{2}{\frac{1}{Recall}+\frac{1}{Precision}}=\frac{2(1-\beta )\pi }{\alpha+ (2-\alpha -\beta )\pi } \)

這個公式包含了三個變項:α、β、π。

在醫學檢驗,α 是偽陽性也是特異性的反面,β 是偽陰性也是敏感性的反面。在統計分析中,α 是研究者自己可以設定的,就是一般所謂的顯著水平,通常設在 α=0.05。近年因為學界廣泛對 p 值的質疑,有不少學者主張要從嚴用 α=0.005。在採檢新冠狀病毒的時候,核酸檢測的設計極大化了特異性,也就是極小化了偽陽性的機率 α;快篩則因為較難以區別各種冠狀病毒而會有較大的 α。

圖一、二中,我們分別以 α=0.05 及 α=0.005 這兩個顯著水平為參數,在所有受檢者中帶原者的比例 π=0.01 的假設下,劃出召回率(敏感性、真陽性)、精密性(敏感性、真陽性的反機率)、F1 對於 β 的函數圖形。

這兩個圖形的橫軸,β,是型二錯誤機率,也即偽陰性,它是敏感性(真陽性)1 – β 的反面。偽陰性是防疫專家很關心的一個指數;防疫中心指揮官陳時中之所以堅持不肯在機場對入境旅客進行普篩的主要原因就是因為篩檢的偽陰性高,他擔心旅客採檢陰性就放下心防趴趴走。若偽陰性的檢測結果太多,則病毒將在社區廣泛傳播。

防疫中心似乎從不曾明確說出快篩偽陰性的機率,張上淳醫師則說他相信三採陰的核酸檢測敏感性「幾乎是百分之百」。中文網頁曾被引用的敏感性數字如「約 10%~70%」、「只有 50-80%」等,似乎指的都是流感的快篩而不是新冠狀病毒的快篩。

其實,即使 4 月 9 日的 Science Daily 都還引用一篇 Mayo Clinic Proceedings 的論文,指出醫學文獻尚未就現有核酸檢測工具的敏感性有清楚、一致的報告。如果快篩敏感性「只有 50-80%」,那我們必須考慮的 β 數值應在 20-50% 之間。如果偽陰性的機率是 0.2,三採陰性仍為偽陰性的機率是 0.008,那麼三採陰的敏感性的確是張上淳醫師所說的「幾乎是百分之百」。

然而敏感性並不是計算準確度的唯一成分,除了敏感性,我們還要考慮敏感性的反機率。圖一、二顯示,至少在 0 < β < 0.5 的區間,精密性(敏感性的反機率)要小於召回率(敏感性),而兩者的和諧平均數 F1 要比算術平均數更靠近數值較低的精密性。換句話說,當我們在計算準確度時,因為把敏感性的反機率納入考慮,準確度會被拉低

接續前面的例子,當 p=0.1,α=0.05,β=0.2 時,敏感性為 0.8,敏感性的反機率為 0.14,準確度 F1 只有不到 0.24!如果我們把 α 從嚴降低到 α=0.005,則 β=0.2 時,敏感性仍然為 0.8,敏感性的反機率為 0.62,準確度 F1 可以提高到 0.70。如果這樣的準確度仍然不令人放心,那只好「順時中」以三採陰性才算真陰性。如此偽陰性的機率降低到 β=0.008,敏感性增為 0.992,敏感性的反機率為 0.667,準確度 F1 可以提高到將近 0.80。

但是多重採檢也有可能出現統計檢定中所謂「多重假說檢定」 (multiple hypothesis test) 的問題。例如在 α=0.05 時,對一位實際不帶原者進行三次採檢,理論上得到至少一次偽陽性的機率是 1 – (1 – 0.05)= 0.1426,採檢越多次這個機率越大。其實,即使偽陰性降到 0、敏感性達到百分之百,敏感性的反機率仍然只有 0.67,F1 還是只有比 0.80 高一點點。

這癥結所在就不再是敏感性的問題而是特異性 (1-α) 的問題了,只有把偽陽性的機率 α 降到更小,讓特異性趨近百分之百,這樣才能解決反機率的問題,讓 F1 完全由召回率(敏感性、真陽性)來決定。

然而即使核酸檢測能做到這樣,快篩卻不一定行。根據報載,中研院基因體研究中心所發展出來的快篩試劑可以達到 95% 以上的特異性。雖然如此,如圖一所示,在 α=0.05 的水平,敏感性的反機率其實是非常值得注意的問題。

只要普檢仰賴快篩,我們便不能只以特異性及敏感性來衡量醫療檢測的準確度。

只要普檢仰賴快篩,我們便不能只以特異性及敏感性來衡量醫療檢測檢測的準確度。圖/Polina Tankilevitch@Pexels

後記:防疫中心數據核算

(2020/4/30 更新)

本文在泛科學刊出之後不久,防疫中心指揮官陳時中部長即在例行記者會上對快篩偽陽性的問題進行了詳盡的解說。陳部長的解說最珍貴的地方是他提供了防疫中心檢測工具特異性、敏感性的數值,以及專業人員對新冠病毒在台盛行率的估計。這些決定了防疫政策的參數,都是我在撰寫本文時無法確知的。

陳時中在記者會中使用的幾張投影片,正好為我的結論提出了完美的專業驗證。這裡只就兩張投影片的數據來核算。

首先,他設定了兩組參數:

  1. PCR(核酸檢測):特異性=0.9999,敏感性=0.95,盛行率=0.0018 or 0.000016。對應於我所使用的統計學參數:α=0.0001,β=0.05,π=0.0018 or 0.000016。
  2. 快篩:特異性=0.99,敏感性=0.75,盛行率=π=0.0018 or 0.000016。對應於我所使用的統計學參數:α=0.01,β=0.25,π=π=0.0018 or 0.000016。
  • 講解中提到兩種盛行率:π=0.0018 以及 π=0.000016,前者被稱為「極大值」,後者為「合理值」。

請注意:這裡快篩的特異性已經高達 0.99了,但是 PCR 的特異性可以更高到 0.9999,很趨近百分之百了,但還不到百分之百。

我文中提出的精密性公式是:

精密性=敏感性(真陽性)的反機率=Pr(受採檢者為帶原者|採檢結果陽性)= \( Precision=\frac{(1-\beta )\pi }{\alpha+ (1-\alpha -\beta )\pi } \)

依此公式來算,盛行率為極大值(π=0.0018)的情況下:

  • PCR 的精密性=0.9448
  • 快篩 的精密性=0.1191

在極大值的假設下,陳時中估計台灣有 4,800,000 因呼吸道症狀就醫的人,PCR會檢驗出 8,687 陽性患者,其中有 8,208 真正的帶原者。這結果(精密性= 0.9448)可說很不錯,但是還是會有 479 偽陽性案例。

但是如果仰賴快篩,則快篩會檢驗出 54,394 陽性患者,其中只有 6,480 真正的帶原者。這結果(精密性 0.1191)太糟糕了。

此所以我說:只有把偽陽性 α 降到更小,讓特異性趨近百分之百,這樣才能解決反機率的問題。然而即使核酸檢測能做到這樣,快篩卻不一定行。只要普檢必須仰賴快篩,敏感性的反機率仍然是值得注意的問題。

在第二張投影片,陳時中把盛行率降低到百萬分之 16(0.000016)。這是他認為比較合理的數值,反映了防疫中心的先驗信仰。在其它參數不變的條件下,π=0.000016 得到下列結果:

  • PCR的精密性=0.1319
  • 快篩的精密性=0.0012

這樣的精密性,連 PCR 都慘不忍睹。其原因是因為偽陽性的個案數目幾乎不變,而真陽性的個案數目大為減少,自然精密性也就大為減小了。這樣普篩數百萬人的後果就是會有許多偽陽性(以及偽陰性)的個案,造成許多個人、家庭、社區的困擾。


附錄:如何計算精密性——敏感性(真陽性)的反機率?

敏感性的反機率如何計算?在〈會算「貝氏定理」的人生是彩色的!該如何利用它讓判斷更準確、生活更美好呢?〉一文中,我提出一個計算貝氏機率的捷徑:從「行的條件機率」為出發點,貝氏定理所要求的反機率就是「列的條件機率」。

如果採取這個觀點,則不需要死背難記的公式就能計算反機率。這包括兩個步驟:

  1. 把「行的條件機率」乘上「行的邊際機率」就可以得到「聯合機率」。
  2. 把「聯合機率」除以「列的邊際機率」就可以得到「列的條件機率」。

這裡「行的邊際機率」就是算貝氏定理必需要先知道的「先驗機率」。至於「列的邊際機率」則把各列的聯合機率相加就可求得。

表三顯示醫事檢驗結果類型以 α、β 表示之「行的條件機率」。我們假設所有受檢者中帶原者的比例為 π ——或者說每一隨機受檢者帶原的機率為 π ——而不帶原的比例為 1 – π。

這 π 的值通常不難估計,即使無法估計也可以假設不同的數值做為討論基礎,有更多資訊時再求改進。π 與 1 – π 是「行的邊際機率」,也就是「先驗機率」。

表三、醫療檢測結果類型之「行的機率」(以α、β 表示)

受檢者
不帶原
(non-carrier)
帶原
(true-carrier)
採檢結果陽性
(positive)
偽陽性
α
真陽性
1 – β
陰性
(negative)
真陰性
1 – α
偽陰性
β
行的邊際機率
(隨機採檢人士帶原的先驗機率)
1 – ππ

有了「行的條件機率」和「先驗機率」,我們依步驟一算得 4 種類型的「聯合機率」,如表四。再依步驟二,我們很容易依次算得「列的邊際機率」及「列的條件機率」如表五。

表四、醫療檢測結果類型之「聯合機率」(以α、β 表示)

受檢者列的邊際機率
不帶原
(non-carrier)
帶原
(true-carrier)
採檢結果陽性
(positive)
偽陽性
α(1 – π)
真陽性
(1 – β)π
α + (1 – α – β)π
陰性
(negative)
真陰性
(1 – α)(1 – π)
偽陰性
βπ
(1 – α) + (1 – α – β)π
行的邊際機率
(隨機採檢人士帶原的先驗機率)
1 – ππ1

表五、醫療檢測結果類型之「列的條件機率」(以α、β 表示)

受檢者列的邊際機率
不帶原
(non-carrier)
帶原
(true-carrier)
採檢結果陽性
(positive)
偽陽性
\(\frac{\alpha (1-\pi) }{\alpha+ (1-\alpha -\beta )\pi }\)
真陽性
\(\frac{(1-\beta) \pi }{\alpha+ (1-\alpha -\beta )\pi }\)
α + (1 – α – β)π
陰性
(negative)
真陰性
\(\frac{(1-\alpha) (1-\pi) }{(1-\alpha)+ (1-\alpha -\beta )\pi }\)
偽陰性
\(\frac{\beta \pi }{(1-\alpha)+ (1-\alpha -\beta )\pi }\)
(1 – α) + (1 – α – β)π
行的邊際機率
(隨機採檢人士帶原的先驗機率)
1 – ππ1

 

所以敏感性(真陽性)的反機率是:

\( Precision=\frac{(1-\beta )\pi }{\alpha+ (1-\alpha -\beta )\pi } \)

Ad manager Post Bottom code
[集雅]廣告測試
林澤民
30 篇文章 ・ 0 位粉絲
台大電機系畢業,美國明尼蘇達大學政治學博士, 現任教於美國德州大學奧斯汀校區政府系。 林教授每年均參與中央研究院政治學研究所及政大選研中心 「政治學計量方法研習營」(Institute for Political Methodology)的教學工作, 並每兩年5-6月在台大政治系開授「理性行為分析專論」密集課程。 林教授的中文部落格多為文學、藝術、政治、社會、及文化評論。

0

0
0

文字

分享

0
0
0
面對選擇,你是害怕風險,還是尋求風險?從心理學中的前景效應談起
何晨瑋 Vicky Ho
・2020/04/19 ・2363字 ・閱讀時間約 4 分鐘 ・SR值 547 ・八年級

TAAi 2020 25th 人工智慧研討會

  • 文/何晨瑋 Vicky Ho|一個幼教系雙主修心理諮商的大學生,致力挑戰大眾的刻板印象。文章多以日常故事為基底,並透過心理學、哲學等領域的角度,重新反思生活與生命的核心價值。個人部落格

年節期間,彩券行總是人潮滿滿,風靡全家大小的就是刮刮樂,不論金額大小,總有人願意掏錢出來買。不過,你曾想過究竟是什麼影響了你決定購買多少面額的刮刮樂,以及買到多少才停手嗎?

如果現在你有 95% 的機會贏得 10,000 元,或有 100% 的機會贏得 9,499 元,你會選擇哪一個呢?

先透露一下,理論中的實驗結果,多數人選擇後者!

test-2021_Pansci_All_inread_p4

我們真的能理性的做決定嗎?

在主流的經濟學中,假設人在決策時是「理性」的。經濟學家提出了預期效益模型(Expected Utility Model),認為人會依據這個模型的公式,理性的精打細算,比較各種選擇可能獲致的酬賞大小,才做出選擇。

預期效益模型公式:

機率(Probability)× 價值(Value)=人類在決策某事物的預期效益(Expected Utility)

但實際上,我們做決策時真的這麼理性嗎?想想你是否曾在刮刮樂沒刮回本時繼續加碼,或在電商平台舉辦購物節時大買特買?

電商平台辦活動時,難道不買個夠嗎?圖/Photo by Andrea Piacquadio from Pexels

心理學教授丹尼爾・康納曼(D. Kahneman)和阿摩司・特沃斯基(A. Tversky)發現:「人做決策時,並非想像中理性,且帶有主觀的偏見。」因此他們提出了前景理論(Prospect theory),並加以驗證。

什麼是前景理論?

前景理論又稱為展望理論,是由心理學教授康納曼和特沃斯基所提出的行為經濟學理論1,用來解釋當決策選擇呈現不確定時,人對於決策的衡量標準,是從「關心收益和損失」的角度來考慮。

test-2021_Pansci_All_inread_p8

面對高收益或低損失的選擇時,多數人會規避風險(risk-averse),傾向選擇效用低(也就是獲利低)且確定性高的選項;但面對低收益或高損失的決策時,多數人卻是尋求風險(risk-seeking),傾向降低效用,只求減少損失的可能性。

有趣的是,前景理論也指出,多數人對損失所引起的不悅情緒,比獲利的愉悅感來得強烈。而且,我們對於得失的判斷會有一個基本的參考點。舉例來說,如果一天的打工薪水是 1200 元,只要高過 1200 元就會被評價為獲利,反之則視為損失,不過這個參考點因人而異。

接下來,讓我們來深入探討規避風險和尋求風險這兩種類型。

規避風險:贏少一點沒關係,但獲利的可能性愈高愈好!

當你有 95% 的機會贏得 10,000 元,或有 100% 的機會贏得 9,499 元,你會選擇哪一個呢?

頭好痛!到底應該選哪一個?圖/by Andrea Piacquadio from Pexels

通常多數人傾向選擇後者。

test-2021_Pansci_All_inread_p12

當我有百分之百的機會可以全拿時,即使預期效益前者大於後者,95% × 10,000 = 9,500 > 9,499,但如果選擇 95% 的機會贏得獎金,卻仍有 5% 是零獲利。多數人會選擇規避風險,找到一個確定性高的獲利方式,來避免自己因零獲利而失望的情緒。

當你有 5% 的機會損失 10,000 元或 100% 的機會損失 501 元,你會選擇哪一個呢?

多數人會選擇後者,因為擔心損失巨大,所以會極力規避風險。因此,解釋前景理論的結論之一是,多數人面對「高收益可能」及「低損失可能」時,幾乎都是選擇規避風險的。

尋求風險:損失的可能性愈低愈好,或許運氣好就能零損失!

當你有 95% 的機會損失 10,000 元或 100% 的機會損失 9,499 元,你會選擇哪一個呢?

多數人傾向選擇前者,當我有機會可以避免零損失,即使預期效益後者大於前者,95% ×− 10,000 = − 9,500 <− 9,499,大家通常還是會冒險選擇 95% 的機會損失 10,000 元,因為其中仍保有 5% 可能零損失,不試試看實在說不過去。而這就是尋求風險。

當你有 5% 的機會贏得 10,000 元或 100% 的機會贏得 501 元,你會選擇哪一個呢?

多數人會選擇前者。因為希望獲得最大效益,所以會尋求風險,機會很小也沒關係。因此,解釋前景理論的另一個結論是,當多數人面對「高損失可能」
及「低收益可能」時,通常會選擇尋求風險。

尋求風險派 or 規避風險派?

想想看,你喜歡玩刮刮樂嗎?你會買到多少才停手呢?雖然大部分的人適用於前景理論的結果,但我們每個人對於規避風險或尋求風險,事實上有一些偏好。這個偏好跟參考點有關,也就是收益和損失在你心中的基準,例如有人覺得花 2,000 元玩刮刮樂很OK,但有人連花 200 元都覺得多。

你會想花多少錢玩刮刮樂呢?圖/by Montage Communications on Foter.com / CC BY-SA

如果你在玩刮刮樂時,喜歡選中獎率低但獎金很高的類型,而且你總是會一直刮一直刮,儘管中獎率很低,讓你花了很多錢也在所不惜,那你很可能就是尋求風險派。但事實上,這樣尋求風險的賭下去,未必會讓你如實獲利。為了不讓自己的荷包損失太慘重,最好還是提醒自己,在適當的時機見好就收吧!

若是規避風險派的人,玩刮刮樂會有什麼表現呢?讓我告訴你,這類型的人通常根本不玩刮刮樂!頂多是因為過節氣氛,為了應景才花點小錢玩一玩,所以他們通常會選擇獎金可能較低,但百分之百包中的刮刮樂。

理性客觀?

現在你知道了,經濟學家計算出的預期效益公式,並不是人們下決策的唯一依據。根據前景理論的概念,可以理解當人面對高收益及低損失可能時,人會保守的避免損失,將利益極大化;但當面對高損失及低收益可能時,卻又會積極的尋求風險,用賭一把的心態來處理。所以,其實我們真的沒有自己想像中那麼客觀理性,下決策時,還是再多想一下吧!

註解

  1. 你可能會覺得有點奇怪,為什麼一下是行為經濟學,一下又是心理學,由於此理論為兩位心理學家所提出,研究結果被廣泛應用在行為經濟學中,而在以思考決策為主的心理學領域,對前景理論也有許多研究。因此,行為經濟學及心理學所談的前景理論本質上是相同的,只是所關注的內容不同。

參考資料

 

  • 責任編輯/竹蜻蜓
Ad manager Post Bottom code
[集雅]廣告測試
何晨瑋 Vicky Ho
12 篇文章 ・ 0 位粉絲
畢業北市大幼教系雙主修心理諮商的女子,致力挑戰大眾的刻板印象。多以心理科普方式,討論時事等議題。個人部落格粉專IG