【投書】大數據研究會透露我的個資嗎?開放科學面對人工智慧的隱私爭議

2024-08-08 | 林亮瑜

在數位時代,我們的日常生活不免會留下許多資訊紀錄;這些直接或間接收集的大數據資料庫,可以用來回答許多重要的研究問題,亦可訓練人工智慧模型發展。以COVID-19疫情為例,各國對醫療系統所收集的健康資料數據進行分析,以便於滾動調整防疫政策;然而大數據資料的使用一直有隱私方面的爭議,對此筆者欲參考國外經驗提出建議。

去識別化資料,個資仍有暴露風險

目前各數據資料庫於提供研究資料前,都會預先將資料去識別化,僅提供匿名資料供研究者分析;然而此一保障個人隱私權措施仍受到許多質疑,認為仍有逆向辨識個人資料的可能。

以健保資料庫為例,假設有一位公眾人物中風,於某日被送到某縣唯一的醫學中心,醫院向外說明時,公布了他的診斷資訊。藉由媒體揭露資訊、串連比對多個健康資料庫後,的確不能百分之百保證該公眾人物的部分個資不會被再揭露。

為了避免這種極端的例子,目前台灣的作法是嚴格管控健保資料的分析使用,僅能在特定時段前往資料科學中心、當場進行資料分析。此舉雖然可以保障隱私,但也造成資料分析曠日廢時,缺乏效率和競爭力,亦不利於發展人工智慧相關研究。

去識別化的資料,被認為仍有逆向辨識個人資料的可能。圖片來源:kanlaya wanon/Shutterstock

借鏡英國,嚴格規範健康資料

關於隱私爭議,我們可以借鏡近年來大力推動健康資料科學研究的英國。首先,英國針對研究計畫以及參與人員資格本身有嚴格的規定。英國的國家統計局提出了5個資料使用的安全原則:1.安全的資料;2.安全的計畫;3.安全的人員;4.安全的研究環境;5.安全的結果。分析資料的研究人員必須強制接受課程訓練並通過測驗,才具備分析資料的資格;個別的研究案本身亦需另外通過科學以及倫理審核。

除了針對研究案本身嚴格設限外,為了徹底解決個資再辨識的極端狀況,牛津大學與倫敦大學衛生與熱帶醫學院提出了開放安全研究平台(OpenSAFELY)。使用此平台進行健康資料研究時,研究者無法看到個人的健康資料,僅能看到平台軟體針對其研究需求所提供之模擬資料。這些模擬資料的架構都和真實資料相仿,因此研究者可以依此撰寫複雜的資料分析程式;隨後平台軟體可自動執行研究者寫好的程式來分析真正的去識別化健康資料,並回傳統計分析結果。

更重要的是,此過程中的所有分析程式碼以及執行紀錄,都會強制公開在GitHub網路平台上供大眾檢驗,因此任何想要窺探隱私的意圖都無所遁形。透過安全的研究人員和計畫,以及開放科學的研究模式,英國在COVID-19疫情間迅速地使用健康資料發表了一系列相關研究,影響全世界的疫苗政策。

《人工智慧法》即將出爐,需平衡隱私保護與數據利用

日前國科會預告制訂《人工智慧法》以因應新科技的快速發展,對此我們肯定政府迅速做出反應;然而在發展各類AI科技時,必然有機會使用就醫紀錄等個人隱私資料。我們應該參考國外成功的經驗,於制訂資料使用規範時,納入開放科學的精神,才能在確保個人隱私的前提下,充分利用健康資料數據並提升資料分析之效率,讓健康研究的推展能順利進行,使全民受惠。

(作者為倫敦大學博士、台大公衛學院助理教授。)

資料來源:https://opinion.cw.com.tw/blog/profile/52/article/15149

Related posts