大型語言模型在健康應用方面的未來作用取決於監管機構執行安全標準

此篇文章深入探討了大型語言模型(LLM)在醫療領域的應用潛力與監管挑戰,特別是如何在臨床環境中利用生成式人工智慧(GenAI)來提升診斷精度、病患護理及醫療決策支援等方面。然而,隨著LLM的應用範圍擴大,也引發了有關安全性、準確性及監管的諸多疑慮,特別是當這些技術被用來提供醫療建議時。

自從生成式預訓練變壓器(GPT-4)於2022年推出以來,LLM技術的進步使得人工智慧在醫療保健領域中的應用逐漸增多。作者指出,這些技術正被廣泛應用於癌症診斷、預測醫學、臨床筆記生成、虛擬護理以及醫療專業人員與患者之間的互動。LLM作為診斷輔助工具,能夠在醫療影像分析、疾病分類和預測病情等方面表現出極大的潛力。此外,基於LLM的應用,如ChatGPT和MedQA,已經能在許多醫學測試中達到良好的表現,並展示了在放射科等領域的應用潛力。然而,儘管LLM的使用在學術與實務領域中顯示出積極的成果,現實中的應用還面臨諸多挑戰,尤其是在將這些技術轉化為安全且有效的臨床工具方面。

LLM應用在醫療領域的最大挑戰之一便是監管問題。根據本文的討論,LLM技術的輸出結果可能存在大幅變化,且其解釋性較差,這使得其在醫療應用中的可靠性受到質疑。尤其是在涉及患者健康和安全的情況下,基於LLM的應用常常產生錯誤的診斷或不適當的治療建議,這些錯誤可能會導致患者受到嚴重傷害。目前,歐盟和美國等地的監管機構對於這類應用的規範仍存在不確定性。儘管在某些情況下,像是診斷支援系統(CDSS)這類基於LLM的醫療應用被視為醫療器械,必須遵守相關法律和指導方針,但由於LLM的多功能性和靈活性,現有的監管框架往往無法有效應對其多樣化的應用方式。例如,很多基於LLM的應用未經過專業的臨床驗證便已上市,這使得外行人使用時,可能面臨誤導或未經證實的醫療建議。

基於LLM的醫療應用對於非專業使用者存在一定風險,由於這些技術常被設計成易於使用的介面,許多非專業使用者可能會誤信這些工具提供的診斷與建議,進而延誤或錯誤治療。特別是當LLM生成的建議看似合理,但實際上卻可能是錯誤的時候,這種「人工智慧幻覺」的風險更顯得極為重要。例如,在面對胸痛或呼吸急促等症狀時,基於LLM的應用可能提供看似合適的建議,但未能及時提醒用戶就醫,從而錯過最佳治療時機。這類錯誤和延遲治療的情況,可能導致患者的健康狀況惡化,甚至危及生命。在面對這些挑戰時,本文強調了迫切需要一個適應LLM獨特功能的監管框架。這個框架不僅應該強化現有的監管規定,還應該特別考慮LLM的多用途性和快速發展性。隨著新的歐盟人工智慧法案的通過,未來基於LLM的健康應用將受到更加明確的法律約束。這些新規則將有助於規範LLM的開發和應用,並確保其能在不妥協患者安全的情況下發揮作用。

總結來說,儘管LLM在醫療領域展現出巨大的應用潛力,但作者指出,監管機構需要在確保患者安全的同時,促進這些技術的負責任發展。未來的挑戰將是如何在快速發展的人工智慧技術和現有法規之間找到平衡,並確保其在醫療應用中的合法性與安全性。

閱讀完整文章: https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00124-9/fulltext

Related posts