IMA協會啟動Taiwan Tongues計畫打造台灣AI語料庫

在生成式AI快速重塑全球語言科技版圖之際，台灣卻面臨語言數位能見度嚴重不足的挑戰。主流AI模型多半以英文與簡體中文為訓練基礎，台灣本地語言如台灣華語、台語、客語及原住民族語，長期缺席於國際AI生態系。此文聚焦由IMA資訊經理人協會推動的「Taiwan Tongues 台灣通用語料庫計畫」，揭示這項語言開放行動如何試圖改變現況，讓台灣的聲音被全球AI理解與吸收。

根據報導，Taiwan Tongues計畫的核心目標是打造一套自主、可信且可開放使用的本地語料資源體系，為未來AI模型提供在地文化語境下的學習素材。此計畫首波行動即是擴充台灣語料規模：IMA理事胡長松率先捐出150萬字文學作品，至今已有數十位作家響應授權，累計超過500萬字語料已上架至開源平台 Hugging Face，供學界與社群免費非商業使用。

不只文化圈響應，企業界也積極參與。群聯電子導入獎勵學習（RL）與Reward Model訓練技術，協助打造具多元觀點理解與區域語意調適能力的AI訓練框架。這將為企業訓練在地化AI助手、客服機器人及語音系統提供強大後盾。

數位發展部次長林宜敬則強調，語言代表主權，AI發展不能忽視在地語言的存在價值。他指出，提升台灣語言在數位世界的能見度，不只是文化保存，更攸關AI時代的產業競爭與數位主權議題。未來政府將與民間攜手，推動語料開放與模型建構，讓台灣語言在全球AI競技場中不再缺席。

此篇文章清楚點出語料自主權的重要性，也展現民間與產業合作所能開創的可能性。對於關注AI發展本地化、多語支持與文化永續的讀者而言，這不僅是一場語言工程的行動，也是台灣邁向全球AI治理話語權的重要起點。Taiwan Tongues計畫的進展與擴散，值得每一位重視本土語言未來的讀者持續關注。

閱讀完整文章: https://www.ctee.com.tw/news/20250707700135-430502