在生成式AI快速重塑全球語言科技版圖之際,台灣卻面臨語言數位能見度嚴重不足的挑戰。主流AI模型多半以英文與簡體中文為訓練基礎,台灣本地語言如台灣華語、台語、客語及原住民族語,長期缺席於國際AI生態系。此文聚焦由IMA資訊經理人協會推動的「Taiwan Tongues 台灣通用語料庫計畫」,揭示這項語言開放行動如何試圖改變現況,讓台灣的聲音被全球AI理解與吸收。
根據報導,Taiwan Tongues計畫的核心目標是打造一套自主、可信且可開放使用的本地語料資源體系,為未來AI模型提供在地文化語境下的學習素材。此計畫首波行動即是擴充台灣語料規模:IMA理事胡長松率先捐出150萬字文學作品,至今已有數十位作家響應授權,累計超過500萬字語料已上架至開源平台 Hugging Face,供學界與社群免費非商業使用。
不只文化圈響應,企業界也積極參與。群聯電子導入獎勵學習(RL)與Reward Model訓練技術,協助打造具多元觀點理解與區域語意調適能力的AI訓練框架。這將為企業訓練在地化AI助手、客服機器人及語音系統提供強大後盾。
數位發展部次長林宜敬則強調,語言代表主權,AI發展不能忽視在地語言的存在價值。他指出,提升台灣語言在數位世界的能見度,不只是文化保存,更攸關AI時代的產業競爭與數位主權議題。未來政府將與民間攜手,推動語料開放與模型建構,讓台灣語言在全球AI競技場中不再缺席。
此篇文章清楚點出語料自主權的重要性,也展現民間與產業合作所能開創的可能性。對於關注AI發展本地化、多語支持與文化永續的讀者而言,這不僅是一場語言工程的行動,也是台灣邁向全球AI治理話語權的重要起點。Taiwan Tongues計畫的進展與擴散,值得每一位重視本土語言未來的讀者持續關注。