余至浩 | 2023-10-12
在10月6日國慶日前夕,中研院開源釋出了使用Llama 2所開發的繁中大型語言模型CKIP-Llama-2-7b,但由於一開始未說明該模型是明清人物研究專用非通用,讓外界誤以為是通用型的繁中語言模型而有更大的期待,經過許多人試用後,結果發現在回答提問時,模型提供的內容不夠本土化,甚至可能出現簡中習慣的用語或詞彙,而引起熱議。中研院在模型釋出4天後決定將該模型下架,並承諾未來發布研究成果時,會制定更嚴謹的審核機制,以防止類似問題再次發生。
中研院AI模型事件引起各界廣泛討論。多數聲浪都是責難中研院,不應該使用中國的簡中語料當作訓練資料,並且批評不該在處於測試階段就將模型對外開放,甚至也有立委出面指責,這已升高到認知戰,但是在臺灣,特別是技術社群中,也有一群持不同觀點的專家,他們認為儘管此次中研院繁中模型的成果不完美,但透過提早釋出和頻繁釋出(Release early, Release often)的方式,可以快速獲得反饋,迅速進行更新,吸引更多人參與,使模型持續迭代,進一步提升成果的品質,這也才是開源社群能夠不斷進步的原因。
但這次事件更深層的意義,一方面反映出各界高度期待擁有一個能夠說出在地口氣、本土回應的LLM模型;另一方面也凸顯了臺灣自主研發大型語言模型的重要性。
可是,大型語言模型,除非使用本地資料集、從頭開始訓練,否則就算用Llama 2或其他開源LLM模型,都可能因為資料集的語言分布落差,而產生各種偏差歧見、不同的價值和解釋,尤其,臺灣本土的資料量僅占網路世界不到0.1%,即使在微調時加入本地資料,資料量不夠多、不夠全面完整,很難確保模型能夠完全貼近自己在地風格、使用習慣和語言表達方式。
這次由中研院所開發的這一款明清研究用的繁中語言模型,就是一個典型例子。為了要自動化分析中國明清朝代人物的生平圖譜,中研院的CKIP Lab中文詞知識庫小組使用了Meta的Llama-2-7b和來自中國的Atom-7b這兩個開源LLM模型作為預訓練基礎模型,以此訓練出一個專為明清人物分析而優化的CKIP-Llama-2-7b模型,後來更對該模型進行多任務微調訓練,推出了支援更廣泛對話和問答任務的CKIP-Llama-2-7b-chat模型版本,可運用在文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。
為了研究所需,CKIP Lab團隊選擇的開源基礎模型和微調的資料集中包含了許多來自中國的簡中資料,例如COIG-PC和dolly資料集等,導致訓練出來的繁中語言模型雖然能更準確地回答明清人物的相關問題,但當回答一些臺灣在地的提問,尤其是一些關於事實的問題時,就有可能生成出不夠本土化,甚至是不正確的內容,例如提供錯誤的國慶日時間或總統姓名。這也凸顯出在訓練過程中使用的資料的重要性。
為何臺灣必須要建立自己的LLM模型
在AI領域研究很有經驗的中研院資訊科技創新研究中心研究員李育杰,是國科會負責建構臺灣大型語言模型的可信任AI對話引擎(TAIDE)計畫負責人。他指出,臺灣必須自行擁有大型語言模型的關鍵原因是,目前不論是OpenAI和Meta提供的語言模型,都存在資料偏差(data bias),特別是在中文語料蒐集方面,中文資料占比非常低,而且由於大部分的訓練資料都是透過網路爬取,其中簡中內容比例遠高於繁中,在臺灣本土的繁中資料量相對稀少的情況下,就容易導致因資料偏差而影響到模型生成的結果,出現和原本預期不一樣的情況。
但要讓臺灣建立自己的大型語言模型,前提是需要建立臺灣自己的大型語言資料集,所以,「臺灣應該好好整理我們自己的繁體中文語料庫」他再三強調。
今年6月時,國科會對外公開展示TAIDE計畫的階段性成果,使用大量純繁中資料微調出一個國產70億參數的AI對話引擎,可執行摘要、翻譯、寫信、寫文章等任務。這套AI對話引擎的背後正是使用和中研院CKIP-Llama-2-7b模型相同的Llama 2開源模型當作預訓練的基礎模型。