2023-11-27 | Simon Liu
本文內容難度: ★ ★ ☆ ☆ ☆
建議閱讀對象:本次文章將會以不涉及任何程式碼的方式,介紹 TAIDE 計畫的大型語言模型的經過與資訊,以及他可以為台灣帶來什麼樣子的影響力,期待能夠讓大家更認識 TAIDE 計畫模型。
前言 — LLaMa 語料庫的資料組成
我們都知道, LLaMa 模型由 Meta 所開源出來的大型語言模型,因此在英文的比例一定會高出其他語言不少,但在以下的論文中,其實 Meta 有透露模型使用的語料庫語言比例:

從表上可以看到,Meta 團隊大概九成的比例是使用英文進行訓練,而中文的比例僅只有 0.13% 左右,但這裡面包含著繁體中文與簡體中文,而根據新聞的資訊,臺灣本土的資料量僅占網路世界不到0.1%,即使在微調時加入台灣相關的資料,還是會發現資料量不夠多、不夠全面完整,也很難確保模型能夠完全貼近自己在地風格、使用習慣和語言表達方式。
負責任的人工智慧 (Responsible AI)

「負責任的人工智慧」(Responsible AI)主要談論的是在倫理和道德原則指導下開發和部署 AI 技術的實踐。這種做法考慮到 AI 對社會的影響,力求避免潛在危害並放大正面效益。它倡導尊重人權、保護個體和社會福祉,並透過透明度和減少偏見來實現安全和可信的 AI 應用。這要求 AI 系統在清晰的法律和道德框架內開發,以確保其合理運用。
另一方面,隨著 AI 在商業、醫療和教育等領域的應用不斷擴大,也帶來了如何建立公平、可解釋、保障隱私和安全的 AI 系統的新挑戰。負責任的 AI 實踐關注於確保系統的責任明確、決策透明、保護個人數據,並包容性地對待所有用戶,這有助於建立大眾對 AI 技術的信任和接受。這些原則和做法不僅理論上重要,而且正被越來越多關注 AI 倫理的組織和機構所採納。
TAIDE (Trustworthy AI Dialogue Engine) 計畫

TAIDE 模型是一個針對台灣文化特色和需求定制的生成式人工智慧對話引擎。它整合了台灣獨有的語言、價值觀、和風俗習慣,目的是強化台灣在科技領域的實力與全球競爭力。這個自主開發的自然語言處理技術和大型語言模型對台灣來說不僅能提升工作效率,還能增強資訊安全和防範假信息的能力。 TAIDE 計畫旨在創建一個可信賴的 AI 對話基礎模型,並提供多領域的訓練素材,以滿足使用者的多樣化需求。這包括收集和編碼特定領域的文本,建設必要的計算能力和服務平台,並開發評估工具來促進 AI 的健康發展和公眾信任。
該計畫還強調了公私合作的重要性,協助產業導入和調整基礎模型,從而創造雙贏的局面。從 AI 人才的培育、高速運算環境的建立到高品質數據的收集和標注,TAIDE 計畫在各個層面上都為台灣的 AI 發展奠定了基礎。它的目標是使台灣在生成式 AI 領域具有更大的話語權和影響力,並確保 AI 技術能夠對台灣乃至全球社會產生正面的影響。
詳細資訊,可到 TAIDE 計畫的官方網頁進行了解:https://taide.tw/index
TAIDE 計畫所使用到的資料集

TAIDE模型計畫致力於打造一個精準且可信賴的台灣在地化生成式人工智慧對話引擎。為了達成這個目標,計畫採納了豐富而多元的資料集,這包括官方字典、教育資源、學術研究以及媒體出版物,確保模型的訓練基於高品質且相關性強的文本資料。譬如,教育部的《國語小字典》、《重編國語辭典修訂本》、《國語辭典簡編本》與《成語典》提供了豐富的語言學習素材,使AI模型更精準地理解和運用正體中文。
此外,包含政府報告摘要、科技大觀園、科學發展月刊、學術會議論文摘要以及GRB政府研究資訊系統的報告在內的通用文本資源,幫助AI模型學習與理解廣泛的主題和專業知識。光華雜誌提供的中英對照文本、中央社中文新聞網的時事報道以及中文維基百科的廣泛知識庫,都為模型提供了當代語言使用和實際世界知識的豐富樣本。
法規資料庫和中央及地方政府機關常見問題Q&A等資料集則賦予了TAIDE模型深入了解行政法規和政策的能力。十二年國教課程綱要等教育資源則讓AI模型對台灣教育體系有深度的認知。這些資料集不只覆蓋了通用與特定用途的文本,同時都經過精心挑選與預處理,以保證TAIDE模型的訓練兼顧品質、多元性與台灣獨有的文化背景。
詳細資料集的資訊,可以見此處:https://taide.tw/public/trainData
TAIDE 模型目前測試下來的狀態
筆者這次以平台供應商的方式,與 TAIDE 計畫合作,讓我們的平台也能夠使用 TAIDE 模型來進行部署與處理。

目前筆者測試下來的特點:
- 此模型目前參數量為 7B 的模型,所以部署此模型的基礎設施會使用到較多 GPU 資源
- 因為是 Llama 2 模型所 Fine-tuned 而來,因此此模型可以透過 GGUF inference engine 做好轉換(筆者有轉成 Q8_0 格式進行測試,使用上並沒有遇到任何問題)
- 在回答台灣文化與資訊上,其實回覆的狀況已經很好了,後續我也有回饋給 TAIDE 模型計畫的工作人員,目前此模型的回覆仍有受到原始 LlaMa 2 模型所學習到的資料而影響回覆,了解 LLM Fine-Tune 模型的人會知道,這真的不是很好調整,因為這有可能需要在 Fine-Tune 之中,做更多次的訓練,但又會擔心過去學習到的正確資訊就會消失不見,這些已知的問題,TAIDE 團隊正在緊鑼密鼓地調整當中。也期待後續正式版本釋出之後,可以將相關問題解決。
InfuseAI 目前跟 TAIDE 計畫有相關合作,可以將模型部署到平台上,如果有相關需求的單位或企業,也歡迎與我們聯絡,讓我們能夠幫助到你們導入相關模型:business@infuseai.io
結論
本次文章,主要講述有關 TAIDE 模型作為一個針對台灣本土需求的語言模型的重要性。透過整合 LLaMa 2 模型的基礎,並加入豐富的台灣在地文化和語言數據來進行 Fine-Tune 處理,TAIDE 模型期待能夠提升台灣科技領域的全球競爭力。
另外,也提供了「負責任的人工智慧」的相關概念,來強調開發過程中必須考慮 AI 技術的倫理和社會影響。同時,筆者也很榮幸能與 TAIDE 計畫進行合作,讓 TAIDE 模型可以介接並且運行在 InfuseAI 的 AI 對話系統,這不僅減少了 AI 技術的使用難度,也為台灣在生成式 AI 領域創造了更大的話語權。
最後,我們介紹了計畫如何通過使用多元化的資料集來培養模型,並提及了模型在測試階段的表現以及未來的調整計劃。期待後續正式版推出後, TAIDE 模型的未來發展和對台灣社會可以產生正面貢獻!
資料來源:https://blog.infuseai.io/taide-model-introduction-f14d1334bf17