聯發創新基地全面開源MediaTek Research Breeze 2多模態基礎模型群,實現繁中AI助理

此篇文章介紹了聯發創新基地所推出的全新多模態基礎模型群MediaTek Research Breeze 2(簡稱MR Breeze 2),其中包括針對手機和個人電腦的不同版本,專為繁體中文和台灣口音調整的語音合成模型。這些技術不僅提升了AI助理的表現,還增強了其對視覺和語音的理解能力,並且大大改善了在台灣本土市場的應用效果。

其中最為突出的是Llama-Breeze2,這款基於Llama 3.2大型語言模型(LLM)開發的繁中多模態語言模型,具有三大特色:

  1. 繁體中文知識全面提升
  2. 視覺語言模型(VLMs)的整合
  3. 函式呼叫功能(Function Calling)的能力

例如,在與Llama 3.2對比的測試中,Llama-Breeze2在生成有關台灣夜市的文字時,能夠準確列舉出更多實際存在的夜市名稱,並且深入理解台灣夜市文化。這種對本土知識的精準把握,顯示出Llama-Breeze2在處理繁體中文內容的優越能力。

Llama-Breeze2的另一大亮點在於其強大的視覺語言能力。不僅能夠處理文本,它還能分析圖像並從中提取信息。例如,當用戶提供圖片並詢問前三名的總獎金時,Llama-Breeze2能夠迅速識別圖片中的數字,並準確計算出總和,顯示出其在處理複雜多模態任務中的潛力。此外,Llama-Breeze2搭載了函式呼叫功能,這使得AI助手能夠調用外部工具來完成特定任務。例如,當用戶詢問當地天氣時,AI助理可以調用天氣應用程式(API)來提供即時的天氣預報,顯著提升了其實用性和互動能力。本文還介紹了BreezyVoice,這是一個專為台灣口音設計的語音合成模型(Text to Speech,TTS)。BreezyVoice的獨特之處在於其能夠只通過5秒的語音樣本來生成自然流暢的語音,並且具有輕量化架構,讓即時語音輸出成為可能,適用於多種需要語音反饋的場景,如智慧導航或AI客服等。

為了讓使用者更加便捷地接入Llama-Breeze2技術,聯發創新基地還開源了一款搭載Llama-Breeze2-3B模型的Android APP。該APP不僅能夠處理繁體中文文本,還可以通過手機內建的AI運算單元(NPU)來加速模型的執行,提高效能。用戶不管是在捷運上、旅行中,或是在任何需要即時翻譯和知識查詢的場合,都能隨時隨地使用AI助手來幫助他們解決問題。聯發創新基地強調了這些技術在台灣本土市場的巨大潛力,尤其是在提升AI助理的知識庫和互動體驗方面。Llama-Breeze2模型與BreezyVoice語音合成的結合,讓AI助理不僅能夠提供文字回應,還能夠實現語音對話,並對圖片進行實時分析,這些都為開發更為智能、個性化的客製化AI助理奠定了基礎。

總結來說,聯發創新基地的這一系列新技術和開源舉措不僅提高了台灣本地開發者的創新能力,也為全球市場提供了強大的AI基礎模型,展現了AI助理在多模態交互和本土化應用中的巨大潛力。未來,隨著更多開發者參與進來,Llama-Breeze2和BreezyVoice等技術將進一步推動AI應用的普及,尤其是在台灣市場,為民眾提供更加智能化的服務體驗。

閱讀完整文章: https://www.mediatek.tw/blog/%E8%81%AF%E7%99%BC%E5%89%B5%E6%96%B0%E5%9F%BA%E5%9C%B0%E5%85%A8%E9%9D%A2%E9%96%8B%E6%BA%90-breeze2

Related posts