2025-01-23 | Kate Whiting
- 小型語言模型(SLM)越來越受到關注,因為公司認為它們是採用 AI 的一種高效且經濟的方式。
- 微軟剛剛發布了 Phi-4,稱其在數學推理以及自然語言處理方面的表現優於更大的模型。
- Meta 副總裁兼首席人工智慧科學家 Yann LeCun 在世界經濟論壇上表示,SLM 還可以幫助縮小人工智慧領域的語言多樣性差距。
Llama、Phi、Mistral、Gemma 和 Granite 聽起來像是一個新的超級英雄小隊,但它們實際上是小語言模型 (SLM)的例子。這些輕量級的強者開始在人工智慧領域展現出超越自身實力的實力。
儘管大型語言模式 (LLM) 佔據了新聞頭條,但企業越來越認識到 SLM 的策略價值,認為它是一種更有針對性、更有效率、更具成本效益的 AI 實施方法。
印孚瑟斯公司董事長兼聯合創始人南丹·尼勒卡尼向英國《金融時報》表示,這種轉變受到多種因素推動,包括成本考量和資料隱私問題。
“當你看到大公司時,他們都在說:’我們如何掌控自己的人工智慧命運?’在非常特定的數據上訓練的小型語言模型實際上非常有效……每個人都會建立模型,但我認為他們不必建立這些巨大的模型。
世界經濟論壇的人工智慧治理聯盟剛剛發布了一系列旗艦白皮書《人工智慧時代的產業轉型》,探討了各產業對人工智慧的採用,強調了不同的方法、投資水平以及不同產業面臨的挑戰。
人工智慧在行動:超越實驗,推動行業變革,發現支援人工智慧的手持設備、先進的邊緣人工智慧和「緊湊」語言模型的整合有可能透過自動化任務、管理時間表和提供即時資訊來徹底改變工作。
「這些創新使決策更快、更明智、溝通更有效、行為更有效率。即時獲取關鍵見解可增強個人和專業決策能力。這種轉變可能會重塑個人和企業的運營方式,類似於互聯網的變革性影響。”

有些行業採用人工智慧的速度比其他行業更快。圖:世界經濟論壇
什麼是小型語言模式 (SLM)?
與 LLM(例如為 OpenAI 的 ChatGPT 提供支援的 GPT-4)一樣,SLM 能夠理解和生成自然語言 – 並且使用 LLM 中人工神經網路的精簡版本構建。
但 SLM 的設計初衷是為了完成特定任務。它們接受針對性資料集的訓練,因此能夠非常有效率地完成分析客戶回饋、產生產品描述甚至處理專業行業術語等任務。
所有語言模型都使用參數,這些參數是可調整的設置,能夠從數據中學習並做出預測。與 LLM 相比, SLM 包含的參數明顯較少,從而提高了其速度和效率。
因此,雖然像 GPT-4 這樣的 LLM 可以擁有超過 1,750 億個參數,但 SLM 的參數數量通常在數千萬到 300 億個以下。
這種簡化的架構允許 SLM 在特定領域執行自然語言處理任務,例如客戶服務聊天機器人和虛擬助手,而且其運算能力比大型機器人低得多。
SLM 的緊湊設計是透過知識提煉、修剪和量化等技術來實現的。這些方法使 SLM 能夠捕捉更大模型的核心功能,同時使用更少的處理能力,這使其成為邊緣設備和行動應用程式等資源受限環境的理想選擇。
永續土地管理 (SLM) 對企業有哪些好處?
SLM 更具針對性的方法不僅提高了準確性,而且還解決了有關資料隱私和控制的擔憂。使用 SLM 使公司能夠更好地管理其數據並減輕 LLM 可能出現的潛在版權問題。
2024 年 12 月,微軟發布了其 Phi 系列中的最新 SLM Phi-4,據稱它“在數學相關推理方面優於同類和更大的模型”,並且能夠進行傳統的語言處理。

SLM 的比較情況如何。圖:微軟
據微軟稱,SLM 還具有以下優勢:
- 更快的訓練和反應時間:使用更少的參數,SLM 可以更快地進行訓練並在即時應用中提供更快的回應。
- 降低能耗: SLM 的架構更小,從而降低了能耗,更環保。
- 成本效益:較低的運算要求和能源消耗意味著降低營運成本。
- 提高特定領域任務的效能: SLM 可以針對特定應用進行客製化,從而有可能在狹窄領域提供更好的準確性。
- 邊緣設備相容性:其緊湊的尺寸允許部署在邊緣設備上,從而實現本地處理並減少延遲。
SLM 如何幫助縮小人工智慧中的語言多樣性差距
SLM 也為解決人工智慧中的語言多樣性差距提供了機會。目前,大多數人工智慧聊天機器人僅接受過全球 7,000 多種語言中的約 100 種語言的訓練,並且嚴重偏向英語。
這項限制可能會導致數十億人被排除在數位經濟之外。 SLM 能夠專注於特定的語言或方言,因此可以幫助彌合這一差距並創建更具包容性的 AI 系統。
以 Llama 3.2 1B 和 3B 為例,這是 Meta迄今為止最小的開源模型,具有多語言文本生成功能。
Meta 副總裁兼首席人工智慧科學家 Yann LeCun 在 2024 年 9 月世界經濟論壇可持續發展影響會議(SDIM)上發表講話,利用塞內加爾的數位醫療來強調如何需要多語言人工智慧來縮小差距。
像 Kera Health 這樣的人工智慧平台可以讓人們「與人工智慧助理交談,但它除了會說法語之外,還必須會說沃洛夫語和塞內加爾的其他三種官方語言」。
LeCun 表示,開源人工智慧——「人工智慧的維基百科」——可以推動變革,使人們能夠建立對當地居民和合作夥伴有用的系統。
“例如,Meta 與印度政府建立了合作夥伴關係,以便未來版本的 [Llama] 能夠至少講印度所有 22 種官方語言,甚至數百種當地語言和方言。”
《人工智慧在行動》白皮書發現,人工智慧驅動的通用翻譯有可能透過跨語言和方言提供精確、專業級的翻譯來改變全球互動。
「它打破了溝通障礙,促進了包容性,擴大了當地文化的影響力。這項技術可以透過讓學習材料普及到所有人,實現教育機會均等化,透過有效的多語言交流增強醫療保健,透過簡化協作和貿易來支持全球業務。
“它通過藝術和媒體促進文化交流,使信息民主化,在互聯互通的世界中賦予社會權力,同時通過讓瀕危語言在全球範圍內得到曝光和關注來保護它們。”
小型語言模型的限制是什麼?
然而,正如微軟所指出的, SLM 也存在局限性,包括:
- 理解複雜語言的能力有限: SLM 可能難以理解細微的語言差異和脈絡的微妙之處。
- 複雜任務的準確性降低:對於多方面推理或複雜的資料模式,SLM 可能無法與較大模型的精度相符。
- 效能受限:儘管高效,SLM 可能無法提供高要求任務所需的強大效能。
- 範圍狹窄: SLM 通常在較小的、專門的資料集上進行訓練,與較大的模型相比,限制了它們的靈活性和一般知識。
儘管有這些局限性,SLM 在各個領域得到越來越多的應用,特別是在邊緣運算和即時處理場景中。
SLM 的出現標誌著企業 AI 策略的重大典範轉移。組織正在從實驗方法轉變為策略性和目的驅動性的實施方案,這種方法更有針對性,也更具成本效益。
資料來源: https://www.weforum.org/stories/2025/01/ai-small-language-models/