2024-04-29 | Tehseen Zia
在快速發展的人工智慧領域,雖然趨勢往往傾向於更大、更複雜的模型,但微軟在 Phi-3 Mini 上採用了不同的方法。小語言模型(SLM)現已進入第三代,將大型模型的強大功能打包到一個框架中,以適應智慧型手機嚴格的資源限制。 Phi-3.8 Mini 擁有 3 億個參數,其效能可與 大型語言模型 (法學碩士)跨越各種任務,包括語言處理、推理、編碼和數學,並透過量化為行動裝置上的高效操作量身定制。
大型語言模型的挑戰
Microsoft 的 Phi SLM 的開發是為了應對 LLM 帶來的重大挑戰,LLM 需要比消費性裝置上通常可用的運算能力更強的運算能力。這種高要求使得它們在標準計算機和移動設備上的使用變得複雜,由於它們在訓練和操作期間的能源消耗而引發了環境問題,並且由於其龐大而復雜的訓練數據集而存在長期存在偏差的風險。這些因素還會損害模型在即時應用程式中的回應能力,並使更新更具挑戰性。
Phi-3 Mini:簡化個人裝置上的人工智慧以增強隱私和效率
Phi-3 Mini 其策略性設計旨在提供一種經濟高效的替代方案,將先進的人工智慧直接整合到手機和筆記型電腦等個人設備上。這種設計有助於更快、更即時的回應,增強使用者在日常場景中與科技的互動。
Phi-3 Mini 可在行動裝置上直接處理複雜的人工智慧功能,從而減少對雲端服務的依賴並增強即時資料處理。此功能對於需要立即資料處理的應用程式至關重要,例如行動醫療、即時語言翻譯和個人化教育,有助於促進這些領域的進步。該模型的成本效益不僅降低了營運成本,還擴大了人工智慧在各行業整合的潛力,包括穿戴式技術和家庭自動化等新興市場。 Phi-3 Mini 可直接在本機裝置上進行資料處理,從而增強用戶隱私。這對於管理個人健康和金融服務等領域的敏感資訊至關重要。此外,該模型的低能源需求有助於環境可持續的人工智慧運行,與全球永續發展努力保持一致。
設計理念和 Phi 的演變
菲的設計理念 是基於概念的 課程學習,它的靈感來自於兒童透過逐漸更具挑戰性的例子來學習的教育方法。主要想法是從更簡單的例子開始訓練人工智慧,並隨著學習過程的進展逐漸增加訓練資料的複雜性。微軟透過根據教科書建立資料集來實施這項教育策略,如他們的研究中所詳述的「教科書就是你所需要的」。 Phi 系列於 2023 年 1 月推出,從 Phi-1.3 開始,這是一個擁有 XNUMX 億個參數的緊湊模型。該模型很快就證明了其功效,特別是在 Python 編碼任務中,它的性能優於更大、更複雜的模型。基於這項成功,微軟最近開發了 Phi-1.5,它保持了相同數量的參數,但擴大了其在常識推理和語言理解等領域的能力。此系列一推出便大放異彩 Phi-2 2023 年 2.7 月。
Phi-3 與其他小語言模型
Phi-3 Mini 在其前身的基礎上進行了擴展,超越了其他 SLM,例如 谷歌的傑瑪, 米斯特拉爾的米斯特拉爾, Meta 的 Llama3-指令和 通用技術 3.5,在各種工業應用。這些應用程式包括語言理解和推理、常識、常識推理、小學數學應用問題和醫學問答,與這些模型相比,表現出了卓越的表現。 Phi-3 Mini 還在 iPhone 14 上進行了各種任務的離線測試,包括內容創建和提供針對特定位置的活動建議。為此,Phi-3 Mini 已使用稱為「壓縮」的過程壓縮至 1.8GB 量化,它透過將模型的數值資料從 32 位元浮點數轉換為更緊湊的格式(如 4 位元整數)來優化資源有限設備的模型。這不僅減少了模型的記憶體佔用,還提高了處理速度和電源效率,這對於行動裝置至關重要。開發人員通常使用諸如 TensorFlow Lite or PyTorch手機,結合內建的量化工具來自動化和完善這個過程。
功能比較:Phi-3 Mini 與 Phi-2 Mini
下面,我們將 Phi-3 與其前身 Phi-2 的一些功能進行比較。
- 模型架構:Phi-2 在基於變壓器的架構上運行,旨在預測下一個單字。 Phi-3 Mini 也採用了 Transformer 解碼器架構,但與 Llama-2 模型結構更一致,使用相同的分詞器,詞彙量為 320,641。這種相容性確保為 Llama-2 開發的工具可以輕鬆適應 Phi-3 Mini。
- 上下文長度:Phi-3 Mini 支援 8,000 個代幣的上下文長度,比 Phi-2 的 2,048 個代幣大得多。這項增強使 Phi-3 Mini 能夠管理更詳細的互動並處理更長的文字。
- 在行動裝置上本地運行:Phi-3 Mini可以壓縮到4位,佔用記憶體約1.8GB,與Phi-2類似。它在配備 A14 Bionic 晶片的 iPhone 12 上離線運行測試,實現了每秒超過 12 個代幣的處理速度,與類似條件下的 Phi-2 性能相當。
- 型號尺寸:Phi-3.8 Mini 擁有 3 億個參數,其規模比擁有 2 億個參數的 Phi-2.7 更大。這反映了其能力的增強。
- 訓練數據:與使用 2 兆個代幣進行訓練的 Phi-1.4 不同,Phi-3 Mini 接受了更大的 3.3 兆個令牌集的訓練,使其能夠更好地掌握複雜的語言模式。
解決 Phi-3 Mini 的局限性
雖然 Phi-3 Mini 在小語言模型領域展示了顯著進步,但它並非沒有限制。與大規模語言模型相比,Phi-3 Mini 的尺寸較小,其主要限制是其儲存大量事實知識的能力有限。這可能會影響其獨立處理需要深度特定事實資料或詳細專家知識的查詢的能力。然而,可以透過將 Phi-3 Mini 與搜尋引擎整合來緩解這一問題。這樣模型就可以即時存取更廣泛的訊息,有效彌補其固有的知識限制。這種整合使 Phi-3 Mini 能夠像一個能力很強的對話者一樣工作,儘管他對語言和上下文有全面的掌握,但偶爾可能需要「尋找」資訊以提供準確和最新的回應。
產品狀況
Phi-3 現在可在多個平台上使用,包括 微軟Azure人工智慧工作室, 擁抱臉和 奧拉馬。在 Azure AI 上,該模型包含部署-評估-微調工作流程,而在 Ollama 上,它可以在筆記型電腦上本地運行。該模型是為 ONNX運行時 和支持 Windows DirectML,確保它在各種硬體類型(例如 GPU、CPU 和行動裝置)上都能正常運作。此外,Phi-3 透過以下方式作為微服務提供: 英偉達NIM,配備標準 API,可輕鬆跨不同環境進行部署,並專門針對 NVIDIA GPU 進行了最佳化。微軟計劃在不久的將來進一步擴展Phi-3系列,增加Phi-3-small (7B)和Phi-3-medium (14B)型號,為用戶提供額外的選擇來平衡品質和成本。
底線
微軟的 Phi-3 Mini 透過將大型語言模型的強大功能應用於行動用途,在人工智慧領域取得了重大進展。該模型透過更快、即時的處理和增強的隱私功能改善了用戶與設備的互動。它最大限度地減少了對基於雲端的服務的需求,降低了營運成本,並擴大了醫療保健和家庭自動化等領域的人工智慧應用範圍。 Phi-3 Mini 專注於透過課程學習減少偏見並保持競爭表現,正在發展成為高效且可持續的行動人工智慧的關鍵工具,巧妙地改變了我們日常與技術互動的方式。

資料來源:https://www.unite.ai/zh-TW/%E8%A2%96%E7%8F%8D%E5%B7%A8%E6%93%98%E6%8E%A8%E5%87%BA%E5%BE%AE%E8%BB%9F-phi-3-%E9%81%A9%E5%90%88%E6%82%A8%E6%89%8B%E6%A9%9F%E7%9A%84%E8%AA%9E%E8%A8%80%E6%A8%A1%E5%9E%8B/