OpenAI 承諾的開源模型終於出來了 — GPT-OSS 模型正式介紹

此篇文章聚焦在OpenAI釋出的GPT-OSS系列，強調它同時具備開源可商用與可落地部署兩大特性。模型提供20B與120B兩個規格，採Apache 2.0授權；雖然總參數分別約21B與117B，但因為走Mixture-of-Experts設計，推理時僅啟用3.6B／5.1B活躍參數，再配合僅對MoE權重做4-bit MXFP4量化，讓120B能塞進單張80GB GPU、20B則在16GB GPU就能跑，明顯降低自架成本。

在架構層面，此篇文章把關鍵細節交代得很完整：Token-choice MoE、SwiGLU、softmax-after-topk 的專家選擇流程，注意力使用 RoPE、最長支援128K token，並在層級間交替「全域上下文」與「128-token滑窗」。另外引入learned attention sink，藉由在softmax分母加入可學習偏置，提升長上下文的穩定性。分詞器與GPT-4o同系，相容Responses API的新增token，等於在工具鏈與現有生態上更好接軌。可用性與部署路徑是此篇文章的另一個重點。線上有HuggingFace與gpt-oss.com的playground，NVIDIA NIM也提供120B型號；雲端端到端方面，Google Vertex AI與Azure AI Model Catalog已收錄，可直接掛成即時推理端點。地端與個人場景可走Ollama或Transformers／Colab；企業要上產線，文內建議以TensorRT-LLM為主（作者實測穩定、可與LiteLLM串接）。相較之下，vLLM現階段仍不算「原生支援」，鏡像體積與issue狀況反映整合尚未成熟，導入宜再觀望。

這個系列之所以與多數開源LLM不同，關鍵在推理與格式的可控性。此篇文章指出模型以 Harmony 格式訓練，明確規範角色層級（system > developer > user > assistant > tool）與通道設計；若你透過API供應商或Ollama使用，通常不用手調，但若要自行串接，官方也提供renderer套件。推理強度可在system設為low／medium／high；拉到high時，模型會把較完整的思路輸出到analysis，再把最終答覆交給final，讓你在品質、可觀測性與成本之間取得平衡。工具／函式呼叫方面，作者以Google ADK驗證可行，但提醒 Chat Template 需對齊Harmony，UI才能正確渲染。

效能與安全章節則提供決策所需的邊界感：gpt-oss-120b在MMLU逼近90%、AIME>95%，HealthBench 幾乎追上OpenAI o3，程式任務與function calling 穩定；多語言在高推理模式下平均約81.3%。但在GPQA、HLE等極高難度推理仍有進步空間；安全面向與o4-mini接近，Jailbreak抗性在「指令層級防繞過」略弱，未開啟瀏覽時幻覺偏高——意味著實務上最好配檢索或瀏覽模組一起用，才能把事實性維持在可接受水位。

總結來說，此篇文章把GPT-OSS定位為「開源LLM的實務里程碑」：一手拿著Apache 2.0與廣覆蓋的部署腳本，一手提供可觀測、可調的推理流程與工具呼叫能力。對要做推理應用、Agent工作流或需內部自管的團隊，這是一個高性價比的替代方案；真正需要留意的，是對超高難度推理與安全韌性的持續補強，以及vLLM等生態整合的到位時程。若你想更進一步落地，閱讀全文可以拿到Harmony實作細節、Colab腳本、TensorRT-LLM的操作路徑與評測圖表，足以在一個週末做出第一個可演示的PoC。

閱讀完整文章: https://medium.com/@simon3458/gpt-oss-intro-2025-2-b8aad71b5d4f