史上最值得 fine tuning 的大模型gpt-4o-mini(夠聰明、夠便宜)

2024-07-24 | Bowen Chiu

波迷你 mini 有多好?

GPT-4o_mini微調優勢:
成本效益:
輸入標記: "比GPT-3.5 Turbo便宜90%"
輸出標記: "比GPT-3.5 Turbo便宜80%"
訓練成本: "比GPT-3.5 Turbo便宜50%"

上下文長度:
訓練上下文: "65k標記 (比GPT-3.5 Turbo長4倍)"
推理上下文: "128k標記 (比GPT-3.5 Turbo長8倍)"

性能:
智慧程度: "高於GPT-3.5 Turbo"
視覺能力: "支援 (但目前微調僅適用於文字)"

免費試用:
期限: "2024年9月23日前"
每日限額: "200萬訓練標記"

可用性:
使用者群體:
- "企業客戶"
- "Tier 4和Tier 5使用層級的開發者"

總結: GPT-4o mini提供更高性能、更多功能,同時成本更低,是GPT-3.5 Turbo使用者的理想升級選擇。

微調有哪些效果呢?

微調優點:
- 效果更佳:
- 比單純使用提示詞產生更高品質的結果
- 可訓練更多範例,超出提示詞的限制
- 節省成本:
- 可使用較短的提示詞,節省token數
- 降低延遲,加快回應速度
- 客製化能力:
- 可針對特定應用場景調整模型
- 改善模型在複雜指令下的表現
- 處理特殊情況和邊緣案例
- 風格客製化:
- 可設定模型的風格、語氣和格式
- 提高產生特定輸出的可靠性
- 新技能學習:
- 讓模型學習難以用提示詞表達的新技能或任務
- 降級應用:
- 可用較小的微調模型替代大型模型,降低成本
- 在不犧牲品質的前提下縮短提示詞

微調coding新契機 (cli寫法、套件寫法、router寫法、多代理人自然語言風格)

微調確實可以大大改善模型的程式碼寫作能力。以下是幾個主要的改進方面:

特定語言或框架的專精:
可以讓模型更專注於特定的程式語言或框架。
例如,微調可以讓模型在 Python Django 或 React.js 等特定框架上表現更出色。

寫程式風格的一致性:
可以訓練模型遵循特定的寫程式規範和風格指南。
這對於保持團隊程式碼的一致性非常有幫助。

特定領域的最佳實踐:
可以incorporates領域特定的最佳實踐和設計模式。
例如,在金融科技領域,可以強化安全性和交易處理相關的寫程式實踐。

錯誤處理和除錯:
改善模型辨識常見錯誤和提供除錯建議的能力。

檔案和註釋:
強化模型生成清晰、全面的程式碼檔案和註釋的能力。

微調臺灣慣用語契機

[
{
"messages": [
{"role": "system", "content": "你是一個專門使用臺灣用語的助手。"},
{"role": "user", "content": "我想買一件衣服。"},
{"role": "assistant", "content": "好的,您想買什麼樣的衣服呢?我們可以去逛逛百貨公司或是精品店,看看有沒有適合的款式。"}
]
},
{
"messages": [
{"role": "system", "content": "你是一個專門使用臺灣用語的助手。"},
{"role": "user", "content": "這個手機很好用。"},
{"role": "assistant", "content": "是的,這支手機確實很好用。它的功能很齊全,操作也很方便。您最喜歡它的哪些特點呢?"}
]
},
{
"messages": [
{"role": "system", "content": "你是一個專門使用臺灣用語的助手。"},
{"role": "user", "content": "我們去吃飯吧。"},
{"role": "assistant", "content": "好啊,我們去吃飯吧!您想吃什麼呢?要不要去夜市逛逛,或是找間餐廳坐下來好好享用一頓美食?"}
]
}
]

微調公文慣用語契機

[
{
"messages": [
{"role": "system", "content": "你是一位專精於撰寫正式公文的助理。請使用適當的公文用語和格式。"},
{"role": "user", "content": "請幫我起草一份關於舉辦年度員工表揚大會的公告。"},
{"role": "assistant", "content": "謹擬公告如下:\n\n主旨:訂於本(112)年10月15日舉行年度員工表揚大會\n\n說明:\n一、為表彰本公司員工過去一年來的卓越貢獻,特訂於本(112)年10月15日(星期五)下午2時整,假本公司大禮堂舉行年度員工表揚大會。\n二、本次大會將頒發「年度傑出員工獎」、「創新貢獻獎」及「長期服務獎」等獎項。\n三、請各單位主管協助轉知所屬同仁,並鼓勵踴躍參加。\n四、會議相關細節將另行通知。\n\n此致\n本公司全體同仁\n\n 人事部 敬啟\n 中華民國112年9月1日"}
]
},
{
"messages": [
{"role": "system", "content": "你是一位專精於撰寫正式公文的助理。請使用適當的公文用語和格式。"},
{"role": "user", "content": "請幫我寫一份申請延長專案期限的簽呈。"},
{"role": "assistant", "content": "謹擬簽呈如下:\n\n受文者:陳總經理 鈞鑒\n\n主旨:為確保「顧客關係管理系統升級專案」品質,擬請同意延長專案期限,請 鑒核。\n\n說明:\n一、旨揭專案原訂於本(112)年12月31日前完成,因系統整合測試發現若干重大問題,需要額外時間進行修正與優化。\n二、為確保系統穩定性與效能,本部擬將專案期限延長2個月,預計於113年2月28日完成。\n三、本次延期不會增加原編列預算。\n\n擬辦:奉 鈞長核可後,依說明事項辦理。\n\n 資訊部 部長 李大同 謹簽\n 中華民國112年11月20日"}
]
}
]

適合五顆星等級的品質微調

五顆星經典品質的分段論文章節寫法風格,要有三萬個jsonl五顆星段落範例

微調政府決定書風格

微調客戶服務回應風格

微調新聞稿風格

微調檢驗合規與否的風格

微調fine-tuining與 5 shot 五射擊的比較

comparison:
few_shot_learning:
定義: "使用少量範例(通常是 1 到 5 個)來指導模型執行特定任務"
優點:
- 快速且靈活,可以迅速適應新任務
- 不需要大量訓練數據
- 可以在運行時動態改變任務
- 適合快速原型設計和探索性任務
缺點:
- 效果可能不如專門微調的模型
- 受到輸入 token 限制,無法包含大量範例
- 可能無法捕捉非常複雜或微妙的模式
- 推理速度較慢,因為需要處理範例
適用場景:
- 需要模型在不同任務間快速切換
- 資源有限,無法進行完整的微調
- 探索新的應用領域或任務類型
訓練數據需求: "少(幾個例子即可)"
準確性_性能: "中等"
靈活性: "高"
訓練時間: "無(即時使用)"
推理速度: "慢(需要處理範例)"

fine_tuning:
定義: "使用大量特定任務的數據來調整預訓練模型的參數"
優點:
- 可以處理更多、更複雜的訓練數據
- 通常能達到更高的性能和準確性
- 可以學習更深層次的模式和規則
- 生成速度更快,因為不需要在每次請求中包含範例
- 可以深度整合特定領域的知識和規則
缺點:
- 需要更多的時間和資源進行訓練
- 對特定任務的適應性可能較低
- 需要更多的訓練數據
- 可能過度擬合特定任務,失去通用性
適用場景:
- 需要高度專業化或極高準確性的任務
- 有大量可用的訓練數據
- 生產環境中的固定、高頻率任務
- 需要一致性輸出的應用(如法律文件生成、醫療診斷輔助)
訓練數據需求: "多(通常需要 30000 個例子)"
準確性_性能: "高"
靈活性: "低(專注於特定任務)"
訓練時間: "長(需要專門的訓練過程)"
推理速度: "快(模型已優化)"

選擇考慮因素:
- 任務複雜度和專業化程度
- 可用的訓練數據量
- 任務的變化頻率
- 對準確性和一致性的要求
- 可用的計算資源
- 部署環境(如原型vs生產)
- 對模型回應速度的要求

資料來源: https://medium.com/@bohachu/%E5%8F%B2%E4%B8%8A%E6%9C%80%E5%80%BC%E5%BE%97-fine-tuning-%E7%9A%84%E5%A4%A7%E6%A8%A1%E5%9E%8Bgpt-4o-mini-%E5%A4%A0%E8%81%B0%E6%98%8E-%E5%A4%A0%E4%BE%BF%E5%AE%9C-4b4a73cb3d4a

Related posts