Google Gemma LLM Model — Google 第一個基於 Gemini 的開源 LLM 模型

2024-02-21 | Simon Liu

Google 在 2/21 的今天,公佈他們新出了開源模型 — Gemma,以下為大家統整相關模型資訊:

I. Gemma 模型介紹

模型名稱

Gemma 系列模型
此模型由 Google 官方所開源出來的 SOTA AI 模型

模型開源狀況 / License

Gemma 目前採用 Google 所撰寫的 License 授權方式 — Gemma Terms of Use,統整相關內容並理解後,是一個可商用的模型。

參數量

2B, 7B

模型種類

目前開源出來總共有四個模型,也一併提供 HuggingFace 連結:

  • gemma-7b: 7B 基礎模型。
  • gemma-7b-it: 針對指令進行微調的 7B 基礎模型版本。
  • gemma-2b: 2B 基礎模型。
  • gemma-2b-it: 針對指令進行微調的 2B 基礎模型版本。

模型表現

我們從 HuggingFace 的 Gemma 文章介紹中,可以看到小模型的比較表格:

就現在的 7B 表現上,比 Mistral-7B 和 Llama-7B 來得好,而且很接近於 Llama 2 70B 的水準,但是要注意,Gemma 2B 就其模型大小而言,是一個滿微妙的模型,但它在排行榜上的表現,不如具有相似大小的模型(例如 Phi 2)。

相關模型網路資源

  • HuggingFace Playground:

https://huggingface.co/chat?model=google/ gemma-7b-it

II. 我的觀點

Google 開發者關係專案經理上官林傑在臉書上分享的結論,已經寫得非常清楚,在此分享藉由他所整理出來的資訊,加上我的想法補充:

  • 有出 2B 跟 7B 兩個版本:2B 感覺目前還沒將能力調整到最好,但如果允許,或許是未來可以放在小型裝置上的大型語言模型,而 7B 整體狀態就表現很好,大家可以去嘗試玩玩看,有些我在 ChatGPT 上面所問的問題,此模型也能夠協助做到
  • Gemma 有提供 fine-tuning interface 給 TensorFlow, PyTorch and JAX through Keras 3.0 等,以下圖片是使用 HuggingFace 的 trl 套件來做 Fine-tune的指令,提供給大家做參考:
此圖片由 JimmyLiao 所提供的資訊
  • 可以在 Google Colab, Kaggle Notebook中使用,當然其它生態系如 HuggingFace 等也有兼顧。
  • 因為這是一個開源模型,所以可以跑在自己的機器環境上,或者使用 GCP 相關的服務環境做運行,像是 Google Vertex AI 和 GKE 上
  • 畢竟是 Google 所開源出來的模型,官方有說,此模型也已經針對 NVidia 和 TPU 優化,而且 官方也提供 GGUF 模型,可以讓大家在已經優化過的推論模型上面做使用。
  • 是否能夠繁體中文問答?7B 模型的答案是可以,但很容易有簡體中文語言。

總歸一句,Gemma 模型畢竟是 Google 第一個基於 Gemini 的開源 LLM 模型,相信關注度一定會很高,就目前看起來,7B 模型性能稍優於 Mistral 7B,而且也是一個可商用的 LLM 模型!大家可以再花一些時間做測試,並且一同分享了解更多 Gemma 的能力!

資料來源: https://blog.infuseai.io/quick-demo-gemma-brief-intro-5890117cfbe0

Related posts