2024-03-18 | RexAA
【導讀】 xAI的Grok,在七天後如期開源了!公開Grok背後代碼,讓馬斯克對OpenAI啪啪打臉。3140億參數8個MoE,權重架構全開放,專案一上線已經在GitHub上狂攬6k星。
說到做到,馬斯克xAI的Grok,果然如期就開源了!
就在剛剛,xAI正式發表3140億參數混合專家模型Grok-1的權重和架構。
3140億的參數,讓Grok-1成為迄今參數量最大的開源LLM,是Llama 2的4倍。
目前,xAI關於Grok-1沒有透露更多資訊。
官網放出的資訊如下——
– 基礎模型在大量文字資料上訓練,未針對任何特定任務進行微調。
– 314B參數的MoE,有25%的權重在給定token上處於啟動狀態。
– 2023年10月,xAI使用JAX和Rust之上的自訂訓練堆疊從頭開始訓練。
一上線GitHub,Grok就狂攬了6k顆星,586個Fork。
專案網址:https://github.com/xai-org/grok-1
馬斯克還不忘嘲諷OpenAI一番,「告訴我們更多關於OpenAI的「open」部分…」
紐約時報點評道,開源Gork背後的原始程式碼,是這個世界上最富有的人控制AI未來戰鬥的升級。
開源究竟會讓科技更安全,還是會讓它更濫用?
「開源支持者」馬斯克,以身作則地捲入了AI界的這場激烈辯論,並用行動給出了答案。
小札剛剛也對Grok做出了評價,「並沒有給人留下真正深刻的印象,3140億參數太多了,你需要一堆H100,不過我已經買下了」。
一條磁力鏈,全球首個最大模型開源
這次xAI開源Grok-1,遵守的是Apache-2.0許可證,因此,使用者可以自由使用、修改和分發軟體。
儲存庫包含了用於載入和運行Grok-1開源權重模型的JAX範例程式碼。
使用者需要下載checkpoint,將ckpt-0目錄放置在checkpoint中,隨後執行以下程式碼測試:
pip install -r requirements.txtpython run.py
這個腳本會在測試輸入上,載入checkpoint和模型中的樣本。
由於模型較大,參數達到了314B參數,因此需要具有足夠GPU記憶體的計算機,才能使用範例程式碼測試模型。
而且,由於此儲存庫中MoE層的實作效率不高,選擇該實作是為了避免需要自訂核心來驗證模型的正確性。
透過Torrent客戶端和下面這個磁力鏈接,就可以下載權重了。
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
更多細節
史丹佛研究者Andrew Kean Gao瀏覽了model.py介紹了更多Grok的架構信息,314B參數沒有更多附加條款。
8個混合專家(2個活躍專家),86B活躍參數。使用旋轉嵌入,而不是固定位置嵌入。
– tokenizer字彙量:131,072(於GPT-4類似)相當於2^17
– 嵌入大小:6144(48*128)
– Transformer層:64(每一層都有解碼層:多頭注意塊和密度塊)
– 鍵值大小:128
多頭注意模組:有48個查詢頭和8個鍵值
密集塊(密集前饋塊):
– 寬度因子(Widening Factor):8
– 隱藏層大小為32768
每位token從8位專家中選出2位。
旋轉位置嵌入大小6144,與模型的輸入嵌入大小相同。
– 上下文長度:8192個token
– 精度:bf16
最後,附上一張總結版圖。
網友:開源爭霸戰要來
AI社區已經沸騰了!
科技界指出,Grok的亮點是在前向回饋層中使用了GeGLU以及歸一化方法,並且使用了有趣的三明治範式技術(sandwich norm technique)。
連OpenAI的員工,都表示了對Grok的強烈興趣。
英偉達資深科學家Jim Fan表示,「有史以來最大的開源大模型,由世界級團隊訓練,透過磁力鏈Apache 2.0發布。
314B參數,混合專家模型(8個專家2個是活躍的)。就連活躍參數規模(86B)都超過了最大的Llama模型。迫不及待想看到基準測試結果,以及人們能用它建構出什麼樣的應用」。
AI研究人員Sebastian Raschka表示,與其他通常有使用限制的開源模重模型相比,Grok更為開源。不過它的開源程度低於Pythia、Bloom和Olmo,後者提供了訓練程式碼和可重現的資料集。
Craiyon創辦人Boris Dayma,詳細分析了Grok-1的程式碼。
網友indigo表示,為了「理解宇宙」的理念,看來xAI團隊刻意把參數設定成了「圓周率314B」,這是目前規模最大的開源模型,期待今年6月的Llama 3加入Grok的開源爭霸戰。
Grok開源後,一大波微調要來了。
第一代Grok已超越Llama-2-70B
2023年11月,xAI推出了自己的第一代大語言模式Grok,正式加入大模型的戰爭。
當時,Grok在推特上作為「Premium+」訂閱服務的一部分,月費16美元。
xAI表示,Grok的設計靈感來自《銀河系漫遊指南》,它能夠回答幾乎所有問題,幫助人類不分背景或政治立場地追求理解和知識。
Grok最初的版本Grok-0擁有330億參數,緊接著xAI推出了經過數次改進的Grok-1,為X上的Grok聊天機器人提供支援。
根據xAI公佈的數據,在GSM8K、HumanEval和MMLU等一系列基準測試中,Grok-1的表現超過了Llama-2-70B和GPT-3.5,雖然跟GPT-4還差得遠。
當時,Grok不僅能夠處理X平台上即時產生的使用者內容,還帶有一點幽默感,為憨憨的AI注入了一絲活力。
在提供最新熱點事件資訊(無論是政治還是體育)的同時,它還能抖個機靈,甚至偶爾諷刺一下。
馬斯克為何選擇開源?
在數次嘲諷OpenAI是「CloseAI」之後,馬斯克果真選擇了開源自家大模型。
當然,這背後肯定也有商業上的考量。
身為市場領導者的OpenAI,是沒有理由開源ChatGPT背後模型程式碼的。
現在,透過發布Grok的程式碼,馬斯克將自己牢牢紮根在後者的陣營中。這個決定,或許能讓他的xAI超越Meta和Mistral AI。
Llama的開源為Meta帶來了許多好處,幾乎讓小札從元宇宙的泥淖爬了出來。
而只是一個小型新創公司的Mistral AI,也因為自己的開源策略而聲名鵲起,被業界公認為「歐洲的OpenAI」。
開源版本可能會鼓勵開發者和潛在客戶更快地採納自己的模型,實際上起到了市場推廣的作用。
開發者社群對Grok開源版本的回饋和改進也可能有助於xAI加速開發新版本,這些新版本xAI可以選擇開放原始碼或保留專有權。
例如像Mistral一樣,承諾繼續發布開源版本,同時為付費客戶保留最先進的模型。
馬斯克一直是開源技術的支持者,連Tesla也已經開放了汽車某些部分的源代碼,而他的社交媒體平台X公開了一些用於內容排名的演算法。
「還有工作要做,但這個平台已經是迄今為止最透明、最注重真相、不是高門檻的平台,」馬斯克今天在回應對開源X推薦演算法的評論時,這樣說道。
儘管OpenAI目前在AI領域仍遙遙領先,但開源和閉源的戰爭還遠遠沒有結束。
AI模型是否應該開源?某些人認為,必須防止這種強大技術免受闖入者的侵害,而另一些人則堅持認為,開源的利絕對大於弊。
身為市場領導者的OpenAI,是沒有理由開源ChatGPT背後模型程式碼的。
現在,透過發布Grok的程式碼,馬斯克將自己牢牢紮根在後者的陣營中。
這個決定,或許能讓他的xAI最終超越Meta和Mistral AI。
資料來源:https://hao.cnyes.com/post/76033?utm_source=cnyes&utm_medium=home&utm_campaign=postid