迅速逼近 ChatGPT!Meta Llama 最新程式碼產生模型直追 GPT-4

發布日期 2023 年 08 月 29 日

發表開源商用大模型 Llama 2 後,Meta 日前又發表程式設計版 Code Llama,彌補程式碼任務表現不佳缺點,拉近與閉源 GPT 模型的差距,測試結果直追 GPT-4。

Code Llama發表前兩天,OpenAI開放微調GPT-3.5功能,允許開發者和企業據自己需求客製模型。身為開源和閉源綜合實力最強的兩大模型,不免有些你追我趕意味,甚至出現一絲火藥味。

程式設計為大語言模型最重要應用,幾乎所有產品和服務都離不開,每次最佳化和改版都有重要意義。此次Code Llama是在Llama 2基礎上,以特定程式資料庫訓練,支援C++、Java、Python、PHP、Typescript(Javascript)、C#和Bash等許多主流語言,且依然開源可商用。

Code Llama對程式設計專家和初學者都非常好用,無論專業程式設計語言還是自然語言描述程式設計需求,Code Llama都能理解,並產生程式碼或相關解釋,大大降低開發門檻和效率。

多版本模型涵蓋更多特定場景
Meta部落格文說明Code Llama分為7B、13B和34B三個參數版,可滿足不同服務和延遲要求。每版模型都使用500B tokens與相關資料訓練。

最小7B參數模型可用單GPU運行,回應速度快,適用低延遲任務。但比起更大模型,程式碼產生或理解當然不夠精準。最大34B模型提供最佳編碼輔助,複雜程式設計表現最好,但需要最多計算資源,延遲也可能更高。中等規模13B參數模型在性能和延遲間找到平衡點。7B和13B模型經過中間填充(fill-in-the-middle,FIM)訓練,理解如何在現成程式碼內加入新程式碼,可補全直接自動程式碼等,無需另外設定或訓練。

Code Llama支援一次性理解並記住最多10萬token上下文,強大的文本處理能力對處理大型程式庫或長篇文章都非常有用。當開發者需處理大量程式碼時,可將整個程式碼片段一次性餵給Code Llama。為了滿足更多特定需求,Meta還針對Python和自然語言指令微調兩個Code Llama變體,分別稱為Code Llama-Python和Code Llama-Instruct。

Python是最受歡迎程式設計語言,多領域廣泛應用,特別數據科學、機器學習等。專門針對Python的模型能更準確產生和理解Python程式碼,提高模型處理相關任務時的性能。

Code Llama-Instruct更注重理解自然語言指令,非常適合不很熟悉程式設計但又有這方面需求的使用者,更容易理解自然語言指令,更適合非專業使用者,除了產生程式碼,也能勝任其他相關自然語言處理任務,如程式碼註釋或產生文件。

透過更多垂直子版,Code Llama模型涵蓋更廣範例和族群,滿足不同場景特定需求,更容易取得競爭優勢。Meta說明,Code Llama更專注程式碼任務,不適合當成聊天或寫文章等日常語言的基礎模型,只是為了幫助人們設計程式或處理程式碼問題而設計。

資料來源:https://technews.tw/2023/08/29/code-llama-open-foundation-models-for-code/

Related posts