2024-08-05 | Ayush Kumar
Apple 發布了 DCLM,這是一個 70 億參數的開源語言模型,在開源 AI 領域邁出了重大一步。
DCLM-Baseline-7B 是一個在 DCLM-Baseline 資料集上訓練的 70 億參數語言模型,該資料集是作為 DataComp for Language Models (DCLM) 基準測試的一部分而製定的。該模型旨在展示系統資料管理技術在提高語言模型效能方面的有效性。
型號詳情
Size | Training Tokens | Layers | Hidden Size | Attention Heads | Context Length |
---|---|---|---|---|---|
7B | 2.5T | 32 | 4096 | 32 | 2048 |
DCLM的要點:
- 模型規格:7B 基本模型在 2.5 兆個標記上進行訓練,主要使用具有 2048 個上下文視窗的英語資料。
- 訓練資料:組合來自 DCLM-BASELINE、StarCoder 和 ProofPile2 的資料集。
- 性能:模型的 MMLU 得分為 0.6372,其性能高於 Mistral,但低於 Llama3。
- 許可證:根據開放許可證發布,特別是 Apple 範例程式碼許可證。
- 比較:與 Mistral 等封閉資料集模型的效能相符。
- 訓練框架:使用 PyTorch 和 OpenLM 框架開發。
- 可用性:該模型可在 Hugging Face 上存取並整合到 Transformers 中。
額外的見解:
- 資料管理:詳細解釋資料管理過程,提供有效法學碩士培訓的見解。
- 訓練框架:利用DataComp-LM框架,專注於透過資料集實驗改進語言模型。
- 基準:使用來自 Common Crawl 資料集的 2.5 兆個令牌進行訓練,旨在提高效能。
在雲端部署 Apple/DCLM-7B 的逐步過程
在本教學中,我們將使用 NodeShift 提供的 GPU 驅動的虛擬機器;但是,您可以與您選擇的任何其他雲端提供者複製相同的步驟。
步驟 1: 註冊並設定 NodeShift 雲端帳戶
造訪 NodeShift Cloud 網站 ( https://app.nodeshift.com/ ) 並建立帳戶。註冊後,登入您的帳戶。
遵循帳戶設定流程並提供必要的詳細資訊和資訊。

步驟2:建立GPU虛擬機
NodeShift GPU 提供靈活且可擴充的隨選資源,例如配備從 H100 到 A100 等各種 GPU 的 NodeShift 虛擬機器 (VM)。這些由 GPU 驅動的虛擬機器提供增強的環境控制,可根據特定要求調整 GPU、CPU、RAM 和儲存的配置。

導覽至左側的選單。選擇 GPU VM 選項,在儀表板中建立 GPU VM,按一下建立 GPU VM 按鈕,然後建立您的第一個部署。
步驟 3:選擇型號、區域和存儲
在「GPU VM」標籤中,根據您的需求以及要啟動模型的地理區域選擇 GPU 型號和儲存。

在本教程中,我們使用 1x NVIDIA RTX A6000 來部署 Apple/DCLM-7B。之後,選擇儲存量(Apple 的 DCLM-7B 至少需要 70 GB 的儲存空間。
步驟4:選擇身份驗證方法
有兩種身份驗證方法可用:密碼和 SSH 金鑰。 SSH 金鑰是一個更安全的選項,為了創建它們,請訪問我們的官方文件:( https://docs.nodeshift.com/gpus/create-gpu-deployment )

第 5 步:選擇影像
接下來,您需要為您的虛擬機器選擇一個映像。我們將在 NVIDIA Cuda 虛擬機器上部署 Apple/DCLM-7B。這個專有的閉源平行運算平台將允許您在 GPU VM 上安裝 Apple/DCLM-7B。

選擇映像後,按一下「建立」按鈕,您的虛擬機器將被部署。

步驟6:虛擬機器部署成功
您將得到機器已啟動並正在運行的視覺確認。

第 7 步:使用 SSH 連線到 GPU
NodeShift GPU 可以使用 GPU 建立期間提供的 SSH 金鑰連接到終端並透過終端進行控制。
成功建立 GPU VM 部署並達到「正在執行」狀態後,您可以導覽至 GPU 部署執行個體的頁面。然後,點擊右上角的“連接”按鈕。

現在打開終端機並貼上代理 SSH IP。

接下來,如果您想檢查 GPU 詳細信息,請執行以下命令“nvidia-smi”:

第 8 步:安裝 Python 和 Python 套件
完成上述步驟後,就可以創建Python的虛擬環境了。下載 Python 和Python 套件。
執行以下命令來安裝 Python 和 Python 套件。
sudo apt install python3.10
pip install pandas
pip install transformers
pip install accelerate


注意:下載最新版本的 Python,因為 Pandas、Pytorch 等 Python 套件需要最新版本的 Python 才能在Apple/DCLM-7B 型號上運行;如果你下載舊版的Python,它會報錯。

檢查下面的螢幕截圖是否有錯誤。

注意:完成所有這些步驟後,請檢查包括 Pandas 在內的 Python 套件的版本,看看是否有任何錯誤。
步驟 9:安裝 Apple/DCLM-7B 型號
現在,是時候從 Hugging Face 網站下載模型了。連結:https ://huggingface.co/apple/DCLM-7B

之後,我們將在cmd中執行以下命令,安裝將開始:
pip install git+https://github.com/mlfoundations/open_lm.git

現在,我們看到我們的安裝過程已經完成。

第10步:運行Apple/DCLM-7B模型
我們有兩種運行 DCLM 7B 模型的選項:Jupyter Lab 和終端機。
對於 Jupyter Lab,我們必須安裝一個筆記本,對於終端,我們將執行 Hugging Face 網站上提供的腳本。

我們將透過 Jupyter Lab 來完成此任務。執行以下命令在虛擬機器上安裝 Jupyter Lab。
pip install jupyterlab charset_normalizer

當您執行此命令:
jupyter-lab
它將在您的瀏覽器中啟動筆記本,現在您可以與您的模型互動:



結論
Apple DCLM-Baseline-7B 模型是一個擁有 70 億參數的語言模型,展現了系統性資料整理對語言模型效能的影響。該模型在 2.5 兆詞元上進行訓練,並運用了先進的資料整理技術,在 MMLU 基準測試中取得了具有競爭力的結果。該模型開放授權,並可在 Hugging Face 上存取,使用 PyTorch 和 OpenLM 框架開發。將 Apple/DCLM-7B 部署在雲端,尤其是使用 NodeShift 的 GPU 虛擬機器,涉及從帳戶設置到在 Jupyter Lab 中運行模型的簡單步驟,確保使用者能夠有效地利用其功能。
資料來源: https://blog.nodeshift.com/how-to-deploy-apple-dclm-7b-in-the-cloud-a-comprehensive-guide/