Claude 3.5 Sonnet 超進化！　性能超越 GPT-4o！？　新功能 Artifacts！AI 網頁開發、文檔製作更輕鬆！　視覺能力增強、準確分析圖表！

2024/06/23 | The Walking Fish的程式小站

6 月 21 日，Anthropic 公司的 Claude 模型又迎來了一次改版，推出了最新的 Claude 3.5 Sonnet，並宣稱在各種測試上能力已經超越了 GPT-4。同時也推出了一個名為 「Artifacts」 的新功能，可以讓我們再與 Claude 互動編寫程式時更加方便。

今天就讓我們來看看， Claude 3.5 Sonnet 更新了些什麼東西，以及如何使用。

Claude 3.5 Sonnet：中階模型，但超越前代 Opus(最高階模型)

跟 Claude 3 系列一樣，Sonnet 是 Claude 3.5 系列中的中階模型，未來 Claude 3.5 也會有 Opus 跟 Haiku 的版本。而目前 Claude 3.5 Sonnet 的表現，已經全面的比 Claude 3 Opus 模型還要強大，同時它的 API 價格跟速度卻依舊跟 Claude 3 Sonnet 一樣：速度是 Opus 的兩倍，也比 Opus 便宜，每百萬 TOKENS 輸入只需要 3 美金，輸出只要 15 美金。

在 Anthropic 的內部程式編寫測試中，不聯網的情況下， Claude 3.5 Sonnet 解決了 64% 的漏洞修補以及新增功能的問題，遠超 Claude 3 Opus 的 38%。

Claude 3.5 Sonnet vs. GPT-4：測試資料集表現

在測試資料集的報告上，我們可以看到在各項測試，包括程式、文字推理以及部分數學測試資料集上， Claude 3.5 Sonnet 大部分贏過了 GPT-4 以及 Gemina 1.5 Pro 等模型。

在圖像辨識方面， Claude 3.5 Sonnet 也是大有提升。Anthropic 這次所測試的五個資料集中，Claude 3.5 Sonnet 除了全面超越 Claude 3 Opus 之外，在與 GPT-4 的比較中，也僅在 MMMU 測試資料集上稍微輸了一點。

Anthropic 也表示，他們增強了 Claude 3.5 Sonnet 的圖表解析能力，讓他更能看得懂圖表，並將他轉成 JSON、文字敘述之類的格式。

Claude 3.5 Sonnet 實際測試：手寫辨識、圖片辨識

我使用之前測試過 Claude 3 Sonnet 的一些手寫圖片、 AI 生成的圖片以及隨手拍的照片來作為測試。

首先是手寫字的圖片，要求它辨識便條紙上面寫了些什麼。再送出後可以看到，即便是潦草的中文手寫字字跡， Claude 3.5 Sonnet 在此次的測試中，也能完全便是正確，跟 Claude 3 相比，進步非常的巨大，基本上應該是可以認定他對中文手寫字的辨識已經達到可以用的程度了。

再來就是 AI 生成的圖片以及隨手拍的照片。之前在測試這兩張圖片的時候， Claude 3 Sonnet 都有嚴重的幻覺，或者是他會有些辨識錯誤，在過去，如果途中沒有窗戶外的景色，問 Claude 他也有可能會隨便生成一個答案，但這次的測試中他並沒有發生這樣的狀況，所以在幻覺這方面，也許 Claude 3.5 Sonnet 也有一定的改善。

Claude 3.5 Sonnet 新功能：Artifacts

接下來要跟大家介紹的是我個人覺得算是比較有用的其中一個更新 – Artifacts。這個功能可以讓我們在與 Claude 對話的時候，於右側創建一個工作區域，可以在裡面顯示 Claude 生成的文字或程式碼等。並且如果你生成的程式碼是可以在網頁預覽的東西，像是 SVG 圖或者是 HTML 等，都可以在這個右側的視窗直接預覽。

Anthropic 還表示，希望這一項功能在未來能夠拓展出團隊協作的功能，讓整個團隊可以在工作區域裡面共享各種檔案，讓 AI 來充當隊友。我簡單讓它製作一個公司的網站，可以看到它也確實的有製作出了一個簡單的樣板，並在右側的工作區域裡顯示出來了它的程式碼以及它的預覽。

這項功能用得好的話也許你也可以很快速的，像是它的介紹影片裡面一樣，製作出一個簡單的網頁小遊戲。

Claude 3.5 Sonnet 的限制

但當然目前 Claude 3.5 Sonnet 還是有許多東西無法克服的，像是很久很久以前它曾經鼓吹過的，說它可以截一張圖直接讓你做一個網站的功能。這項功能我簡單截了一下這個 VuePress 的版型，它應該已經算是一個非常常見的版型了，但是我截這張圖上去，並讓它製作一個長得像這樣的網頁時，它生出來的東西依舊慘不忍睹。

Claude 3.5 Sonnet 的安全性與隱私

最後的最後，Anthropic 在他們的文章中也有提到 Claude 3.5 Sonnet 的安全性與隱私承諾相關的問題。Anthropic 表示他們不會將用戶的資訊在未經同意的狀況下拿去作為訓練資料。

並且在經過評估之後，雖然 Closer 3.5 Sonnet 有著巨大的進步，但它依舊處於他們所定義的 ASL-2 的這個安全級別。簡單來說這是也許你有辦法找到一個突破口，讓它鬆口告訴你要怎麼製造生化武器，但是它所提供的方法很有可能是錯的，不太可能助長恐怖攻擊，或是造成災難性的威脅。Anthropic 也會採用一些外部專家的意見，來評估並調整他們的模型。