AI實力大PK!外媒實測5大面向:ChatGPT、Gemini、DeepSeek、Claude 誰更強?

此篇文章報導了Tom’s Guide對四個頂尖AI聊天機器人進行的綜合測評,這些AI包括DeepSeek的R1、Claude 4、Gemini 2.5 Pro和ChatGPT-4o。測評從五個主要面向進行:推理與規劃、程式設計與除錯、情緒智慧、真實生活支援和創意力。測評的目的是揭示每個AI模型的強項和弱項,並最終選出最佳表現者。

作者首先介紹了推理與規劃的測試,DeepSeek的R1提出的旅行計劃表現非常出色,提出了以納帕谷為主題的豪華周末行程,且預算分配合理。然而,Gemini則因其在科幻與酒文化之間的平衡以及極高的彈性,最終被選為最佳方案。Claude則提供了高奢體驗,但科幻元素過於表面化,而ChatGPT則偏重浪漫氛圍但缺少深度。

在程式設計與除錯方面,顯示Gemini的表現最為出色,成功設計了符合提示要求的Python函數,並能處理邊界情況。DeepSeek雖然提供了簡潔的程式碼,但缺少對邊界情況的測試與擴充性考量。Claude提供的解答較為彈性,但未能完全遵循指示,而ChatGPT則因簡單的程式碼而缺乏穩定性。

情緒智慧方面,文章指出Gemini表現最佳,它能提供詳細的情緒支持並引導資源,將危機處理的同理心與實用建議結合。而DeepSeek則強調情緒理解,但幽默有時在低落情緒時可能反效果。Claude的回應溫暖且務實,但缺乏資源建議,ChatGPT則以簡潔有力的語句回應,卻缺少實際支援。

本文還測試了真實生活支援,DeepSeek結合了神經科學技巧並提供具體的行動建議,表現出色。Gemini推薦使用SMART目標法,且表現具條理、同理心強。Claude的建議較為務實,但缺乏基本生理技巧,ChatGPT則偏向時間緊迫的情境,缺少細節。

在創意力方面,DeepSeek在隱喻的運用與技術術語的平衡上表現突出,最終在此項測試中獲勝。Claude的創意命名很吸引,但風險說明不夠具體,Gemini則提供有條理的解釋,但內容過於冗長,ChatGPT的表現則偏向親切易懂,卻缺乏技術深度。

最終的測評結果顯示,Gemini以其均衡的表現,尤其在創意力、情緒智慧和健壯性方面脫穎而出,獲得了最佳的綜合評價。DeepSeek則在科學推理與隱喻表達方面展現了強大實力,尤其在複雜的提示情境中。Claude被視為詩意的問題解決者,擅長以溫暖的方式回應情緒需求,而ChatGPT則在快速且清晰的回應上表現突出。

文章最後強調,雖然沒有一款AI模型是完美的,但這些模型展現了AI在滿足人類需求與競爭力方面的顯著進步,顯示出AI技術越來越接近日常生活中的多樣需求。

閱讀完整文章: https://www.bnext.com.tw/article/83590/chatgpt-gemini-deepseek-claude-comparison

Related posts