Perplexity 再爆爭議，遭控「隱形爬蟲」繞過封鎖抓取網站內容

此篇文章分析了Cloudflare針對Perplexity網路爬蟲所發表的報告，指出這款爬蟲再次成功繞過網站的安全限制進行不當的資料擷取。Perplexity的爬蟲以其「隱形爬蟲」的操作手法，引起了許多網站的關注與擔憂，特別是在其繞過robots.txt和Web應用防火牆（WAF）方面。

在Cloudflare的報告中，提到Perplexity的爬蟲使用了技術手段來規避網站的防範措施。具體來說，這些爬蟲會變更User-Agent標頭，並輪換不同的IP地址及自治系統號碼（ASN），以避免被發現。robots.txt 是一種讓網站指引網路爬蟲可以抓取哪些頁面、哪些頁面應該禁止抓取的檔案。儘管Perplexity的官方爬蟲，如「PerplexityBot」和「Perplexity-User」，在robots.txt中被明確禁止，但它依然能夠繞過這些限制，並顯示未被編入索引的新網站內容。此外，即使網站啟用了Web應用防火牆（WAF），限制爬蟲的訪問，Perplexity仍能突破這些防線。

報告指出，Perplexity可能透過模仿macOS上Google Chrome瀏覽器的方式來掩蓋其爬蟲的行為，進一步減少被檢測的風險。Cloudflare發現，這些爬蟲不僅能輪換IP地址，還能在全球範圍內切換ASN，這樣能避免來自單一來源的識別，從而在數以萬計的域名中繞過了防火牆的屏障。這樣的手段使得Perplexity的爬蟲活動極具隱蔽性和規模。

對於網站管理者來說，這些行為帶來了巨大的挑戰，因為Perplexity的爬蟲流量急劇增長。根據Cloudflare的數據，Perplexity的爬蟲流量比Google和OpenAI的GPTBot還要高，增幅達到1,574倍之多。這反映出AI爬蟲對網站內容擷取需求的快速增長，也揭示了AI在數據收集中的影響力。

雖然Perplexity在過去曾被發現繞過規則來保持最新狀態，並且與多家出版商合作來補償其行為，但Cloudflare的報告還是指出，阻止這些爬蟲的行為將仍然是一場貓捉老鼠的遊戲。隨著AI爬蟲技術的持續發展，如何有效保護網站資料不被非法擷取，將是未來的一大挑戰。

本文強調了Perplexity在網絡爬蟲領域的影響力，並且揭示了爬蟲技術不斷升級後，網站防護面臨的難題。對於網站管理員來說，提升對這類隱形爬蟲的識別與防範，將是保護資料安全的重要措施。

閱讀完整文章: https://infosecu.technews.tw/2025/08/05/perplexity-cloudflare/