此篇文章分析了Cloudflare針對Perplexity網路爬蟲所發表的報告,指出這款爬蟲再次成功繞過網站的安全限制進行不當的資料擷取。Perplexity的爬蟲以其「隱形爬蟲」的操作手法,引起了許多網站的關注與擔憂,特別是在其繞過robots.txt和Web應用防火牆(WAF)方面。
在Cloudflare的報告中,提到Perplexity的爬蟲使用了技術手段來規避網站的防範措施。具體來說,這些爬蟲會變更User-Agent標頭,並輪換不同的IP地址及自治系統號碼(ASN),以避免被發現。robots.txt 是一種讓網站指引網路爬蟲可以抓取哪些頁面、哪些頁面應該禁止抓取的檔案。儘管Perplexity的官方爬蟲,如「PerplexityBot」和「Perplexity-User」,在robots.txt中被明確禁止,但它依然能夠繞過這些限制,並顯示未被編入索引的新網站內容。此外,即使網站啟用了Web應用防火牆(WAF),限制爬蟲的訪問,Perplexity仍能突破這些防線。
報告指出,Perplexity可能透過模仿macOS上Google Chrome瀏覽器的方式來掩蓋其爬蟲的行為,進一步減少被檢測的風險。Cloudflare發現,這些爬蟲不僅能輪換IP地址,還能在全球範圍內切換ASN,這樣能避免來自單一來源的識別,從而在數以萬計的域名中繞過了防火牆的屏障。這樣的手段使得Perplexity的爬蟲活動極具隱蔽性和規模。
對於網站管理者來說,這些行為帶來了巨大的挑戰,因為Perplexity的爬蟲流量急劇增長。根據Cloudflare的數據,Perplexity的爬蟲流量比Google和OpenAI的GPTBot還要高,增幅達到1,574倍之多。這反映出AI爬蟲對網站內容擷取需求的快速增長,也揭示了AI在數據收集中的影響力。
雖然Perplexity在過去曾被發現繞過規則來保持最新狀態,並且與多家出版商合作來補償其行為,但Cloudflare的報告還是指出,阻止這些爬蟲的行為將仍然是一場貓捉老鼠的遊戲。隨著AI爬蟲技術的持續發展,如何有效保護網站資料不被非法擷取,將是未來的一大挑戰。
本文強調了Perplexity在網絡爬蟲領域的影響力,並且揭示了爬蟲技術不斷升級後,網站防護面臨的難題。對於網站管理員來說,提升對這類隱形爬蟲的識別與防範,將是保護資料安全的重要措施。
閱讀完整文章: https://infosecu.technews.tw/2025/08/05/perplexity-cloudflare/