2020-06-19 23:01:57 sunmedia 1645
? ? Robots協議提供了一種保護互聯網內容和隱私的手段,借助該協議,實現了網站與搜索引擎之間的一種平衡,維護了正常的網絡秩序
? ? Robots協議是有關網絡爬蟲的一個協議,用于規(guī)范網絡爬蟲的行為,網站通過Robots協議告知爬蟲哪些頁面可以抓取,哪些頁面不可以抓取。
? ? Robots協議形成于1993年、1994年前后。當時,隨著互聯網的發(fā)展,網絡上的內容越來越豐富,同時,一些早期的搜索引擎包括一些信息收集網站的發(fā)展,出現了不少網絡爬蟲,自動收集網絡上的內容。在這種情況下,網站的所有者希望可以通過某種手段使自己網站上的全部或者部分內容不被抓取,以保護自己的權利或者隱私,而搜索引擎也希望可以合理地獲取網絡上的內容。為此,網站所有者和搜索引擎人員一起,通過郵件組開始討論,共同起草了Robots協議。
? ? Robots協議并不復雜,它主要是提供一些指令,通過這些指令表明自己網站的哪些內容可以被爬蟲爬,或者哪些內容不能被爬,也可以指令允許哪些爬蟲爬,不允許哪些爬蟲爬,這也就是所謂的黑名單、白名單這樣的方式。無論是黑名單還是白名單,都是保護網站內容的一種手段,可以單獨使用白名單,也可以單獨使用黑名單,或者兩個一起用。就我所知,目前使用白名單相對比較多,因為這樣對網站所有者比較方便,網站所有者可能不知道一共有多少爬蟲,但是一些大的搜索引擎,比如百度、谷歌、搜狗,允許他們來爬,于是就設置出白名單,可能后期還有其他的搜索引擎需要爬取內容,他們可以通過與網站所有者協商的方式加入到白名單中,這可能就是白名單比較多的原因。
? ? Robots協議經世界互聯網技術郵件組發(fā)布以后,幾乎得到了所有搜索引擎的認可。Robots協議雖然不是一個國際標準,但事實上已經成為了業(yè)內一種普遍遵守的規(guī)范。目前國際上大的搜索引擎均遵守該協議,比如國際上的雅虎、谷歌等,國內的百度、搜狗等。
? ? 網站的Robots協議內容以文本文件Robots.txt的方式放置在網站的根目錄下,當一個爬蟲訪問某個網站時,首先到網站的根目錄檢查是否存在Robots.txt,如果存在,則按照其允許的內容進行抓取;如果不存在,則默認該網站全部內容可以抓取。另外,Robots協議從保護內容的角度說,它僅是一個聲明并不是一種技術手段,也不是一種防止爬蟲爬取內容的技術,而是一種所謂的防君子不防小人的手段,它從技術上無法阻擋某個爬蟲抓取網站內容,只是一種聲明,告訴爬蟲可以抓取的內容。這就如同一個店家在門口掛了一個“閑人免進”的牌子,但是門是開著的,遵守的人看到“閑人免進”可能就不進入,但這無法阻止不遵守的人進入。
? ? Robots協議在1993年、1994年前后被提出以后,業(yè)內都在遵守這一協議,說明它具有一定的合理性,就如同在車馬路上行駛,大家都靠右行駛,如果有人看到左邊有空就走左邊勢必會造成一種混亂。既然目前大家都遵守這樣一個規(guī)則,那么這個秩序就形成了,如果容忍破壞者,那么這個秩序也就被破壞掉了。總之,Robots協議提供了一種保護互聯網內容和隱私的手段,借助該協議,實現了網站與搜索引擎之間的一種平衡,維護了正常的網絡秩序。
(作者為清華大學智能技術與系統國家重點實驗室主任)