Robots協(xié)議,,一個閑人免進的牌子

2020-06-19 23:01:57 sunmedia 1645


? ? Robots協(xié)議提供了一種保護互聯(lián)網(wǎng)內(nèi)容和隱私的手段,借助該協(xié)議,,實現(xiàn)了網(wǎng)站與搜索引擎之間的一種平衡,,維護了正常的網(wǎng)絡(luò)秩序

? ? Robots協(xié)議是有關(guān)網(wǎng)絡(luò)爬蟲的一個協(xié)議,用于規(guī)范網(wǎng)絡(luò)爬蟲的行為,,網(wǎng)站通過Robots協(xié)議告知爬蟲哪些頁面可以抓取,,哪些頁面不可以抓取。

? ? Robots協(xié)議形成于1993年,、1994年前后,。當(dāng)時,隨著互聯(lián)網(wǎng)的發(fā)展,,網(wǎng)絡(luò)上的內(nèi)容越來越豐富,,同時,一些早期的搜索引擎包括一些信息收集網(wǎng)站的發(fā)展,,出現(xiàn)了不少網(wǎng)絡(luò)爬蟲,自動收集網(wǎng)絡(luò)上的內(nèi)容,。在這種情況下,,網(wǎng)站的所有者希望可以通過某種手段使自己網(wǎng)站上的全部或者部分內(nèi)容不被抓取,以保護自己的權(quán)利或者隱私,,而搜索引擎也希望可以合理地獲取網(wǎng)絡(luò)上的內(nèi)容,。為此,網(wǎng)站所有者和搜索引擎人員一起,,通過郵件組開始討論,,共同起草了Robots協(xié)議。

? ? Robots協(xié)議并不復(fù)雜,,它主要是提供一些指令,,通過這些指令表明自己網(wǎng)站的哪些內(nèi)容可以被爬蟲爬,或者哪些內(nèi)容不能被爬,,也可以指令允許哪些爬蟲爬,,不允許哪些爬蟲爬,這也就是所謂的黑名單,、白名單這樣的方式,。無論是黑名單還是白名單,,都是保護網(wǎng)站內(nèi)容的一種手段,可以單獨使用白名單,,也可以單獨使用黑名單,,或者兩個一起用。就我所知,,目前使用白名單相對比較多,,因為這樣對網(wǎng)站所有者比較方便,網(wǎng)站所有者可能不知道一共有多少爬蟲,,但是一些大的搜索引擎,,比如百度、谷歌,、搜狗,,允許他們來爬,于是就設(shè)置出白名單,,可能后期還有其他的搜索引擎需要爬取內(nèi)容,,他們可以通過與網(wǎng)站所有者協(xié)商的方式加入到白名單中,這可能就是白名單比較多的原因,。

? ? Robots協(xié)議經(jīng)世界互聯(lián)網(wǎng)技術(shù)郵件組發(fā)布以后,,幾乎得到了所有搜索引擎的認(rèn)可。Robots協(xié)議雖然不是一個國際標(biāo)準(zhǔn),,但事實上已經(jīng)成為了業(yè)內(nèi)一種普遍遵守的規(guī)范,。目前國際上大的搜索引擎均遵守該協(xié)議,比如國際上的雅虎,、谷歌等,,國內(nèi)的百度、搜狗等,。

? ? 網(wǎng)站的Robots協(xié)議內(nèi)容以文本文件Robots.txt的方式放置在網(wǎng)站的根目錄下,,當(dāng)一個爬蟲訪問某個網(wǎng)站時,首先到網(wǎng)站的根目錄檢查是否存在Robots.txt,,如果存在,,則按照其允許的內(nèi)容進行抓取,;如果不存在,,則默認(rèn)該網(wǎng)站全部內(nèi)容可以抓取。另外,,Robots協(xié)議從保護內(nèi)容的角度說,,它僅是一個聲明并不是一種技術(shù)手段,也不是一種防止爬蟲爬取內(nèi)容的技術(shù),而是一種所謂的防君子不防小人的手段,,它從技術(shù)上無法阻擋某個爬蟲抓取網(wǎng)站內(nèi)容,,只是一種聲明,告訴爬蟲可以抓取的內(nèi)容,。這就如同一個店家在門口掛了一個“閑人免進”的牌子,,但是門是開著的,遵守的人看到“閑人免進”可能就不進入,,但這無法阻止不遵守的人進入,。

? ? Robots協(xié)議在1993年、1994年前后被提出以后,,業(yè)內(nèi)都在遵守這一協(xié)議,,說明它具有一定的合理性,就如同在車馬路上行駛,,大家都靠右行駛,,如果有人看到左邊有空就走左邊勢必會造成一種混亂。既然目前大家都遵守這樣一個規(guī)則,,那么這個秩序就形成了,,如果容忍破壞者,那么這個秩序也就被破壞掉了,??傊琑obots協(xié)議提供了一種保護互聯(lián)網(wǎng)內(nèi)容和隱私的手段,,借助該協(xié)議,,實現(xiàn)了網(wǎng)站與搜索引擎之間的一種平衡,維護了正常的網(wǎng)絡(luò)秩序,。

(作者為清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室主任)


未知來源
上一篇:
免責(zé)聲明:商媒在線所提供的信息及圖片除原創(chuàng)外,有部分資訊和圖片從網(wǎng)絡(luò)等媒體收集而來,,版權(quán)歸原作者及媒體網(wǎng)站所有,商媒在線力求保存原有的版權(quán)信息并盡可能注明來源,;部分因為操作上的原因可能已將原有信息丟失,,敬請原作者諒解,如果您對商媒在線所載文章及圖片版權(quán)的歸屬存有異議,,請立即通知商媒在線,,商媒在線將立即予以刪除,同時向您表示歉意,!

最新資訊