網(wǎng)站SEO優(yōu)化的原理與優(yōu)勢(shì)
1890據(jù)調(diào)查顯示,有87%的網(wǎng)民會(huì)利用搜索引擎服務(wù)查找需要的信息,而這之中有近70%的搜索者會(huì)直接在搜索結(jié)果的自然排名的第一頁查找自己所需要的信息。
查看全文全站搜索 客戶案例 新聞中心 未分類
搜索引擎都有自己的“搜索機(jī)器人”(ROBOTS),并通過這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁上的鏈接(一般是http和src鏈接)不斷抓取資料建立自己的數(shù)據(jù)庫。今天就給大家講一講比較實(shí)用的SEO技巧之robots.txt文件。
網(wǎng)站所有者使用/robots.txt文件向網(wǎng)絡(luò)機(jī)器人提供有關(guān)其網(wǎng)站的說明; 這被稱為機(jī)器人排除協(xié)議。
工作原理
機(jī)器人想要訪問網(wǎng)站,比如http://cnhakka.com.cn。
在此之前,它首先檢查http://cnhakka.com.cn/robots.txt,robots.txt文件信息。
存在:搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍
不存在:搜索機(jī)器人就沿著鏈接抓取。
首先,在我們寫robots之前,我們必須要知道,我們?yōu)槭裁匆獙懰?,這才是問題的核心,千萬不要因?yàn)閯e人也寫了你就也去效仿。robots,人稱“君子協(xié)議”,是網(wǎng)站和搜索引擎之間的協(xié)議,搜索引擎在爬行到你網(wǎng)站時(shí)會(huì)第一時(shí)間爬行到這個(gè)文件,然后會(huì)根據(jù)你寫的協(xié)議進(jìn)行爬行和抓取。
robots文件寫作步驟
在寫文件之前,我們需要有以下的權(quán)限,可以上傳文件到網(wǎng)站根目錄,因?yàn)閞obots是放在網(wǎng)站根目錄的。確認(rèn)好我們有權(quán)限之后,先可以開始寫了。首先創(chuàng)建一個(gè)TXT文件,命名為robots.txt。
打開文件第一步要寫的就是User-agent:,這代表的是你需要什么搜索引擎抓取你的網(wǎng)站,例如User-agent:*,代表的需要所有搜索引擎、User-agent:Baiduspider,代表的百度可以抓。
那么怎么禁止所有搜索引擎抓取呢?這設(shè)計(jì)要后面的知識(shí),這里先寫出來,但不進(jìn)行解釋。User-agent:* Disallow:/。一般來說我們都是允許所有的抓取,如有特殊需要可以自己去斟酌。
在寫好User-agent之后就是寫具體的規(guī)則了,主要有兩種:一種是allow和disallow也就是允許和不允許的意思。這個(gè)大家都能理解,我們的網(wǎng)站資源有限,有些東西沒必要抓取的就是不用浪費(fèi)帶寬,例如JS和CSS文件,還有出于安全考慮,網(wǎng)站后臺(tái)目錄也是不允許被抓取的。disallow寫法規(guī)則,禁止抓取某個(gè)目錄 disallow:/目錄/ 禁止抓取特定的文件 disallow:.php(.css .js) 禁止抓取圖片 disallow:.jpg(圖片格式)$。。。還有很多鐘用法。在這里我們說明的是。并不是寫的越多越好,要根據(jù)實(shí)際情況去寫。
常用關(guān)鍵字段
User-Agent: 以下規(guī)則適用的機(jī)器人(例如“Googlebot”等)
Disallow: 您希望阻止機(jī)器人訪問的頁面(根據(jù)需要,禁止多行)
Allow: 不需要阻止機(jī)器人訪問的頁面
Noindex: 希望搜索引擎阻止和不要索引的頁面(如果先前已建立索引,則將其解除索引)
細(xì)節(jié)注意事項(xiàng)
機(jī)器人可以忽略你的/robots.txt。特別是在網(wǎng)絡(luò)上掃描安全漏洞的惡意軟件機(jī)器人以及垃圾郵件發(fā)送者使用的電子郵件地址收集器將不予理睬。
/robots.txt文件是一個(gè)公開可用的文件。任何人都可以看到您不希望機(jī)器人使用的服務(wù)器部分。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下(后面說),而且文件名必須全部小寫。
如果”robots.txt”是一個(gè)空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開放的。
第一個(gè)英文要大寫,冒號(hào)是英文狀態(tài)下,冒號(hào)后面有一個(gè)空格
如果“/”后面多了一個(gè)空格,則屏蔽整個(gè)網(wǎng)站
行前不能有空格,如 [空格][空格][空格] User-agent: *
禁止把命令放在一行,像這樣:User-agent: * Disallow:/
生效時(shí)間為幾天~幾個(gè)月
該文件放在那里
簡(jiǎn)單說,只需要放置在web服務(wù)器頂級(jí)目錄中。
當(dāng)機(jī)器人查找URL的“/robots.txt”文件時(shí),它會(huì)從URL中剝離路徑組件(來自第一個(gè)單斜杠的所有內(nèi)容),并將“/robots.txt”放在其位置。
例如,對(duì)于“ http://www.baidu.com/shop/index.html” ,它將刪除 /shop/index.html “,并將其替換為” /robots.txt “,最終將以“http://www.baidu.com/robots.txt”。
因此,需要將其放在Web服務(wù)器上的正確位置,以便生成該URL。通常,這是您放置網(wǎng)站主要“ index.html ”歡迎頁面的位置。究竟是什么,以及如何將文件放在那里,取決于Web服務(wù)器軟件。
注意:使用全文小寫作為文件名:“ robots.txt ”,而不是“ Robots.TXT。
最后就還有一個(gè)小技巧了,那就是寫入sitemap地址。我們都知道百度不會(huì)給小站開通sitemap權(quán)限,所以我們可以在這里寫上。一般我們?cè)诟夸洿娣藕胹itemap,格式一般都是XML也有TXT的,寫法如下:Sitemap:http://www.jxfzseo.com/(網(wǎng)站名)sitemap.xml.
據(jù)調(diào)查顯示,有87%的網(wǎng)民會(huì)利用搜索引擎服務(wù)查找需要的信息,而這之中有近70%的搜索者會(huì)直接在搜索結(jié)果的自然排名的第一頁查找自己所需要的信息。
查看全文很多企業(yè)老板和一些朋友經(jīng)常詢問 SEM/SEO 是什么意思,今天小編正好整理下這方面的資料,讓大家更深入的了解網(wǎng)站推廣里面的一些門道。
查看全文很多企業(yè)老板和一些朋友經(jīng)常詢問 SEM/SEO 是什么意思,今天小編正好整理下這方面的資料,讓大家更深入的了解網(wǎng)站推廣里面的一些門道。
查看全文CSS邊框樣式:CSS3(border-image-*)邊框圖片效果CSS3提供了一個(gè)新的屬性集合,用這幾個(gè)屬性可以嵌入圖片形式的邊框。這樣,邊框就可以自定義了。
查看全文客官請(qǐng)稍后,玩命加載中!