国产人伦视频在线观看_欧美福利视频午夜福利_日本免费三级黄色网址_re99热在线观看精品_在线观看水蜜桃小心视频网站_亚洲国产欧美一区二区麻豆_久久精品国产69精品亚洲_农村女人一级毛片农村妇女_日韩不卡免费av_毛片无码高潮喷液视频

當前位置:首頁 > 網站建設 > 正文內容

html九宮格布局代碼(html九宮格框架)

網站建設1年前 (2024-01-01)487

深度了解蜘蛛spider抓取原理-專業(yè)SEO技術教程(12)

盡管搜索引擎在不斷地升級算法,但是終究其還是程序,因此我們在布局網站結構的時候,要盡可能地讓搜索引擎蜘蛛看得懂。每個搜索引擎蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站表明自己的身份。搜索引擎蜘蛛在抓取網頁的時候會發(fā)一個請求,這個請求中有一個字段為user-agent,用于標示此搜索引擎蜘蛛的身份。那么,今天就和大家一起來深度了解蜘蛛spider抓取原理。

例如Google搜索引擎蜘蛛的標識為Googlebot,百度搜索引擎的標識為baidu spider,yahoo搜索引擎蜘蛛的標識為inktomi slurp。如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的搜索引擎蜘蛛過來過,什么時候過來的,以及讀了多少數(shù)據(jù)等。如果網站管理員發(fā)現(xiàn)某個蜘蛛有問題,就通過其標識來和其所者聯(lián)系。

搜索引擎蜘蛛進入一個網站,一般會訪問一個特殊的文本文件robots.txt。這個文件一般放在網站服務器的根目錄下,網站管理員可以通過robots.txt來定義哪些目錄搜索引擎蜘蛛不能訪問,或者那些目錄對于某些特定的搜索引擎蜘蛛不能訪問。例如,有些網站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎到,那么網站管理員就可以把這些目錄定義為拒絕訪問目錄。robots.txt語法也很簡單,如果對目錄沒有任何限制,可以用以下兩行來描述。

user-agent*

html九宮格布局代碼(html九宮格框架)

Disallow:

當然,robots.txt只是一個協(xié)議,如果搜索引擎蜘蛛的設計者不遵循這個協(xié)議,網站管理員也無法阻止搜索引擎蜘蛛對于某些頁面的訪問。但一般的搜索引擎蜘蛛都會遵循這些協(xié)議,而且網站管理員還可以通過其他方式來拒絕搜索引擎蜘蛛對某些網頁的抓取。

搜索引擎蜘蛛在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼的部分,會有meta標識。這些標識可以告訴搜索引擎蜘蛛本網頁是否需要被抓取,還可以告訴搜索引擎蜘蛛本網頁中的鏈接是否需要被繼續(xù)跟蹤。例如,表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。

現(xiàn)在一般的網站都希望搜索引擎能更全面地抓取自己的網站的網頁,因為這樣可能讓更多的訪問者通過搜索引擎能找到此網站。為了讓本網站的網頁更全面被抓取到,網站管理員可以建立一個網站地圖,即sitemap。許多搜索引擎蜘蛛會把sitemap,htm文件作為一個網站網頁爬取得入口,網站管理員可以把網站內容內部所有網頁的鏈接放在這個文件里面,那么搜索引擎蜘蛛可以很方便地把整個網站抓取下來,避免遺漏某些網頁,也會減小服務器的負擔(Google專門為網站管理嚴提供了XML的Sitemap)。

展開全文

搜索引擎建立網頁索引,處理的對象是文本文件。對于搜索引蜘蛛來說,抓取下來網頁包括各種格式,包括HTML、圖片、doc、PDF、多媒體、動態(tài)網頁極其他格式。把這些文件抓取下來后,需要把這些文件中的文本信息提取出來。準確提取這些文檔的信息,一方面對搜索引擎的搜索引擎準確性有重要的作用,另一方面對于搜索引擎蜘蛛正確跟蹤其他鏈接有一定影響。

對于doc、PDF等文檔,這種由專業(yè)廠商提供的軟件生成的文檔,廠商都會提供相應的文本提取接口。搜索引擎的搜索只需要調用這些插件的接口,就可以輕松地提取文檔中的文本信息和文件的其他相關的信息。

HTML等文檔不一樣,HTML有一套自己的語法,通過不同的命令標識符來標識不同的字體、顏色、位置等,提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規(guī)則,只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息。

除了標題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接。這些鏈接和文本正文一點關系也沒有,在提取網頁內容的時候,也需要過濾這些無用的鏈接。例如,某個網站有“產品介紹”頻道,因為導航條在網站內每個網頁都會搜索到,無疑會帶來大量垃圾信息,過濾這些無效鏈接需要統(tǒng)計大量的網頁結構規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結果特殊的網站,還需要個別處理。這就需要搜索引擎蜘蛛的設計有一定的擴展性。

以上就是對深度了解蜘蛛spider抓取原理的介紹,感謝收看與關注,明天繼續(xù)更新,還望朋友們多多關注。

掃描二維碼推送至手機訪問。

版權聲明:本文由飛速云SEO網絡優(yōu)化推廣發(fā)布,如需轉載請注明出處。

本文鏈接:http://mbtw.com.cn/post/75477.html

分享給朋友:

“html九宮格布局代碼(html九宮格框架)” 的相關文章

鄭州制作網站(鄭州制作網站便宜)

鄭州制作網站(鄭州制作網站便宜)

今天給各位分享鄭州制作網站的知識,其中也會對鄭州制作網站便宜進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關注本站,現(xiàn)在開始吧!本文目錄一覽: 1、想做個網站,在鄭州選擇哪家網站建設公司比較好啊 2、鄭州網站建設的一般流程是什么? 3、鄭州的制作網站的公司,有什么好的推薦嗎 4、想做一...

招生宣傳單模板簡潔(招生傳單設計模板)

招生宣傳單模板簡潔(招生傳單設計模板)

本篇文章給大家談談招生宣傳單模板簡潔,以及招生傳單設計模板對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、宣傳單模板 2、小學生輔導班招生宣傳單怎么寫? 3、小學生作文輔導班招生宣傳單怎么寫 4、英語培訓班招生宣傳單怎么做 5、開業(yè)宣傳單怎么寫 宣傳單模...

源代碼網站說明包含核心界面截圖的(源代碼網站說明包含核心界面截圖的內容嗎)

源代碼網站說明包含核心界面截圖的(源代碼網站說明包含核心界面截圖的內容嗎)

本篇文章給大家談談源代碼網站說明包含核心界面截圖的,以及源代碼網站說明包含核心界面截圖的內容嗎對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、網頁源代碼怎么打開 2、用代碼方式制作一個網站,內容自選; 至少包含3個網頁,網頁中包含必要的文字或圖像; 3、如何打開網...

課堂教學設計與教案模板(課堂教學設計與教案模板語文)

課堂教學設計與教案模板(課堂教學設計與教案模板語文)

本篇文章給大家談談課堂教學設計與教案模板,以及課堂教學設計與教案模板語文對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 本文目錄一覽: 1、幼兒園公開課教案 2、小學數(shù)學教學設計模板_小學數(shù)學教學教案 3、初中數(shù)學優(yōu)秀教案設計模板 4、幼兒園優(yōu)質課教案 5、教案怎么寫,教案模...

作文標題萬能模板對偶(作文題目模板對偶)

作文標題萬能模板對偶(作文題目模板對偶)

今天給各位分享作文標題萬能模板對偶的知識,其中也會對作文題目模板對偶進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關注本站,現(xiàn)在開始吧!本文目錄一覽: 1、如何寫好大作文的對仗式標題? 2、關于奉獻的作文題目,最好是簡短的對偶 3、高考作文標題萬能套用 作文標題模板必備 4、高考作文題...

3D打印模型stl(3D打印模型時為什么要進行機器調平)

3D打印模型stl(3D打印模型時為什么要進行機器調平)

今天給各位分享3D打印模型stl的知識,其中也會對3D打印模型時為什么要進行機器調平進行解釋,如果能碰巧解決你現(xiàn)在面臨的問題,別忘了關注本站,現(xiàn)在開始吧!本文目錄一覽: 1、3d打印模型為什么文件格式必須是stl和stp的 2、用3D打印機打印從網上下載來的stl模型文件。舉個例子吧,如圖所示,...