跟大家講解下有關網絡爬蟲技術是什么意思,相信小伙伴們對這個話題應該也很關注吧,現在就為小伙伴們說說網絡爬蟲技術是什么意思,小編也收集到了有關網絡爬蟲技術是什么意思的相關資料,希望大家看到了會喜歡。
網絡爬蟲技術是指按照一定的規則,自動地抓取萬維網信息的技術。網絡爬蟲又稱為網頁蜘蛛、網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者;另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網絡爬蟲技術是指按照一定的規則,自動地抓取萬維網信息的技術
網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
抓取目標的描述和定義是決定網頁分析算法與URL搜索策略如何制訂的基礎。而網頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所在。這兩個部分的算法又是緊密相關的。
現有聚焦爬蟲對抓取目標的描述可分為基于目標網頁特征、基于目標數據模式和基于領域概念3種。
基于目標網頁特征
基于目標網頁特征的爬蟲所抓取、存儲并索引的對象一般為網站或網頁。根據種子樣本獲取方式可分為:
(1) 預先給定的初始抓取種子樣本;
(2) 預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等;
(3) 通過用戶行為確定的抓取目標樣例,分為:
(a) 用戶瀏覽過程中顯示標注的抓取樣本;
(b) 通過用戶日志挖掘得到訪問模式及相關樣本。
其中,網頁特征可以是網頁的內容特征,也可以是網頁的鏈接結構特征,等等。
基于目標數據模式
基于目標數據模式的爬蟲針對的是網頁上的數據,所抓取的數據一般要符合一定的模式,或者可以轉化或映射為目標數據模式。
基于領域概念
另一種描述方式是建立目標領域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。
更多相關知識,請訪問 PHP中文網!!
以上就是網絡爬蟲技術是什么意思?的詳細內容,更多請關注php中文網其它相關文章!
來源:php中文網