国产精品久久久久久久久久久新郎_91久久精品国产_国内精品久久久久久_欧美激情第一页在线观看_国产欧美日韩丝袜精品一区_日韩精品成人一区二区在线观看_国产精品v片在线观看不卡_91精品国产综合久久香蕉最新版 _国产精品亚洲激情_色综合男人天堂

始創于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
您的位置: 網站首頁 > 幫助中心>文章內容

什么是網絡爬蟲

發布時間:  2012/9/18 11:29:38
    隨著網絡的迅速發展,萬維網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。搜索引擎(Search Engine),例如傳統的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如: 網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。  
    (1) 不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。 
(2) 通用搜索引擎的目標是盡可能大的網絡覆蓋率,有限的搜索引擎服務器資源與無限的網絡數據資源之間的矛盾將進一步加深。 
(3) 萬維網數據形式的豐富和網絡技術的不斷發展,圖片、數據庫、音頻/視頻多媒體等不同數據大量出現,通用搜索引擎往往對這些信息含量密集且具有一定結構的數據無能為力,不能很好地發現和獲取。 
(4) 通用搜索引擎大多提供基于關鍵字的檢索,難以支持根據語義信息提出的查詢。 
為了解決上述問題,定向抓取相關網頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(generalpurpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。 

 1 、聚焦爬蟲工作原理及關鍵技術概述 

網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件,如圖1(a)流程圖所示。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止,如圖1(b)所示。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。 

相對于通用網絡爬蟲,聚焦爬蟲還需要解決三個主要問題: 
(1) 對抓取目標的描述或定義; 
(2) 對網頁或數據的分析與過濾; 
(3) 對URL的搜索策略。 

抓取目標的描述和定義是決定網頁分析算法與URL搜索策略如何制訂的基礎。而網頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所在。這兩個部分的算法又是緊密相關的。 

 2 、抓取目標描述 

現有聚焦爬蟲對抓取目標的描述可分為基于目標網頁特征、基于目標數據模式和基于領域概念3種。 
基于目標網頁特征的爬蟲所抓取、存儲并索引的對象一般為網站或網頁。根據種子樣本獲取方式可分為: 
(1) 預先給定的初始抓取種子樣本; 
(2) 預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等; 
(3) 通過用戶行為確定的抓取目標樣例,分為: 

    a) 用戶瀏覽過程中顯示標注的抓取樣本; 
    b) 通過用戶日志挖掘得到訪問模式及相關樣本。 

其中,網頁特征可以是網頁的內容特征,也可以是網頁的鏈接結構特征,等等。 
現有的聚焦爬蟲對抓取目標的描述或定義可以分為基于目標網頁特征,基于目標數據模式和基于領域概念三種。 

基于目標網頁特征的爬蟲所抓取、存儲并索引的對象一般為網站或網頁。具體的方法根據種子樣本的獲取方式可以分為:(1)預先給定的初始抓取種子樣本;(2)預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等;(3)通過用戶行為確定的抓取目標樣例。其中,網頁特征可以是網頁的內容特征,也可以是網頁的鏈接結構特征,等等。

    網頁的抓取策略可以分為深度優先、廣度優先和最佳優先三種。深度優先在很多情況下會導致爬蟲的陷入(trapped)問題,目前常見的是廣度優先和最佳優先方法。
 
    3、網頁搜索策略

3.1 廣度優先搜索策略 
 

  廣度優先搜索策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。該算法的設計和實現相對簡單。在目前為覆蓋盡可能多的網頁,一般使用廣度優先搜索方法。也有很多研究將廣度優先搜索策略應用于聚焦爬蟲中。其基本思想是認為與初始URL在一定鏈接距離內的網頁具有主題相關性的概率很大。另外一種方法是將廣度優先搜索與網頁過濾技術結合使用,先用廣度優先策略抓取網頁,再將其中無關的網頁過濾掉。這些方法的缺點在于,隨著抓取網頁的增多,大量的無關網頁將被下載并過濾,算法的效率將變低。
 3.2 最佳優先搜索策略 
  
    最佳優先搜索策略按照一定的網頁分析算法,預測候選URL與目標網頁的相似度,或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取。它只訪問經過網頁分析算法預測為“有用”的網頁。存在的一個問題是,在爬蟲抓取路徑上的很多相關網頁可能被忽略,因為最佳優先策略是一種局部最優搜索算法。因此需要將最佳優先結合具體的應用進行改進,以跳出局部最優點。將在第4節中結合網頁分析算法作具體的討論。研究表明,這樣的閉環調整可以將無關網頁數量降低30%~90%。
 
     4、 網頁分析算法

    網頁分析算法可以歸納為基于網絡拓撲、基于網頁內容和基于用戶訪問行為三種類型。

  4.1 基于網絡拓撲的分析算法 

  基于網頁之間的鏈接,通過已知的網頁或數據,來對與其有直接或間接鏈接關系的對象(可以是網頁或網站等)作出評價的算法。又分為網頁粒度、網站粒度和網頁塊粒度這三種。

  4.1.1 網頁(Webpage)粒度的分析算法 

  PageRank和HITS算法是最常見的鏈接分析算法,兩者都是通過對網頁間鏈接度的遞歸和規范化計算,得到每個網頁的重要度評價。PageRank算法雖然考慮了用戶訪問行為的隨機性和Sink網頁的存在,但忽略了絕大多數用戶訪問時帶有目的性,即網頁和鏈接與查詢主題的相關性。針對這個問題,HITS算法提出了兩個關鍵的概念:權威型網頁(authority)和中心型網頁(hub)。

  基于鏈接的抓取的問題是相關頁面主題團之間的隧道現象,即很多在抓取路徑上偏離主題的網頁也指向目標網頁,局部評價策略中斷了在當前路徑上的抓取行為。文獻[21]提出了一種基于反向鏈接(BackLink)的分層式上下文模型(Context Model),用于描述指向目標網頁一定物理跳數半徑內的網頁拓撲圖的中心Layer0為目標網頁,將網頁依據指向目標網頁的物理跳數進行層次劃分,從外層網頁指向內層網頁的鏈接稱為反向鏈接。 

  4.1.2 網站粒度的分析算法 

  網站粒度的資源發現和管理策略也比網頁粒度的更簡單有效。網站粒度的爬蟲抓取的關鍵之處在于站點的劃分和站點等級(SiteRank)的計算。SiteRank的計算方法與PageRank類似,但是需要對網站之間的鏈接作一定程度抽象,并在一定的模型下計算鏈接的權重。

  網站劃分情況分為按域名劃分和按IP地址劃分兩種。文獻[18]討論了在分布式情況下,通過對同一個域名下不同主機、服務器的IP地址進行站點劃分,構造站點圖,利用類似PageRank的方法評價SiteRank。同時,根據不同文件在各個站點上的分布情況,構造文檔圖,結合SiteRank分布式計算得到DocRank。文獻[18]證明,利用分布式的SiteRank計算,不僅大大降低了單機站點的算法代價,而且克服了單獨站點對整個網絡覆蓋率有限的缺點。附帶的一個優點是,常見PageRank 造假難以對SiteRank進行欺騙。 

  4.1.3 網頁塊粒度的分析算法 

  在一個頁面中,往往含有多個指向其他頁面的鏈接,這些鏈接中只有一部分是指向主題相關網頁的,或根據網頁的鏈接錨文本表明其具有較高重要性。但是,在PageRank和HITS算法中,沒有對這些鏈接作區分,因此常常給網頁分析帶來廣告等噪聲鏈接的干擾。在網頁塊級別(Blocklevel)進行鏈接分析的算法的基本思想是通過VIPS網頁分割算法將網頁分為不同的網頁塊(page block),然后對這些網頁塊建立pagetoblock和blocktopage的鏈接矩陣,分別記為Z和X。于是,在pagetopage圖上的網頁塊級別的PageRank為Wp=X×Z;在blocktoblock圖上的BlockRank為Wb=Z×X。已經有人實現了塊級別的PageRank和HITS算法,并通過實驗證明,效率和準確率都比傳統的對應算法要好。 

  4.2 基于網頁內容的網頁分析算法 

  基于網頁內容的分析算法指的是利用網頁內容(文本、數據等資源)特征進行的網頁評價。網頁的內容從原來的以超文本為主,發展到后來動態頁面(或稱為Hidden Web)數據為主,后者的數據量約為直接可見頁面數據(PIW,Publicly Indexable Web)的400~500倍。另一方面,多媒體數據、Web Service等各種網絡資源形式也日益豐富。因此,基于網頁內容的分析算法也從原來的較為單純的文本檢索方法,發展為涵蓋網頁數據抽取、機器學習、數據挖掘、語義理解等多種方法的綜合應用。本節根據網頁數據形式的不同,將基于網頁內容的分析算法,歸納以下三類:第一種針對以文本和超鏈接為主的無結構或結構很簡單的網頁;第二種針對從結構化的數據源(如RDBMS)動態生成的頁面,其數據不能直接批量訪問;第三種針對的數據界于第一和第二類數據之間,具有較好的結構,顯示遵循一定模式或風格,且可以直接訪問。 

  4.2.1 基于文本的網頁分析算法 

  1) 純文本分類與聚類算法  

  很大程度上借用了文本檢索的技術。文本分析算法可以快速有效的對網頁進行分類和聚類,但是由于忽略了網頁間和網頁內部的結構信息,很少單獨使用。 

  2) 超文本分類和聚類算法
 
  
本文出自:億恩科技【www.czbl888.cn】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線

     
     
    国产精品久久久久久久久久久新郎_91久久精品国产_国内精品久久久久久_欧美激情第一页在线观看_国产欧美日韩丝袜精品一区_日韩精品成人一区二区在线观看_国产精品v片在线观看不卡_91精品国产综合久久香蕉最新版 _国产精品亚洲激情_色综合男人天堂
    久久黄色片网站| 好色先生视频污| 亚洲综合激情五月| www.99av.com| 日本成人中文字幕在线| 内射国产内射夫妻免费频道| 国产 国语对白 露脸 | 国产精品久久..4399| 欧美一级爱爱视频| 亚洲啊啊啊啊啊| 波多野结衣 作品| 成人在线观看毛片| 国产高清不卡无码视频| 黄色网在线视频| 草草草视频在线观看| 久久久久久久香蕉| 成人午夜精品久久久久久久蜜臀| 日韩专区第三页| 日本人体一区二区| 日本免费不卡一区二区| 99爱视频在线| 黄色片在线免费| 最新天堂在线视频| 亚洲免费成人在线视频| 北条麻妃亚洲一区| 欧美 亚洲 视频| 日本a在线免费观看| 少妇人妻在线视频| 色欲av无码一区二区人妻| 黄在线观看网站| 日本免费观看网站| 在线a免费观看| 日本a级片在线播放| 你懂的av在线| 国产理论在线播放| 五月六月丁香婷婷| 人妻激情另类乱人伦人妻| 久久国产精品网| chinese少妇国语对白| 自拍偷拍一区二区三区四区| 一级片黄色免费| 日韩精品一区二区三区四| 玩弄中年熟妇正在播放| 成人午夜激情av| 国产不卡的av| 妞干网在线观看视频| 精品中文字幕av| 在线观看免费视频高清游戏推荐| 日韩不卡的av| 分分操这里只有精品| 国产成人久久婷婷精品流白浆| 香蕉视频禁止18| 麻豆一区二区三区在线观看| 国产99久久九九精品无码| 不卡的av中文字幕| 国产女教师bbwbbwbbw| 不卡影院一区二区| 中国一级黄色录像| 欧美a v在线播放| 午夜免费一级片| 777精品久无码人妻蜜桃| www.色欧美| 鲁一鲁一鲁一鲁一色| 做a视频在线观看| 国产一区二区在线视频播放| 一道本在线免费视频| 欧美国产日韩激情| 中文字幕第88页| 国产午夜大地久久| 亚洲欧美一区二区三区不卡| 日本精品一区在线观看| 天天爱天天做天天操| 成人羞羞国产免费网站| 女人床在线观看| 欧美美女一级片| 国产精品50p| 欧美日韩中文字幕在线播放| 亚洲国产精品三区| 日本中文字幕网址| 最新av在线免费观看| 国产精品久久久毛片| 亚洲熟妇av一区二区三区漫画| 手机福利在线视频| 香蕉视频禁止18| 国产男女无遮挡| 99er在线视频| 香蕉视频xxxx| 天天干天天操天天做| 成年人免费在线播放| 国产亚洲黄色片| 肉大捧一出免费观看网站在线播放| 日本久久久久久久久久久久| 欧美变态另类刺激| 欧美亚洲日本一区二区三区| 国产一二三四区在线观看| 中文字幕第17页| 亚洲欧美另类动漫| 国产h视频在线播放| 国产精品69久久久| 欧洲精品视频在线| 四虎影院一区二区| 天天av天天操| 日韩欧美国产片| 自拍偷拍 国产| 国产激情在线观看视频| 日韩中文字幕三区| 欧美黑人经典片免费观看| 久久香蕉视频网站| 日韩一二区视频| av动漫在线播放| 国产精品igao激情视频| 日本老太婆做爰视频| 大桥未久一区二区| 国产四区在线观看| 潘金莲一级淫片aaaaaa播放1| 成年人免费观看的视频| 91免费视频黄| 日韩不卡视频一区二区| 99久热在线精品视频| 黄色三级中文字幕| 99久久99久久精品| 国产天堂视频在线观看| 成人一对一视频| 国产av无码专区亚洲精品| 欧美少妇性生活视频| 污污视频网站免费观看| 手机在线免费观看毛片| 亚洲性图一区二区| av噜噜在线观看| 做爰高潮hd色即是空| 国产一级黄色录像片| 日本男女交配视频| 国产成人无码a区在线观看视频| 日韩av三级在线| 成人一区二区三| 福利片一区二区三区| av动漫免费观看| 男人添女荫道口女人有什么感觉| 日韩精品一区在线视频| 免费在线激情视频| www.com黄色片| 婷婷视频在线播放| 日本a视频在线观看| 久久国产色av免费观看| 日韩 国产 一区| 国产成人在线小视频| 成人午夜视频免费在线观看| 午夜剧场在线免费观看| 天堂а√在线中文在线 | 日韩av资源在线| 高清av免费看| 狠狠噜天天噜日日噜| 91视频最新入口| 色呦色呦色精品| 国产一区二区三区小说| 日韩欧美xxxx| www.久久com| 六月丁香激情网| 不卡的在线视频| 久草视频国产在线| 三级a三级三级三级a十八发禁止| 国产精品美女在线播放| 日本少妇高潮喷水视频| 香蕉视频999| 九九热只有这里有精品| 亚洲三级视频网站| 欧美大黑帍在线播放| 午夜免费高清视频| 欧美视频在线第一页| 又色又爽又高潮免费视频国产| 欧美 日韩 国产 在线观看| 免费成人在线视频网站| 一级黄色大片儿| 岳毛多又紧做起爽| 日韩人妻精品一区二区三区| 国产裸体舞一区二区三区| 日本一二三区视频在线| 黄色aaa级片| 亚洲熟妇无码一区二区三区导航| 激情五月俺来也| 奇米影视亚洲色图| 一级网站在线观看| 日本黄网站免费| 日韩专区第三页| www.com污| 天天摸天天碰天天添| 妺妺窝人体色www看人体| 狠狠操狠狠干视频| 精品人妻一区二区三区四区在线| 一级黄色免费在线观看| 爱情岛论坛vip永久入口| 欧美亚洲色图视频| 在线观看av免费观看| 精品视频无码一区二区三区| 国产 欧美 日本| 亚洲在线观看网站| 亚洲免费一级视频| 男人操女人免费| 国产原创中文在线观看| 公共露出暴露狂另类av|