問題與解答

問題敘述 何謂「網路爬蟲」?
解答 親愛的讀者您好:

網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。
網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供用戶搜尋。
爬蟲存取網站的過程會消耗目標系統資源。不少網路系統並不默許爬蟲工作。因此在存取大量頁面時,爬蟲需要考慮到規劃、負載,還需要講「禮貌」。 不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。這個檔案可以要求機器人只對網站的一部分進行索引,或完全不作處理。
網際網路上的頁面極多,即使是最大的爬蟲系統也無法做出完整的索引。因此在公元2000年之前的全球資訊網出現初期,搜尋引擎經常找不到多少相關結果。現在的搜尋引擎在這方面已經進步很多,能夠即刻給出高品質結果。
爬蟲還可以驗證超連結和HTML代碼,用於網路抓取。

臺北市立圖書館 諮詢服務課 敬復
資料來源 維基百科(https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2)
檢索日期:109年11月15日
提問日期 2020/12/5 上午 10:04:20
回覆者 回覆日期 2020/12/5 上午 10:24:04 
回覆館別 文山區/力行分館 回覆方式 電子信箱
問題形式 事實型 問題類別
  • 臺北市立圖書館參考室
  • 服務電話:02-2755-2823 #2301-2302
  • 傳真:02-2701-0121