over 7 years ago

這裡介紹的方式是利用安裝 Python時附的 urllib2 module來實作
可以不需要安裝任何新的module就可以實作一支最基本的爬蟲

[程式碼]

以下的程式實作以GET方法向 http://blog.marsw.tw 發送一個Request
獲得response後,取得該網址的 html 原始碼
將html原始碼印出,及存成一個名為01_blog.html的檔案

01_basic_urllib2.py
# encoding: utf-8

import urllib2

request = urllib2.Request("http://blog.marsw.tw")
response = urllib2.urlopen(request)
html = response.read()
print html

fileout = file("01_blog.html","w")
fileout.write(html)
fileout.close()

[程式說明]

urlopen後面可以接一個 url 或是一個 Request 物件
所以原程式(第1種寫法)

request = urllib2.Request("http://blog.marsw.tw")
response = urllib2.urlopen(request)

也可以改寫成(第2種寫法)

response = urllib2.urlopen("http://blog.marsw.tw")

而程式碼會習慣這樣寫的原因是在實戰中,會遇到許多不同的案例
這時需要修改一些Request的設定,才能順利抓取我們想要的資料
因此就習慣還是會用第1種寫法來實作

爬蟲系列教學文目錄
爬蟲系列教學文程式碼
安裝Python及Python常用語法可參考 Python - 十分鐘入門

← [爬蟲] 教學文目錄 [爬蟲] 觀察技巧 with Chrome開發人員工具 →
 
comments powered by Disqus