over 7 years ago
這裡介紹的方式是利用安裝 Python時附的 urllib2 module來實作
可以不需要安裝任何新的module就可以實作一支最基本的爬蟲
[程式碼]
以下的程式實作以GET
方法向 http://blog.marsw.tw 發送一個Request
獲得response後,取得該網址的 html 原始碼
將html原始碼印出,及存成一個名為01_blog.html的檔案
# encoding: utf-8
import urllib2
request = urllib2.Request("http://blog.marsw.tw")
response = urllib2.urlopen(request)
html = response.read()
print html
fileout = file("01_blog.html","w")
fileout.write(html)
fileout.close()
[程式說明]
urlopen後面可以接一個 url 或是一個 Request 物件
所以原程式(第1種寫法)
request = urllib2.Request("http://blog.marsw.tw")
response = urllib2.urlopen(request)
也可以改寫成(第2種寫法)
response = urllib2.urlopen("http://blog.marsw.tw")
而程式碼會習慣這樣寫的原因是在實戰中,會遇到許多不同的案例
這時需要修改一些Request的設定,才能順利抓取我們想要的資料
因此就習慣還是會用第1種寫法來實作
爬蟲系列教學文目錄
爬蟲系列教學文程式碼
安裝Python及Python常用語法可參考 Python - 十分鐘入門