about 2 years ago

[背景知識]

Python - 十分鐘入門
背景知識

[前言]

採用各module原因(待補)

[Crawler - urllib2]

用GET方法抓取網頁
觀察技巧 with Chrome開發人員工具
用POST方法與偽裝User-Agent抓取網頁
處理不同的Content-Type

[Parsing - lxml]

抓取網頁所有圖片
抓取網頁標題 & XPath Axes說明
抓取網頁純文字內文
lxml、XPath 常用語法
big5編碼處理,unicode,url編碼
json

[Crawler - 身分驗證]

cookie
mechanize

[資料庫 - MySQLdb]

[加速 - multiprocessing]

[環境安裝]

如何在koding上搭建爬蟲環境(MySQLdb、lxml、mechanize)

[練習]

← [Android] 好用的看房筆記 HouseNote (免費) [爬蟲] 用GET方法抓取網頁(urllib2) →
 
comments powered by Disqus