almost 3 years ago

[lxml]

page = etree.HTML(html)
for i in page.xpath(u"XPath語法"):
    print i

[XPath語法]

找出所有連結的網址(a的href屬性)//a/@href
找出所有連結的文字//a/text()
找出div屬性id='txt'的物件//div[@id='txt']
找出td屬性class包含'GridItem'字串的物件//td[contains(@class, 'GridItem')]

  • class有多個value:<td class="GridItem td1">
  • 相似value的比對:同時抓取 <td class="GridItem1"><td class="GridItem2">...

找出font屬性color='#0000ff'或是屬性color='blue的'物件//font[(@color="#0000ff" or @color="blue")]
找出font屬性color='#0000ff'或是span屬性style="COLOR: blue"的物件
//font[@color="#0000ff"] | //span[@style="COLOR: blue"]

更多XPath語法
更多XPath運算元

爬蟲系列教學文目錄
爬蟲系列教學文程式碼
安裝Python及Python常用語法可參考 Python - 十分鐘入門

← [爬蟲] Parsing - 抓取網頁純文字內文 (lxml) [爬蟲] 如何在koding上搭建爬蟲環境(MySQLdb、lxml、mechanize) →
 
comments powered by Disqus