2015年5月21日 星期四

Python Crawler 簡單範例 (在Qnap Python2.6版上

# coding=UTF-8
import lxml
import urllib
import urllib2
import psycopg2
from settings import *       #這是呼叫叫"settings"的副程式過來,但是在這個範例裡沒用到。
from lxml import etree
from pyquery import PyQuery as pq




def main(): #名叫 main 的副程式

#進入網站並接收回應
opener = urllib2.build_opener()
req = opener.open('http://www.tbn.org.tw/twd97/SpeciesDetail.asp?id=51&SDay=&LDay=&county=&town=&MapKind=')
 # req = opener.open('填入網址');
#預計要填進網頁原始碼
pagehtml = ''

#預計要把分頁的超連結填進list
links = [] 

#解析網頁原始碼的DOM Tree,並選取目標的tag
for line in req:
pagehtml += line
page = pq(pagehtml)

pagediv = page('.body>div:nth-child(3)')  #這邊就是放想要抓那個網頁樹狀結構下的目標
# print pagediv

#取得分頁的超連結加到list
for pageurl in pagediv:
linkObj = pq(lxml.html.tostring(pageurl))
#print (type(linkObj))
pagelink =  linkObj.text()  #取得字串
print pagelink
links.append(pagelink)
        


#主程式從這裡開始
if __name__ == '__main__':
main()






沒有留言:

張貼留言