本文共 797 字,大约阅读时间需要 2 分钟。
1.简单直接采集
import urllib2 response=urllib2.urlopen('http://www.xxx.com') #获取状态吗,如果是200表示获取成功 print response.getcode() #读取内容 cont=response.read() print len(cont) 2.带参数采集 import urllib2 #创建Request对象 request=urllib2.Request('http://www.xxx.com') #添加数据 request.add_data('a','1') #添加http的header request.add_header('User-Agent','Mozilla/5.0') #发送请求获取结果 response=urllib2.urlopen(request) print response.getcode() 3.带cookie采集 import urllib2,cookielib #创建cookie容器 cj=cookielib.CookieJar() #创建1个opener opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) #给urllib2安装opener urllib2.install_opener(opener) #使用带有cookie的urllib2访问网页 response=urllib2.urlopen('http://www.xxx.com') print cj print response.getcode()print response.read()
特殊采集:
有的采集需要cookie的支持有的采集需要proxy代理有的采集需要https加密方式有的采集是需要做Redirect跳转转载地址:http://lykmf.baihongyu.com/