在网络迅速发展的今天,一些网络业务也越来越多,从事网络市场营销的人员也越来越多,经常使用网络的人都指定爬虫,爬虫对于经常爬取网络数据的人来说是一个经常使用的工具,那么爬虫如何设置代理IP池呢?代理IP一般都知道简单来说是网络信息的中转站,那么具体该如何设置呢?这里就与大家分享一下如何设置代理池以及伪装成浏览器的方法。
1.设置代理:
#定义代理ip
proxy_addr="122.241.72.191:808"
#设置代理
proxy=urllib.request.ProxyHandle({'http':proxy_addr})
#创建一个opener
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandle)
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
2.伪装成浏览器
#导入urllib.request模块
import urllib.request
#设置请求头
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
#创建一个opener
opener=urllib.request.build_opener()
#将headers添加到opener中
opener.addheaders=[headers]
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
26
2019-04
07
2019-03
16
2019-08
17
2019-08
31
2019-03
15
2019-04