您的位置:首页 >新闻资讯

Scrapy如何配置代理

来源:本站 作者:admin 时间:2019-06-13 17:17:56

在我们使用网络的时候,经常会遇到爬虫网站内容被限制,网站对IP有限制,防爬取的功能,这个时候,最好的方法就是IP轮换爬取,在这里就说一下Scrapy如何配置代理,进行抓取。

Scrapy如何配置代理


首先,在Scrapy工程下新建“middlewares.py”

 

# Importing base64 library because we'll need it ONLY in case if the proxy we are going to use requires authentication

 

import base64

 

# Start your middleware class

 

class ProxyMiddleware(object):

 

# overwrite process request

 

def process_request(self, request, spider):

 

# Set the location of the proxy

 

request.meta['proxy']="http://YOUR_PROXY_IP:PORT"

 

# Use the following lines if your proxy requires authentication

 

proxy_user_pass="USERNAME:PASSWORD"

 

# setup basic authentication for the proxy

 

encoded_user_pass=base64.encodestring(proxy_user_pass)

 

request.headers['Proxy-Authorization']='Basic ' + encoded_user_pass

 

然后在项目配置文件里(http://www.gzkangyun.com/active/pythontab/settings.py)添加

 

DOWNLOADER_MIDDLEWARES={

 

'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,

 

'pythontab.middlewares.ProxyMiddleware': 100,

 

}

 


相关文章内容简介
推荐阅读