您的位置:首页 >新闻资讯

scrapy代理ip池介绍

来源:本站 作者:admin 时间:2019-06-12 16:55:39

经常使用爬虫的网络用户应该听过scrapy ,Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。它最吸引人的地区在于它是一个框架,可以根据个人需求修改,这里主要介绍一下代理IP池


 scrapy代理ip池介绍


代理池是由四部分组成:

 

ProxyGetter:

 

代理获取接口,目前有5个免费代理源,每调用一次就会抓取这个5个网站的最新代理放入DB,可自行添加额外的代理获取接口;

 

DB:

 

用于存放代理IP,现在暂时只支持SSDB。如果你没有用过SSDB,安装起来也很简单;

 

Schedule:

 

计划任务用户定时去检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理放入DB;

 

ProxyApi:

 

代理池的外部接口,由于现在这么代理池功能比较简单,花两个小时看了下Flask,愉快的决定用Flask搞定。功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。


相关文章内容简介
推荐阅读