您的位置:首页 >新闻资讯

如何爬取代理网站的免费代理IP

来源:本站 作者:admin 时间:2019-05-18 16:41:28

在我们使用网络写脚本到指定网站抓取数据的时候,总是避免不了会被网站屏蔽IP,所以这个时候就需要一些代理IP,打开网页随便就能找到很多提供免费代理IP的网站做IP抓取,这里介绍抓取的是国内匿名代理IP。


如何爬取代理网站的免费代理IP


第一步:HTML页面获取

 

通过观察我们可以发现,我们需要的信息的页面url有这样的一个规律:www.xxxxxx.com/nn/+页码。可是如果直接通过get方法访问的话会发现出现500错误,原因是在这个规律下的url虽然是get方法获得数据,但都有cookie认证。那么问题来了——怎么获得需要的cookie呢?我们第一次通过浏览器访问该网站的主页是能打开的,其网站的各个子模块都可以打开。一定在某个时间段内我们的浏览器获得了该网站设置的cookie。清楚浏览器cookie,重新打开该网站首页,通过开发者工具可以发现我们打开首页的时候没有上传cookie,而是网站会下发cookie。接着打开我们上面找到的规律url页面,比对一下,发现我们上传的cookie就是在首页下发的cookie。这样就有办法了——编写脚本的时候,先访问一下首页获得cookie,再将获得的cookie添加到后续的请求中。

 

第二步:分析html结构,使用BS4进行信息提取。

 

以上简单介绍了如何爬取代理IP,具体的代码还需要自己搜索一下。


相关文章内容简介
推荐阅读