您的位置:首页 >新闻资讯

如何用python爬取代理IP

来源:本站 作者:admin 时间:2019-06-14 16:52:51

代理IP 的使用对于经常使用网络的人来说已经是so easy了,这里不做太多的解释了,不然不是显的你们很没面子?好啦,开个玩笑,今天主要跟大家说的是爬取代理IP,对没错,使用代理IP我们都会,那么爬取呢?这里主要为大家献上如何用python爬取代理IP。


 如何用python爬取代理IP


下面是详细讲解:

 

上代码

 

# -- coding:utf-8 --

 

from bs4 import BeautifulSoup

 

import itertools

 

import urllib2

 

from itertools import izip

 

f=open(“proxy.txt”,”w”)

 

def download(url):

 

url=urllib2.urlopen(url)

 

soup=BeautifulSoup(url, “html.parser”)

 

iplist=soup.findAll(“td”,{“data-title”:”IP”})

 

portlist=soup.findAll(“td”,{“data-title”:”PORT”})

 

for ip,port in izip(iplist,portlist):

 

f.write(ip.get_text()+”\t”+port.get_text()+”\n”)

 

for page in itertools.count(1):

 

url=‘http://www.kuaidaili.com/free/inha/%d/’ % page

 

print page

 

html=download(url)

 

这个代码实现的功能是爬取代理ip将之存放到proxy.txt文件中,用到了BeautifulSoup库,还有自带的urllib2库和itertools。以上就是我要跟大家分享的,希望大家能用的上。

 


相关文章内容简介
推荐阅读