网站建设资讯

NEWS

网站建设资讯

如何用python获取免费代理IP

这篇文章主要介绍了如何用python获取免费代理IP的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇如何用python获取免费代理IP文章都会有所收获,下面我们一起来看看吧。

我们提供的服务有:成都网站制作、做网站、外贸营销网站建设、微信公众号开发、网站优化、网站认证、白碱滩ssl等。为成百上千企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的白碱滩网站制作公司

首先创建scrapy项目, 运行一下命令:

$ scrapy startproject getProxy kuaidaili.com

$ scrapy genspider proxyKdlSpider kuaidaili.com

百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。

如何用python获取免费代理IP

3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息

如何用python获取免费代理IP

4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。

如何用python获取免费代理IP

5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。

如何用python获取免费代理IP

6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。

如何用python获取免费代理IP

7. 改写settings.py, 增加以下行:

如何用python获取免费代理IP

其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。

设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制

设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。

8 运行编写的爬虫:

$ scrapy crawl proxyKdlSpider

由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:

如何用python获取免费代理IP

关于“如何用python获取免费代理IP”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“如何用python获取免费代理IP”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注创新互联行业资讯频道。


当前名称:如何用python获取免费代理IP
转载来源:http://cdweb.net/article/gpciec.html