Python爬虫:使用IP代理池伪装你的IP地址继续爬

日期: 2020-12-09 15:15

 

 

让自己的 python 爬虫假装是浏览器

小帅b主要是想让你知道

在爬取网站的时候

 

 

要多的站在对方的角度想问题

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

其实

这和泡妞差不多

你要多站在妹纸的角度思考

她的兴趣是什么

她喜欢什么

而不是自己感动自己

单方面的疯狂索取

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

哦..

扯远了

我们回到反爬虫

这次教你怎么伪装自己的 ip 地址

别让对方轻易的就把你给封掉

如何伪装呢

那么

接下来就是

学习 python 的正确姿势

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

其实

对于 python 来说

使用代理访问很简单

就拿我们经常使用的 requests 库来说

使用代理 ip 如下

定义代理IP


proxie = {  'http' : 'http://xx.xxx.xxx.xxx:xxxx', 'http' : 'http://xxx.xx.xx.xxx:xxx', .... } 

 

使用代理


response = requests.get(url,proxies=proxies)

 

这样就可以使用你定义的代理地址去访问网站了

我知道你要问了

代理地址哪里来

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

在网上有很多免费的代理

随便搜就有一堆了

不过你知道的

免费的话很多人都去使用

所以这些代理IP很不稳定

如果你有钱的话

市面上有人就专门提供代理IP的

直接去买就行了

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

不想花钱呢?

可以搞一个IP代理池

主要就是通过 python 程序去抓取网上大量免费的代理 ip

然后定时的去检测这些 ip 可不可以用

那么下次你要使用代理 ip 的时候

你只需要去自己的 ip 代理池里面拿就行了

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

道理都懂

但是不想自己弄一个代理池

有没有现成的?

不瞒你说

 

 

接着打开项目中的 setting.py

在这里可以配置相关信息

比如 Redis 的地址密码相关

 

接着在你 clone 下来的文件目录中

安装相关所需的 python 模块


pip3 install -r requirements.txt

 

接下来开启你的 redis

Python爬虫:使用IP代理池伪装你的IP地址继续爬 !

 

 

redis 的默认端口就是 6379

接着就可以运行 run.py 了


代理池开始运行 * Running on http://0.0.0.0:5555/ (Press CTRL+C to quit)开始抓取代理获取器开始执行Crawling http:///1.html正在抓取 http:///1.html抓取成功 http:///1.html 200成功获取到代理 201.69.7.108:9000成功获取到代理 111.67.97.58:36251成功获取到代理 187.32.159.61:51936成功获取到代理 60.13.42.154:9999成功获取到代理 106.14.5.129:80成功获取到代理 222.92.112.66:8080成功获取到代理 125.26.99.84:60493...

 

 

相关新闻