爬虫IP代理都有什么代理方式

日期: 2020-06-30 14:06

  网络爬虫数据抓取是需要多次反复对网站数据进行抓取,这类操作很容易触犯到网站的反爬虫机制,主要是IP浏览的次数超出限制,因此大家如果想要解决这类问题,那就要在使用HTTP代理IP
 
 
  HTTP代理IP分三大类型:透明代理、普通匿名代理、高级匿名代理。
 
  高匿、匿名和透明代理的核心区别在于他们服务器获取REMOTE_ADDR、HTTP_X_FORWARDED_FOR、HTTP_VIA三个参数的区别。
 
  我们都知道,REMOTE_ADDR是无法伪造的。
 
  当我们大家使用透明代理,对方服务器察觉到你在使用了代理,也察觉到你的真实IP。REMOTE_ADDR=ProxyIP,HTTP_VIA=ProxyIP,HTTP_X_FORWARDED_FOR=YourIP
 
  当我们在使用匿名代理,当目标服务器察觉到你使用了代理,但却不清楚你的真实IP。REMOTE_ADDR=ProxyIP,HTTP_VIA=ProxyIP,HTTP_X_FORWARDED_FOR=ProxyIP
 
  当我们使用高匿名代理,目标服务器觉察不到你是否使用了代理,也不知道你的真实IP。REMOTE_ADDR=ProxyIP,HTTP_VIA=NULL,HTTP_X_FORWARDED_FOR=NULL
 
  在使用透明代理和普通匿名代理会被目标网站察觉在使用了代理IP,当然会受到IP限制,高级匿名代理则不会,因此在选择代理IP的时候,要注意这一点。
 
  在使用一个代理IP抓取目标网站,被封IP的原因很多,例如cookie,例如UserAgent等等,当达到了阈值后,IP便会被封;当浏览目标网站的频率过快时,IP也会被封,主要是我们正常浏览根本达不到这个频率,当然会被目标网站的反爬虫策略识别。
 
  依据你不同的爬虫程序设置,你能够依照需求去参考上述任意代理类型。

相关新闻