python爬虫有什么办法防止反爬虫

发布网友发布时间：2022-04-24 12:29

共3个回答

热心网友时间：2022-04-18 03:09

动态页面的*，爬虫工作者可能会遇到这样的尴尬，当你抓取下目标页面之后，你发现，关键信息处一片空白，只有密密麻麻一片的框架代码，这是因为该网站的信息是通过用户Post的XHR动态返回内容信息，解决这种问题就是要通过开发者工具（FireBug等）对网站流进行分析，对内容信息进行抓取，获取所需要的内容。

用户行为检测，有一些是网站通过检测和分析一些用户的行为，比如说是针对cookies，通过检查cookies来判断用户是不是可以利用和保存的有效客户，通常是需要登陆的网站，经常会采用这样的技术。层次再深的还有，信息验证，部分网站的登陆是需要验证吗的验证的，就像登陆的时候，系统会自动分配出验证码，authenticity_token，authenticity_token会和用户提交的登录名和密码一起发送回服务器。

IP的访问频率被*，一些平台为了防止多次访问网站，会在某个同一个IP在单元时间内超过一定的次数的时候，将禁止这个IP继续访问。对于这个*IP访问效率，可以使用代理IP的方法来解决问题比如使用IPIDEA。

以上简单的说了三种常见的反爬虫已经反爬虫的应对方法，一般来讲越高级的爬虫*的机率救会越低，但是性能会比较低一些。

热心网友时间：2022-04-18 04:27

自己做个代理服务器。例如618爬虫代理，再指向次一级代理。或者是直接让爬虫通过http proxy的参数设置去先把一个代理。代理池通常是租来的，或者是扫描出来的。扫描出来的往往大部分都不可用。爬虫的实现有几百种方案。通常建议直接从SCRAPY入手。

热心网友时间：2022-04-18 06:01

*分很多种的：
1.有基于ua来封的，这种你添加一个随机的ua就行
2.基于ip的访问频率的，这种比较麻烦，你得挂代理
3.基于请求特征，比如没有带cookie，没有带header固有的一些字段的，这种需要你去模拟真实请求的ua

全部栏目

python爬虫有什么办法防止反爬虫