如何防止重复爬虫

发布网友发布时间：2022-04-24 12:29

共1个回答

热心网友时间：2023-10-12 21:28

1.基于程序本身去防止爬取：作为爬虫程序，爬取行为是对页面的源文件爬取，如爬取静态页面的html代码，可以用jquery去模仿写html，这种方法伪装的页面就很难被爬取了，不过这种方法对程序员的要求很高。
2.基于iptables和shell脚本：可以对nginx的access.log进行策略定义，例如定义在1分钟内并发连接数超过30个ip为非法，如ip不在白名单内，则加入iptables策略封掉，当然这种的缺点是会有“误伤”，策略细粒度越小就会有更多的“误伤”，细粒度大就会使效果变差，另外还有类似的第三方工具fail2ban，利用做filter和actor对一些有危害的操作记录或是封ip。但是对于某个特定的爬虫地址（例如网易、有道）的爬取行为拒绝也很难准确做到，因为你无法准确知道这些特定的爬虫ip地址（例如网易、有道），以下是我的定位方式，不过发现由于ip库不准确造成错误的屏蔽。注意：建议不要用封ip条目的方式,iptables列表长度是65535时就会封满，服务器也就会死机。

全部栏目

如何防止重复爬虫