全球主机交流论坛

标题: 最近Google爬虫发疯了 [打印本页]

作者: toot    时间: 2022-1-11 20:09
标题: 最近Google爬虫发疯了
从上周开始。疯狂爬行网站2+2完全顶不住。直接爆。

甚至用上了独服还是爆。最近两天很多人都遇到爬虫太厉害这个问题,看来不是我一个人

Google这种大企业。ip多如牛毛。cc策略不管用


最后封ip解决了问题。66.249.x.x,还有些段爬得没那么厉害暂时没管。不同段ip太多

还有个185.191.x.x,签名不是Google的。似乎也是一个搜索引擎

有被爬虫困扰的大佬可以把这两个段拉黑

作者: npnp    时间: 2022-1-11 20:12
可以直接按爬虫特征屏蔽啊
作者: YorkZhao    时间: 2022-1-11 20:12
我巴不得被爬,我的网站还没收录awa
作者: 围观者    时间: 2022-1-11 20:12
google对抓取的链接,回访最勤快,一条新链接从抓取,以后会再来爬几十次甚至上百次

所以只有第一次返200,以后返304就行了
作者: toot    时间: 2022-1-11 20:13
围观者 发表于 2022-1-11 20:12
google对抓取的链接,回访最勤快,一条新链接从抓取,以后会再来爬几十次甚至上百次

所以只有第一次返200 ...

这样不会误伤正常用户吗
作者: ah520    时间: 2022-1-11 20:14
没有流量的爬虫 就是乐色
作者: 围观者    时间: 2022-1-11 20:16
toot 发表于 2022-1-11 20:13
这样不会误伤正常用户吗

正常用户更好,对于带了last标志的用户,他的浏览器是有这个网页的缓存的

如果你返回304,那么他的浏览器会自动读取缓存并显示

给用户的感觉是非常快!!!
作者: mjjok    时间: 2022-1-11 20:20
有个站谷歌这段时间每天 一百多万蜘蛛来了。。
应该只是爬行一段时间吧,以前也遇到过,只爬行几天或者一个星期左右,后期就来得少了,但是前期你得扛得住。
作者: 笑花落半世琉璃    时间: 2022-1-11 20:20
全球最厉害的爬虫你以为说着玩的呢
作者: zhongziso    时间: 2022-1-11 21:00
cf全站缓存,随便爬。
作者: 宝丽金    时间: 2022-1-11 23:31
提示: 作者被禁止或删除 内容自动屏蔽
作者: 哈登    时间: 2022-1-12 10:04
不会是假的爬虫吧




欢迎光临 全球主机交流论坛 (https://loc.wget.at/) Powered by Discuz! X3.4