2020-02-17 11:05:49 登录注册 RSS

当前位置: 公理网 >> 投诉不良 >> 头条搜索爬虫暴力抓取网站内容导致大量网站不同程度瘫痪

头条搜索爬虫暴力抓取网站内容导致大量网站不同程度瘫痪
发布时间:02-14| 来源:公理网 | 点击发表评论

最近有站长在网上发文吐槽表示,字节跳动为了快速发展搜索业务派出爬虫四处暴力抓取网站内容,部分配置较低的网站已经直接瘫痪,给中小网站主们造成了很大的损失和困扰,严重影响了网站正常的用户访问。

该站长表示,今年7月份,他突然发现公司的网站经常性打不开,网页加载极其缓慢,有时甚至直接瘫痪。经过一系列排查后,在服务器日志上发现了bytespider爬虫的痕迹。该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。

20191109200728788.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZW5nMTMxNTc5MzYyMA==,size_16,color_FFFFFF,t_70"/>

该站长顺着该爬虫的IP地址查询,证实,该爬虫就是字节跳动的搜索爬虫。?

并且,在CSDN、V2EX等技术论坛也了解到,从字节跳动开始做搜索之后,其实网络上就一直有站长抱怨头条搜索爬虫抓取过于暴力的声音,遭受字节跳动的搜索爬虫暴力抓取的不是个例,很多小网站他们也没放过。

有小网站主抱怨表示:字节跳动的爬虫“一上午对网站发出46万次请求”,网站都瘫痪了,百度也没有这么折腾的!

最后,该站长表示,像我们这样做SEO的人来说,主要工作目标就是希望自己家网站能在主流搜索引擎的搜索结果中排在前面的位置,“对于像百度、搜狗、360等搜索引擎的规范抓取和收录各位站长都是非常欢迎的,但是头条搜索爬虫这样疯狂爬取内容网站都给整瘫痪了,不仅没给网站带来流量,还影响了正常的用户访问,这就很不“讲究”了。?

但是对此,字节跳动的回应则是,“网络报道不实,目前头条搜索设有反馈机制,网站因为爬虫受到影响,可以直接通过邮件反馈处理。”明是不准备正面回应的。?

所以通过头条搜索爬虫暴力抓取网站内容来看,字节跳动入局全网搜索搅动搜素市场是好事,但是为了快速崛起让自己家爬虫四处暴力抓取,就有问题了,大网站服务器配置高,技术人员多还好【或是在一些大型IDC服务商购买的主机都还好,一些香港海外主机用户可能就有点惨了】,很多小网站原本就是使用海外或香港低端主机也没有什么技术人员维护机房根本就顶不住字节跳动的搜索爬虫这么折腾。?

搜索引擎的索引数据是靠点滴积累起来的,百度、搜狗.360经历了那么多年的发展积累才走到今天,头条搜索想要靠疯狂爬取内容,“一口吃个胖子”,只会让站长们排斥!

本文来自:关尓佟博客,原地址:https://guanertong.cn/post/146.html

本文来源:卢松松博客

部分内容关尓佟博客重新编入
点赞
收藏
分享

授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!

授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。

最新新闻

手机浏览

公理网 版权所有

公理网 Total 0.061518(s) query 6, 报料QQ:点击这里

给我发消息