推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

小红书禁止所有搜索引擎抓取其内容 所以只能通过站内手动搜索了

   日期:2024-10-31     作者:xinet    caijiyuan   评论:0    移动:http://dfvalve.xrbh.cn/mobile/news/3718.html
核心提示:百度搜索目前已经收录小红书网站上 7 亿 9807 万个网页,谷歌则只索引了小红书网站的首页,为什么呢?因为小红书早已禁止所有搜

百度搜索目前已经收录小红书网站上 7 亿 9807 万个网页,谷歌则只索引了小红书网站的首页,为什么呢?因为小红书早已禁止所有搜索引擎抓取小红书的内容。

小红书禁止所有搜索引擎抓取其内容 所以只能通过站内手动搜索了

蓝点网接到网友提醒称小红书的 robots.txt 文件已经明确禁止所有搜索引擎抓取内容,不过蓝点网检索后发现实际上小红书是在 2023 年 4 月 2 日修改 robots.txt 文件的,转眼间这都修改了 1 年。

目前并不清楚小红书为什么禁止搜索引擎抓取内容,从 SEO 角度来说,允许搜索引擎抓取有助于给小红书带来更多流量,毕竟现在百度都索引了 7 亿多个网页。

而且小红书是去年 4 月修改的,所以估计也不是因为防止被抓取内容训练 AI 吧?但小红书目前的内容库拿去训练 AI 确实很有价值,毕竟巨量文字和图片内容。

不过 robots.txt 文件只是君子协定,属于防君子不妨小人的那种,除了会导致用户无法从搜索引擎直接查询小红书内容外,其实帮助也不大,毕竟其他非搜索引擎的爬虫也会继续抓取内容,小红书肯定也做了反爬措施了。

现在国内的网站禁止搜索引擎抓取已经是个很常见的事情,或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量,更有甚者甚至别说搜索引擎了,就连正常的用户访问也会被拦截,必须注册账号登录后才能继续访问,这显然不是一个好事情。

附小红书 2023 年 4 月 2 日的 robots.txt 信息:

User-agent:Googlebot
	User-agent:Baiduspider
	User-agent:bingbot
	User-agent:Sogou web spider
	User-agent:Sogou wap spider
	User-agent:YisouSpider
	User-agent:BaiduSpider-ads
	Allow:/activity/sem/kratos
	Allow:/activity/sem/walle
	User-agent:*
	Disallow:/
本文地址:http://dfvalve.xrbh.cn/news/3718.html    迅博思语资讯 http://dfvalve.xrbh.cn/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号