阿里蜘蛛是真的 微信作死开放给国外?别胡扯了

想必大多数人会说是百度,而果子现在逐渐喜欢使用微信自带搜索了。它确实够方便,如果你要问原因,我只能回答:1、其他搜索引擎广告太多。

各位使用最多的搜索引擎是什么?

想必大多数人会说是百度,而果子现在逐渐喜欢使用微信自带搜索了。

它确实够方便,如果你要问原因,我只能回答:

1、其他搜索引擎广告太多。

2、微信用户群体大,搜索资源丰富。

并且,还有一个最关键的原因:你只能通过微信本身来查找公众号的相关内容。

而最近,微信却遇到了大麻烦:据《科创板日报》报道,此前有媒体报道称:通过谷歌、必应可以搜索到微信内容了!

但正如上面所说,一般情况下,微信内容无法通过谷歌等搜索引擎检索到。还有信息称:国外引擎可以搜索,而百度却不行。

各位看到这里心中肯定有这样的疑问:为什么要开放给国外,屏蔽百度区别对待吗?漏洞又是怎么回事?

但微信官方回应和事实证明:

这次事故确实是个漏洞而已,现已修复,开放给国外是谣言!

下面果子就带大家一起看看这个漏洞的来龙去脉!

首先,果子尝试在谷歌搜索了昨天公众号文章标题:

并没有找到对应公众号原文内容,然后又试了试百度,同样没有。

但是在搜狗居然可以搜索到?

其实,关注互联网的大家应该知道:搜狗搜索已经被腾讯收购。

而搜狗也是目前独家提供公众号内容的搜索引擎。

实测目前确实无法通过其他引擎搜索,漏洞已修复!

再来看腾讯微信官方的回应。根据澎湃新闻的报道:微信内容之所以能被谷歌等搜索引擎检索到,是因为公众号 协议出现漏洞。

因近期平台技术升级导致漏洞,一些搜索引擎,可通过爬虫技术获取到微信公众号内容。

问题就出现在 协议上,首先:我们使用搜索引擎的检索结果,均为引擎所爬虫获取的。

画重点:这张图中的内容很重要。

阿里蜘蛛是真的 微信作死开放给国外?别胡扯了

协议一般指:.txt(小写),全称为:网络爬虫排除标准。

它是一种存放于网站根目录下的 ASCII 编码的文本文件。而它存在的目的就是告诉搜索引擎爬虫,哪些内容允许被收录获取。

通过这张图,大家应该能清晰的理解 .txt 的作用了吧?

比如:果子现在开设了自己的网站,我不想让大家从谷歌中搜索到,我就可以在 .txt 中写入对应的协议内容。

而具体的实现方法就是以下面的方式:

User-Agent: *

Allow:

:

通过内容想必大家应该知道表示什么了吧?User-Agent 这里可以指爬虫引擎名称,Allow、 分别对应允许和不允许爬取的内容。

因此,微信表面上 “开放” 内容给谷歌等引擎,事实上是因为 .txt 出现漏洞,谷歌搜索网络爬虫机器人恰好获取了而已。

比如:我们访问淘宝的 .txt 。

一般情况下,网站的 .txt 存放在根目录,因此可采用域名 +.txt 的网址访问。

哈哈,我们看到,百度阿里之间确实势不两立。该协议表示:不允许百度蜘蛛(百度搜索爬虫机器人)获取所有内容。

其中 : / 表示,不允许爬取所有内容。

果子接着也查看了我经常逛的 IT 之家,发现对搜索引擎爬虫,未做过多的限制,仅对部分敏感目录(例如密码、标签目录)做了声明。

最后,看看腾讯网的,可看到未对任何搜索引擎爬虫做限制,甚至还贴心的罗列了访问目录。

最后,大家肯定关心为什么微信不开放搜索?

果子认为:微信作为国民级软件,而公众号作为微信强有力的核心竞争力,限制搜索肯定有自己的道理。

毕竟,服务于用户是微信的初衷,在 2020 年的微信公开课上,微信就上线了 “服务搜索” 功能,并为各行业开放接入。

而现在各大互联网企业也纷纷推出自家的搜索引擎产品,为了就是建立自己的应用生态。

因此站在商业角度这样不足为奇。

并且,在实际使用中,这个 协议仅为提醒声明,因此也不具备任何防爬虫能力。

而 协议事实上也仅为君子协议,它在互联网中虽作为一个约定俗成的规范,但不具备法律效力。

总之,技术永远服务于人,在技术革新中可能存在约束和限制,但这正是科技发展所必须的!

现在最火的发帖平台

土巴兔验房怎么样 独家揭秘:土巴兔如何用8年时间服务1400万装修家庭!

2024-4-28 1:01:42

现在最火的发帖平台

房主砸门强制收房 应对房东强制要求收房的方法

2024-4-28 1:01:57

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索