想必大多数人会说是百度,而果子现在逐渐喜欢使用微信自带搜索了。
它确实够方便,如果你要问原因,我只能回答:
1、其他搜索引擎广告太多。
2、微信用户群体大,搜索资源丰富。
并且,还有一个最关键的原因:你只能通过微信本身来查找公众号的相关内容。
而最近,微信却遇到了大麻烦:据《科创板日报》报道,此前有媒体报道称:通过谷歌、必应可以搜索到微信内容了!
但正如上面所说,一般情况下,微信内容无法通过谷歌等搜索引擎检索到。还有信息称:国外引擎可以搜索,而百度却不行。
各位看到这里心中肯定有这样的疑问:为什么要开放给国外,屏蔽百度区别对待吗?漏洞又是怎么回事?
但微信官方回应和事实证明:
这次事故确实是个漏洞而已,现已修复,开放给国外是谣言!
下面果子就带大家一起看看这个漏洞的来龙去脉!
首先,果子尝试在谷歌搜索了昨天公众号文章标题:
并没有找到对应公众号原文内容,然后又试了试百度,同样没有。
但是在搜狗居然可以搜索到?
其实,关注互联网的大家应该知道:搜狗搜索已经被腾讯收购。
而搜狗也是目前独家提供公众号内容的搜索引擎。
实测目前确实无法通过其他引擎搜索,漏洞已修复!
再来看腾讯微信官方的回应。根据澎湃新闻的报道:微信内容之所以能被谷歌等搜索引擎检索到,是因为公众号 协议出现漏洞。
因近期平台技术升级导致漏洞,一些搜索引擎,可通过爬虫技术获取到微信公众号内容。
问题就出现在 协议上,首先:我们使用搜索引擎的检索结果,均为引擎所爬虫获取的。
画重点:这张图中的内容很重要。
协议一般指:.txt(小写),全称为:网络爬虫排除标准。
它是一种存放于网站根目录下的 ASCII 编码的文本文件。而它存在的目的就是告诉搜索引擎爬虫,哪些内容允许被收录获取。
通过这张图,大家应该能清晰的理解 .txt 的作用了吧?
比如:果子现在开设了自己的网站,我不想让大家从谷歌中搜索到,我就可以在 .txt 中写入对应的协议内容。
而具体的实现方法就是以下面的方式:
User-Agent: *
Allow:
:
通过内容想必大家应该知道表示什么了吧?User-Agent 这里可以指爬虫引擎名称,Allow、 分别对应允许和不允许爬取的内容。
因此,微信表面上 “开放” 内容给谷歌等引擎,事实上是因为 .txt 出现漏洞,谷歌搜索网络爬虫机器人恰好获取了而已。
比如:我们访问淘宝的 .txt 。
一般情况下,网站的 .txt 存放在根目录,因此可采用域名 +.txt 的网址访问。
哈哈,我们看到,百度阿里之间确实势不两立。该协议表示:不允许百度蜘蛛(百度搜索爬虫机器人)获取所有内容。
其中 : / 表示,不允许爬取所有内容。
果子接着也查看了我经常逛的 IT 之家,发现对搜索引擎爬虫,未做过多的限制,仅对部分敏感目录(例如密码、标签目录)做了声明。
最后,看看腾讯网的,可看到未对任何搜索引擎爬虫做限制,甚至还贴心的罗列了访问目录。
最后,大家肯定关心为什么微信不开放搜索?
果子认为:微信作为国民级软件,而公众号作为微信强有力的核心竞争力,限制搜索肯定有自己的道理。
毕竟,服务于用户是微信的初衷,在 2020 年的微信公开课上,微信就上线了 “服务搜索” 功能,并为各行业开放接入。
而现在各大互联网企业也纷纷推出自家的搜索引擎产品,为了就是建立自己的应用生态。
因此站在商业角度这样不足为奇。
并且,在实际使用中,这个 协议仅为提醒声明,因此也不具备任何防爬虫能力。
而 协议事实上也仅为君子协议,它在互联网中虽作为一个约定俗成的规范,但不具备法律效力。
总之,技术永远服务于人,在技术革新中可能存在约束和限制,但这正是科技发展所必须的!