微信最近动作频频,除了日常的更新功能上新,小雷还发现了一个「漏洞」。
微信居然放开限制,把自己的.txt文件给移除了…
事情是这样的,小雷因为工作(摸鱼)需要,经常要在各大搜索引擎辗转,以求搜到自己想要的资料。
如果是英文资源还好说,海外的网页适用性依然很强,用谷歌和bing等搜索引擎,一般都能搜到结果。
但如果要搜的是中文资源,不好意思,搜索突然就不好用了。
即使是像百度、谷歌和bing这种顶级搜索引擎,也难以施展拳脚。
想要搜到自己需要的东西,估计是越来越难喽。
不过奇怪的是,而搜索引擎本身并无大改,抓取规则和原理都沿袭多年,期间也就小修小补。
为啥现在就不好使了呢?
小雷想说,这确实不是搜索引擎的锅,都怪软件厂商们画了个圈圈,把自己围起来了。
举个简单的例子,微信公众号的文章相比某些平台,整体质量确实要更高。
但是嚯,你能在百度和谷歌搜到微信公众号和今日头条的文章吗?
搜不到吧,很蓝的啦。
原因其实很简单,平台不允许搜索引擎去爬取它们的文章和其他内容了。
再强的搜索引擎也得靠网络蜘蛛去爬取信息,当平台建起一堵墙,就能轻易把第三方搜索隔绝开来。
大伙也别以为这堵墙有多高技术含量,其实就靠小雷开头提到的.txt文件。
这个简单的文件,里面包含了一系列规则,它会告诉搜索引擎,哪些页面可抓取,哪些页面又不能抓取。
要是规则一片空白,就别怪搜索引擎一顿搜刮了。
反之,如果规则清晰明了,写着“禁止读取”,搜索引擎自然会识趣溜走。
喏,微信就在网站“”的根目录中放置了这个文件,并写上自己的规则。
而小雷通过互联网档案馆看了一下,微信的规则比较狠,直接在末尾写上一条“:/”。
给小伙伴们翻译一下,这规则的意思是,不让其他搜索引擎爬取微信任何文章…
这就能解释,为啥搜索引擎搜不到微信文章了。(搜狗是自家人,不计在内)
不过要说起来啊,.txt算不上是规范,只是搜索引擎和网站们达成的一项约定。
像谷歌、百度和bing等大厂出品的搜索引擎,一般都会遵守约定,但新推出的搜索引擎就不一定讲武德了。
毕竟刚出生的搜索引擎资源匮乏,只能搞点非常规手段,去收录更多内容,这一点小雷会放在后面聊。
该聊的重点,咱们得适当加速,提前摊开来讲。
而这个重点嘛,正是小雷开头提到的「微信.txt漏洞」。
搜索引擎一直无法收录微信文章内容,全因为那戒备森严的.txt。
但从昨晚到今天中午,微信的文件突然出现“404无法访问”。
这就给搜索引擎们提供了绝佳的爬取机会。
小雷从看到,目前谷歌搜索已经收录了135万篇微信文章。
虽然总量不多,但这波操作属实让人浮想联翩。
要么是微信出BUG,不小心把.txt删掉了,要么是微信要开放自家生态,造福中文互联网。
考虑到最近官方出手,让腾讯和阿里取消链接屏蔽,还有淘宝上线微信支付等操作…
微信放开内容生态,好像还真有搞头嚯?
害,别怪小雷给大伙泼冷水,这几乎是不太可能的事儿,多半是微信出BUG,把整没了。
要知道,公众号内容可是微信培养多年的王牌之一,玩得好好的,完全没必要向外界开放。
而且小雷对这事儿也经过了排查,现在只有谷歌和必应两大国外搜索引擎收录了微信文章。
作为中文互联网最强搜索引擎的百度,反倒是啥也没有,明显不符合逻辑。
于是,小雷在今天下午又访问了一下微信公众号的robot.txt文件。
发现这文件果然回来了…
域名:
没过多久,微信也出来回应:因为最近平台技术升级,导致协议出现了漏洞。
如今.txt能正常访问,说明漏洞已经被补上。
这事儿闹的,小雷也不知道该咋评价了。
一方面,小雷其实挺希望各家平台能放开搜索限制,让搜索引擎变得更好用。
所以在知道微信文件被删除后,小雷还兴奋了好一会儿,感叹平台之间的壁垒终于要被打破了。
但另一方面,搜索引擎其实也在吃内容平台的红利,互相竞争的对手,怎么会轻易相互开放。
还是拿微信和今日头条两大内容平台来说。
微信凭借超过10亿的用户量让公众号迅速起飞,并以搜狗为搜索基础,建立起属于自己的内容生态。
说白了,大伙想搜微信的文章,只能去搜狗搜索那里搜。
而今日头条也凭借着强大的算法推荐,成为了网友们获取资讯的首选平台。
在拥有了足够了数据和用户后,今日头条也像微信那样,做起了自己的搜索。
就连限制都和微信差不多,百度是无法搜索到今日头条任何内容的。
虽然平台拥有了自己的搜索引擎后,能让用户更方便地检索信息。
但最主要的,还是想把握住搜索引擎这个巨大的流量入口。
这种操作,又俗称为互联网版自力更生,自己做饭吃,让其他搜索引擎无饭可吃…
最要命的是,这已经成为了国内移动互联网的趋势。
从“取消网页版,强制用户跳转到App”,再到“自建搜索引擎”,大厂们都在流量做出了自己的策略。
其中原地画圈,禁止外人进入这种操作最为常见。
对平台自身的发展肯定是好事儿,但也确实苦了咱们这些没得选择的老网民。