字数:5,477
合伙人Rob Toews发布2023年AI发展10大预测, 投资项目有AI文件查找工具、视频搜索与分析云基础设施提供商 Labs、AI搜索引擎平台,整体看,大部分预测都离不开大模型这个关键词。
1、重磅事件:GPT-4将在2023年初发布。
GPT-4是新一代生成语言模型,有着强大的功能。 GPT-4预计将在2023年初发布,相较GPT-3与3.5,GPT-4性能有着跳跃式提升。
尽管最近有关讨论很热,但相比GPT-4,这只是前奏。GPT-4会是什么样?与人们直觉不同,我们预测它不会比前身GPT-3大太多。
在2022年早些发表的一篇有影响力的研究论文()中,研究人员称现在大型语言模型实际上比本来应该有的大小还要大。为能在给定的有限计算预算中获得最佳模型性能,现在模型应该用更少参数在更大数据集上进行训练。也就是说,训练数据比模型大小重要。
当今大多数主要语言模型都是在约3,000亿个token的数据语料库上训练,比如说的GPT-3(1,750亿个参数)、AI21 Labs的(1,780亿个参数)、微软/英伟达的-(5,700亿个参数)。
我们预测,GPT-4数据集要比上面提到的大一个数量级,也就是可能在10万亿个token的数据集上进行训练。同时它的参数将比-要少。
据说,GPT-4有可能是多模态,除文本生成外,还可以生成图片、视频、其他数据类型的输入。
这意味着GPT-4能够像的DALL-E一样根据输入的文本提示词()生成图像,或是可以输入视频然后通过文本形式回答问题。
多模态GPT-4发布,可能是重磅消息。但是它更可能与以前GPT模型一样是纯文本模型,它在语言任务上表现将重新定义SOTA(State Of The Arts,意指在某领域表现最好的模型)。具体说GPT-4会是什么样?那就是它在记忆(保留与参考前期对话信息的能力)与摘要(提取与精简大规模文本的能力)这两个语言领域的性能会有跨越式提升。
2、训练大型语言模型将逐渐开始耗尽数据。
数据是新时代石油,早就是陈词滥调,但这样说还不足以表明数据重要性:因为石油与数据都是有限的,都有消耗殆尽的一天。在AI领域,语言模型对数据需求量最大,数据耗尽的压力也更大。
正如前面提到,的 work等研究已表明,构建大型语言模型(LLM)最有效方式不是把它们做得更大,而是在更多数据上对其进行训练。但是世界上有多少语言数据?更准确说有多少语言数据达到可以用来训练语言模型的要求?
实际上,现在网络上大多数文本数据并没有达到要求,不能用来训练大型语言模型。 对这个问题,我们很难给出确切答案,但是根据研究小组()给出的数据,全球高质量文本数据总存量在4.6万亿~17.2万亿token之间。这包括了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码、网络上经过筛选的达标数据,例如网页、博客与社交媒体。
最近另一项研究数据()显示,数据总数大约为3.2万亿token。
的模型是在1.4万亿token上训练。也就是说,在这个数量级内,我们很有可能耗尽世界上所有有用的语言训练数据。这可能成为人工智能语言模型领域持续进步的一大障碍。
许多前沿AI研究人员与企业家私下里都对此忧心忡忡。 随着研究人员开始寻求解决数据短缺这一迫在眉睫的问题,预计2023年对这方面关注度会增加。
针对这一问题,合成数据是一种可能的解决方案,尽管该如何操作这一方法还未可知。
还有另一种可能方法,那就是系统性转录会议上讲话,毕竟口头交流代表着还有大量未捕获的文本数据。
作为世界领先的LLM研究机构,人们十分好奇在其即将发布的GPT-4研究中会如何应对这一挑战,同时大家也期待可以获得一些启发。
3、一些消费者开始将完全自动驾驶作为日常出行模式。
在多年预热炒作却一再失信后,最近自动驾驶汽车领域出现少有人注意的新变化:真正的无人驾驶汽车时代已悄悄来临。
现在旧金山,用户可以下载应用程序(这个程序与Uber/Lyft APP差不多),通过 APP,用户可以叫到真正没有司机辅助的无人驾驶汽车带用户在街道上穿行。目前,这些无人驾驶汽车仅在夜间服务,服务时间是晚上22点~早上530,但已准备好要在旧金山提供全天候服务,这个计划预计将在几周后实行。竞争对手Waymo紧跟其后,也开始在旧金山投放无人驾驶汽车。
2023年,人们将快速习惯服务,作为方便、可行的交通服务方式,人们一开始会感到新颖、奇怪,然后会快速习惯存在,直到司空见惯,街道上无人驾驶汽车的数量与使用它们的人数将会激增。简而言之,无人驾驶汽车将进入商业化与规模化阶段。
无人驾驶汽车推广将以城市为单位,逐个进行。在旧金山基础上,2023年可能会新增至少2个面向公众投放无人驾驶汽车的美国城市,比较理想的候选城市有凤凰城、奥斯汀、拉斯维加斯、迈阿密。
4、AI绘画工具将筹集风险投资资金。
的DALL-E,英国开源人工智能公司 AI的 、AI绘画工具是目前最著名、最有影响力的3个文生图的AI平台。
2019年,从微软获得10亿美元投资,目前正在商讨筹集更多资金。几个月前, AI获得了1亿美元的投资,而且已经开始寻求更多投资。
相比之下,没有任何外部投资。不过,用户与发展速度增长极快,目前为止,拥有近600万用户与相当可观收入。
但网站显示公司仍是小型自筹资金组织,只有11名全职团队成员,大卫·霍尔茨David Holz是创始人、首席执行官,曾是Leap 联合创始人兼首席技术官,Leap 曾是飞速发展的VR创业公司,曾在2010年代筹集近1亿美元风险投资,之后公司发展状况迅速恶化,最终被收购。据称这段失败的经历让霍尔茨拒绝接受外部资金。到目前为止,已拒绝很多投资者。
然而,面对公司迅猛发展、激烈竞争、大量市场机会,我们推测霍尔茨将在2023年开始为筹集投资。否则,将快速在这场由其引发的生成式人工智能淘金热中落伍。
5、谷歌作为主流搜索引擎地位将面临挑战。
搜索引擎是现代互联网体验核心,是我们浏览与访问数字信息的主要方式。现在大型语言模型可进行复杂级别的读、写,这在几年前几乎是不可思议的,这会对我们搜索方式产生深远影响。
出现后,重新定义搜索的对话式搜索引起人们广泛注意。对话式搜索,让我们可与AI智能体进行动态对话以找到要查找内容,不用再像传统搜索引擎一样先输入要查询内容,然后返回一长串链接,比如现在谷歌搜索做法。对话式搜索具有广阔发展前景,但它还有亟待解决的大问题,那就是搜索结果不够准确,只有解决了这个问题,对话搜索才能发展起来。
目前对话式大型语言模型LLM(Large Model)准确性还不够,因为它们有时会给出与事实不符信息。最近 CEO Sam 称,现在重要事情上,我们还不能依赖。大多数用户也不会接受不能100%保证结果准确的搜索引擎,即使准确率可以达到95%~99%。
2023年,研究人员面临主要挑战之一就是,以一种可扩展、稳健方式来解决这个问题。 一批发展势头良好的初创公司,正在对谷歌搜索引擎发起挑战,它们希望通过LLM与对话界面重塑消费者搜索方式,比如、.AI、、等公司。
但是,LLM不仅只是会改变消费者的互联网搜索方式,还会改变其他搜索类型。比如企业搜索(组织搜索与检索私有数据方式)同样也处于新黄金时代风口浪尖。由于大规模矢量化的出现,LLM首次实现真正语义搜索,能够根据基本概念与上下文,而不是简单的关键字来索引与访问信息,这将使企业搜索更加强大与高效。
像、Glean这样初创公司,正在使用大型语言模型,引领改变企业搜索的潮流,下一代搜索引擎将不仅限于文本。
人工智能最新进展,为多模态搜索提供新的可能性,即跨数据模式查询与检索信息的能力。视频占据互联网数据总量80%左右,视频搜索代表最大发展机会。想象一下,如果我们可以轻松、准确搜索视频中某个片段、某个人、某个概念、某个动作,这将是怎样的局面?
Labs是家初创公司,构建了多模态AI平台,以实现精细化视频搜索与理解。自谷歌在互联网时代崛起以来,搜索领域就几乎没怎么发生过变化。2023年,有了大语言模型,该领域将发生巨变。
6、开发人形机器人将吸引大量注意力、人才、资金,2023年将有几个新的人形机器人项目启动。
人形机器人可能是好莱坞电影对AI进行夸张化的极端代表,比如电影 《机械姬》、《我,机器人》。人形机器人发展迅速,并逐渐成为现实。
为什么要打造人形机器人?原因很简单,我们现实世界大部分架构都是为人类打造,如果我们想利用机器人在工厂、购物中心、办公室、学校这样场所自动完成复杂活动,最有效方法就是让机器人拥有与人类一样外形。这样机器人就可应用到多场景中,无需适应周围环境。
2022年9月,特斯拉在AI日推出擎天柱机器人,这大大推动人形机器人领域发展。马斯克表示,擎天柱最终会比汽车业务更有价值。然而,擎天柱机器人要想完全成熟,任重而道远 。
但是,当特斯拉将所有资源都投入到优化擎天柱这项任务时,能够取得的进展无法估量。
同样,许多具有发展前景的初创公司也推动人形机器人领域发展,包括 、 、 AI、 。
随着人形机器人产业竞争愈演愈烈,预计2023年会有更多公司加入这场角逐,包括初创企业与丰田、三星、通用汽车、松下等知名公司。这类似2016年自动驾驶汽车,当越来越多人开始意识到汽车行业拥有巨大市场机会时,次年将会有大量人才与资本涌入该领域。
7、MLOps新版本:将登台亮相。
当某种新技术平台出现时,相应需求与机会也随之出现,比如用以支持新平台的工具与基础设施。风险投资家们通常把这些辅助工具视为镐头与铲子,以迎接即将到来的淘金热。
近年来,初创企业界最热门的当属广为人知的MLOps机器学习工具。初创公司开始一蜂窝研究MLOps,并以令人咋舌的估值筹集到大量资金。
& (获得2亿美元融资,平台估值10亿美元)、(获得1.6亿美元融资)、(获得1.38亿美元融资,平台估值10亿美元)、(获得1.33亿美元融资,平台估值8.5亿美元)等。
如今,我们目睹新一代人工智能技术平台,大型语言模型LLMs(Large )的问世。与预训练语言学习模型pre-LLM相比,大型语言模型具有独特工作流程、技能组件与发展潜能,代表人工智能新范式。
通过API或者开源,人们可以很容易获得大量预训练模型,这完全改变人工智能产品。因此,注定会出现一套新的工具与基础设施。
我们预测将成为新流行趋势,它代表新一代人工智能镐头与铲子。以新一代产品为例,包括基础模型微调工具、无代码LLM部署、GPU访问与优化、提示词实验、提示词链、数据合成与数据增强。
8、基于或引用的研究项目数量将会激增。
2020年底,首次推出平台,破解生命一大谜团:即蛋白质折叠问题。能够仅从蛋白质的一维氨基酸序中,准确预测出蛋白质三维形态。这是里程碑式成就,解决了困扰研究人员几十年的问题,代表人工智能历史上最重要的成就。
因为蛋白质是地球上所有生物进行重要活动的内在基础,对蛋白质结构与功能了解得越透彻,就越能为生物学与人类健康提供新的可能。不论是从开发救生疗法life- ,到改善农业,还是从对抗疾病到研究生命起源,蛋白质存在于生活中方方面面。
2021年7月开源,并推出数据库,包含35万种三维蛋白质结构;作为参考,推出前,人类已知的蛋白质结构大约有18万种。
几个月前,公布另一个包含2亿种蛋白质结构的数据库,这几乎覆盖所有科学上已知蛋白质。
最新版本发布短短几个月后,就有来自190多个国家50多万名研究人员使用平台,用它查看200万种不同蛋白质结构,但这只是开始。巨大突破所带来的影响,需要好几年才能逐渐展现出全貌。
到2023年,预计基于的研究数量将会激增。研究人员将利用这一庞大的新型基础生物学知识宝库,将其应用于新型疫苗、新型塑料研发等多个跨学科领域,进而改变世界。
9、、 Brain、将致力为机器人构建基础模型。
2021年,斯坦福大学一个研究团队提出基础模型 model一词,它是指基于大量数据训练的大规模人工智能模型。该模型的构建,并不是为执行特定任务,而是为能有效执行各种不同活动的任务。
基础模型一直是人工智能最新发展的关键驱动力。如今,基础模型非常强大。但无论GPT-3这样文本生成模型,还是 这样文本转图像模型,又或是Adept这样计算机操作 模型,均只能运用于数字领域。
AI系统在真实世界应用随处可见,例如自动驾驶汽车、仓库机器人、无人机、人形机器人等,但到目前为止,它们大多还未受到基础模型新范式影响。
这种情况将在2023年发生变化,预计用于机器人的基础模型这一早期开创性工作,将由世界领先的人工智能研究机构、 Brain、完成,尽管 2021年退出机器人研究。
构建用于机器人的基础模型意味什么?换句话说,构建物理世界的基础模型意味什么?从高层次看,这样的模型可以用不同传感器模式(如相机、雷达、激光雷达)的大量数据进行训练,以产生对物理与现实世界物体的普遍理解能力。
比如这些不同物体是如何移动、它们之间如何相互作用、它们有多重、多脆弱、多柔软、多灵活,以及当用户触碰、投掷、扔它们时会发生什么。这种真实世界的基础模型可以针对特定的硬件平台与特定的下游任务进行微调。
10、美国将投资数十亿美元建设本国芯片制造设施。
人工智能与人类智能human 一样,同时依赖于硬件与软件设施,先进半导体对推动现代人工智能而言至关重要。
到目前为止,影响最大、应用最为广泛的是英伟达GPU;像AMD、因特尔、一些研究人工智能芯片的新兴企业也试图跻身芯片市场。
几乎所有的人工智能芯片都由美国设计,并在中国台湾完成制造。并且全球最先进的芯片几乎都由台积电TSMC生产,包括英伟达的GPU。
由于中美地缘政治的紧张局势,为降低人工智能硬件瓶颈不确定性,降低对中国台湾依赖,2023年,美国政府将加大激励措施,并对在美建设先进芯片制造设施的工厂给予补贴。
而2022年夏天通过的《芯片与科学法The CHIPS and Act》,为此提供了立法动力与预算资源,这一进程已经开始。
两周前,台积电宣布将投资400亿美元在亚利桑那州建立2家新的芯片制造厂。美国总统拜登亲自访问亚利桑那州工厂选址,对其称赞不绝。更重要的是,新台积电工厂预计将于2026年开始运行,生产3纳米芯片,该芯片将成为当今世界最先进的半导体。
随着美国开始在国内寻找生产基地,以化解关键人工智能硬件所面临风险,预计2023年将看到更多这样承诺。
《麻省理工科技评论》2023年全球十大突破性技术之一:制作图像的AI/AI that makes
作者: 合伙人Rob Toews
时间:2023年1月9日