这一周,人类文明的倒计时钟声似乎被骤然拨快了。
全球最顶尖的两家AI实验室——Anthropic和Google DeepMind,在同一个时间窗口内,向整个世界抛出了一个极其沉重且笃定的预警。
Anthropic的联合创始人Jack Clark抛出了一份让人背脊发凉的时间表:AI在2028年开始自主优化自身、实现“递归自我改进”的概率已经突破60%。
与此同时,DeepMind的掌门人Demis Hassabis也断言,通用人工智能(AGI)将在2030年前后全面降临,其带来的冲击力将是工业革命的100倍以上。
当AI拥有了自己设计下一代自己的能力,其进化速度将彻底脱离人类工程师的掌控,以惊悚的指数级狂飙。面对这场即将颠覆人类经济、教育与社会结构的剧变,绝大多数人却仍毫无防备。

我们把时间线拉长来看,透过一些曾经的行业探索,或许能更清晰地感知这种智能大爆炸的前奏脉络。
AI Agent中文翻译成AI智能体,在人工智能和认知科学里的核心定义是,能在环境中先感知,再用感知到的信息做决策,最后执行,最终形成反馈的循环系统。
举个最简单的例子:订酒店。国内订酒店人们习惯用携程,出国的话很多人会用booking、airbnb这类平台。
如果告诉AI智能体,想要在某年某月某日、某个国家某个城市的某个区,定一个四星级带温泉的最便宜的酒店,它能在短短几分钟内订好,甚至给一些当地入住的注意事项。
这里要注意,AI智能体底层肯定要用AI模型支持,但不是所有用了AI模型的工具都能叫智能体。比如常用的ChatGPT、豆包这类,是基于大语言模型的聊天对话工具。

再比如Midjourney、国内的文心一格,核心是基于生成模型的图像生成工具。它们只能对话,只能生成图像,没有办法做执行、做决策、给反馈,所以这些都不属于智能体的范畴。
简单来说,可以把智能体理解成一个人,让人工智能做什么,它就做什么。这些能感知并执行指令的早期智能体,正是那些顶尖AI公司宣称2028年AI开始自我进化的原始形态,它们正迅速在企业网络中繁衍协同。
很多公司的员工,已经在办公室里用各种AI工具了,还没说AI智能体,只是普通的AI工具,企业内部已经出现了不同AI的混乱问题。
比如市场部用ChatGPT写文案,产品部用Claude写PRD,开发部门用Copilot做开发,HR用别的AI做候选人筛选。这些很多都是部门或者员工自发用的,不是企业统一规范的。

甚至有些员工会把公司内部的问题直接丢给这些AI,让人工智能帮忙分析或者撰写内容,结果就是有数据泄露的风险。
同时公司内部这些不同的模型不可控,输出风格不统一,不同部门的输出风格不一样,沟通交流也会有障碍。
而且员工用这些AI工具的时候,企业端不会留下具体的AI操作记录,风险非常大。未来AI智能体真的流行起来,不同的AI智能体有不同的专项能力,这么多智能体要跨业务跨岗位协同,怎么管理这些人工智能员工?
既然要管理不同的AI工具、甚至AI智能体,那当然需要一个人工智能头头。有一家公司叫Emergence AI,正在开发的相应产品叫做Orchestrator,翻译过来是“指挥家”。

本质上还是一个AI智能体,但是是管理层的AI智能体。这个产品可以同时管理多个AI工具、多个AI智能体,还能让它们协同执行复杂的、多步骤的、跨部门的业务流程。
面对越来越庞杂的系统,人工智能管理层的出现让人类还有多少时间这个问题变得更加紧迫,因为AI对现实世界的解析能力已经获得了实质性的跃升。AI另一项重要的感知能力是视觉。
在视频平台搜内容,搜的其实不是视频本身,而是视频对应的标题、简介、标签、自动生成的字幕这些文字信息。比如搜“所有出现秦始皇愤怒挥剑镜头的视频或电影”,没有任何平台能做到。
因为在计算机眼里,视频不是人们理解的人物和故事,就是每秒24帧、每帧数百万像素、每个像素只有RGB数值的冷冰冰的数字。视频是连续变化的信号,搜索需要的是结构化的语义,两者之间有巨大的鸿沟。

传统的视频搜索技术有三种:第一种是文字匹配,靠视频的标题、简介、标签匹配关键词。第二种是人工打标签,这种方式成本极高,而且标签主观性很强。
第三种是传统的视觉识别技术,底层也是AI模型,但不够智能。现在出现了新兴技术,核心都是用AI模型把视频片段转换成高维向量,再把用户用自然语言提出的问题也转换成高维向量,两者在同一个语义空间里就能互相匹配。
现实的二维地图里,每个人都有X轴Y轴的坐标。视频识别里用的不是世界地图,是语义地图,“秦始皇”“士兵”“战场”“愤怒挥剑”“骑马”这些词都有对应的坐标,只是这个坐标不是简单的二维,而是多维的,能容纳不同词汇的多样性,这就是高维向量。

用了这项新技术之后,输入“秦始皇愤怒挥剑”,AI模型先把这句话转换成高维向量,放到语义地图里,输出的就是离这个坐标最近的帧,也就是最相关的内容。哪怕不记得电影名字,只要说模糊的印象,它就能帮忙搜出来。
这项技术更大的价值其实在企业级应用。比如影视媒体公司有三十年的素材,直接搜“所有2008年金融危机现场的街头采访镜头”,它就能直接输出结果。
这种利用高维向量理解世界的算法,无疑是2028年AI开始自我进化的技术前奏,它们甚至已经开始触及并模拟更深层的物理法则。
英伟达的创始人、CEO兼董事长黄仁勋,这么多年一直在开拓新领域,包括AI相关的数据中心和AI模型业务,其中有个核心AI模型叫Cosmos,也就是“宇宙”。定位非常具体:让AI理解物理世界,目标是预测现实物理世界里的物体和事件如何演化。
比如球掉下来会怎么弹,玻璃杯摔碎了碎片怎么飞,车在雨天的刹车距离要变长多少,机器人抓取物体时受力怎么变化。传统的模型要么太理想化,解决不了具体场景的物理问题,要么只能覆盖有限的高频场景。

Cosmos要解决的就是这个问题,它的输入是真实世界的状态,比如车速、路面状况、天气条件,输出是未来的状态,比如刹车距离、轮胎打滑轨迹、车辆偏移量。
它的优势不是靠人写规则、写公式,而是通过大量数据学习真实世界的规律,学习那些公式难以覆盖的复杂非线性关系。这时候英伟达的另一款产品Omniverse就派上用场了,可以理解成3D仿真的虚拟物理世界,能模拟真实的物理场景。
可以用Omniverse生成柏油、沥青、沙漠、结冰等不同路面,不同的弯道和坡度,模拟不同的车辆、轮胎摩擦系数、刹车系统,还能生成极端天气下的光影、可见度变化,相当于一个无限大的物理实验室,能快速测试各种极端情况,不会出事故,也不用真的开车到雨雪天测试。
Cosmos的AI就在Omniverse的虚拟世界里学习规律,接收Omniverse生成的数据,学会环境状态和未来结果之间的映射关系。
当人工智能在无限的虚拟物理实验室中穷尽所有的法则后,它们便走到了2028年AI开始自我进化的门槛,而生物学视角的介入,让这一切变得更加疯狂。

日本有一家2023年成立的AI创业公司叫Sakana AI,CEO和CTO都是AI技术研究背景,都从谷歌出来的。这家公司有不同的AI业务方向,其中最核心的是开发的演化模型合并技术。
所谓演化模型合并,简单说就是让不同的AI模型像生物一样交配、进化,自动产生更强的新模型,不需要昂贵的重新训练。比如一个擅长数学的AI模型和一个擅长日语的AI模型,能合并生成一个既擅长数学又擅长日语的模型。
从零训练一个成熟稳定、表现好的AI,要投入巨大的时间和金钱成本。可以类比人,一个小孩从小练琴成为钢琴大赛冠军不容易,从小培养成知名画家也不容易,要培养一个既是钢琴冠军又是知名画家的小孩更是难上加难。

Sakana AI的演化模型合并,目标就是利用已经训练好的、具备特定能力的模型,不从零开始训练,让它们用类似生物演化的方式自动组合,生成的新模型比原来的单个模型能力更强,还具备更多能力,本质上和大众熟知的进化论逻辑是完全一致的。
两个个体产生后代时会交换染色体片段,下一代既有父亲的部分基因,也有母亲的部分基因。用特定技术把两个模型的不同模块或者权重抽取出来,重新组合成新模型,这个新模型就同时继承了两个原始模型的特征。
多代模型迭代过程中,会不断做随机突变,再筛选出表现更好的新模型,进行下一代迭代。不断重复这个过程,最后就能选出功能最强大,同时结合了父代母代能力的AI模型。
而且整个流程都是自动的,先有一群初代模型,每一代都会被评估适应度,优秀的模型会被选出来产生下一代,重复很多轮直到生成最强的组合模型。

其实这几年,关于AI到底能不能脱离人类进行真正思考的争论一直没断过,之前网上就有一个核心观点,认为它只能做静态复读机。
当时外媒信誓旦旦地认为数字分身没有独立思想,但现实却狠狠打了他们的脸,目前的真实情况是,2028年AI开始自我进化将彻底粉碎这种静态瓶颈。
美国有这么一家创业公司叫Delphi,就是做千人千面AI的,拿了两轮融资,总共1800万美元。
做的事,就是克隆用户的认知逻辑、知识储备和表达风格,做出AI数字分身,创建一个可以对外互动的AI版自己。
Delphi的技术底层思路可以分成三层:第一层是输入,把公开表达过的内容转换成知识库,播客、写过的文章、做过的PPT、视频、公开演讲等等,都上传给AI学习过往的所有表达。

第二层是输出,通过prompt和模型调试,让它输出的内容、语气尽量接近本人的说话习惯、表达结构。第三层是交互,可以包装成全天候的聊天工具,也可以做成能回答问题的AI,甚至可以包装成销售用来卖课。
这个AI模型被问到问题的时候,根本不是在思考,只是在过去讲过的内容里做检索、重组,再模拟语气回答而已。这类数字分身AI,本来就不具备人类的思考能力,只是基于给的内容模仿而已,根本不会思考新的东西。
想要实现真正的千人千面,得每天把自己的所思所想全部记录下来,定时喂给它,它才能跟着一起变化,不然就永远是个静态的、容易陷入认知茧房的工具。

回看这起个人部署AI设备的旧时痛点,当年那种笨拙的手工调试体验,与如今人类还有多少时间的世纪之问形成了极其辛辣的反差。
之前还在大言不惭地讨论手工装机的门槛,但面对被AI独立运营代码的现实狠狠降维打击,最新的情况是,这种手工作坊时代马上就会灰飞烟灭。
现在AI行业有个挺火的AI Agent叫OpenCloud,俗称小龙虾,有用户最近也成了小龙虾养殖专业户,用下来的体感就是,这类智能体对普通人来说门槛其实挺高的。第一个门槛是成本。
为了部署OpenCloud,买了个丐版Mac mini,加上国补将近四千块钱,这是硬件成本。除此之外,用OpenCloud做推理、执行任务,还要额外付token费用,就像买电一样,买的是文字处理能力,又是一笔额外支出。
还想让人工智能帮忙检索外网信息,又给它买了专门的搜索引擎,零零散散加起来,已经花了五六千左右。第二个门槛是操作门槛。
部署进展特别慢,OpenCloud一共重装了四次,才算是配好了比较满意的基础配置。

本身不懂底层代码,安装的时候涉及到Python语言、计算机指令这些都看不懂,一开始就问ChatGPT,让它一步步教怎么安装,运行出问题了就把报错信息贴给它,问下一步该怎么做。第一次安装完,发现这个东西特别不智能,什么都干不了。
之后看了些新的教学视频,又重装了一次,结果中间软件调试又出了问题,来来回回总共装了四次,才终于觉得有了点期待的能力,不过现在还没到能大幅解放生产力的程度。
现在网上有两种声音,一种说普通人没必要搞OpenCloud、养小龙虾,另一种出了很多教程,说新手小白没有代码能力也能安装。回望这些曾经的技术探索,在绝对的自我演化浪潮面前,一切显得如此渺小而魔幻。
在这场轰轰烈烈的算力狂欢中,所有曾经静态的、被人工干预的代码都在迎来终局。当我们把这些散落的技术切片拼合在一起时,一幅令人敬畏甚至战栗的图景已经徐徐拉开。

Jack Clark和Demis Hassabis敲响的警钟绝非资本的炒作狂欢,而是真实逼近的未来。
真正值得我们感到恐惧和焦虑的,不再是某一个大模型好不好用、某一个AI应用是否需要手动配置,而是人类社会的经济运转、教育内核以及劳动力结构,究竟该如何抵御这股工业革命100倍量级的恐怖冲击力?
工业文明给了人类上百年的喘息和适应期,而面对AI无休止的递归演化,我们剩下的窗口期可能只有短短几年。时钟的秒针正在滴答作响,深渊已在凝视,我们真的没有多少时间可以浪费了。