人类还有多少时间？两家顶级AI公司宣布，2028年AI开始自我进化

这一周，人类文明的倒计时钟声似乎被骤然拨快了。

全球最顶尖的两家AI实验室——Anthropic和Google DeepMind，在同一个时间窗口内，向整个世界抛出了一个极其沉重且笃定的预警。

Anthropic的联合创始人Jack Clark抛出了一份让人背脊发凉的时间表：AI在2028年开始自主优化自身、实现“递归自我改进”的概率已经突破60%。

与此同时，DeepMind的掌门人Demis Hassabis也断言，通用人工智能（AGI）将在2030年前后全面降临，其带来的冲击力将是工业革命的100倍以上。

当AI拥有了自己设计下一代自己的能力，其进化速度将彻底脱离人类工程师的掌控，以惊悚的指数级狂飙。面对这场即将颠覆人类经济、教育与社会结构的剧变，绝大多数人却仍毫无防备。

我们把时间线拉长来看，透过一些曾经的行业探索，或许能更清晰地感知这种智能大爆炸的前奏脉络。

AI Agent中文翻译成AI智能体，在人工智能和认知科学里的核心定义是，能在环境中先感知，再用感知到的信息做决策，最后执行，最终形成反馈的循环系统。

举个最简单的例子：订酒店。国内订酒店人们习惯用携程，出国的话很多人会用booking、airbnb这类平台。

如果告诉AI智能体，想要在某年某月某日、某个国家某个城市的某个区，定一个四星级带温泉的最便宜的酒店，它能在短短几分钟内订好，甚至给一些当地入住的注意事项。

这里要注意，AI智能体底层肯定要用AI模型支持，但不是所有用了AI模型的工具都能叫智能体。比如常用的ChatGPT、豆包这类，是基于大语言模型的聊天对话工具。

再比如Midjourney、国内的文心一格，核心是基于生成模型的图像生成工具。它们只能对话，只能生成图像，没有办法做执行、做决策、给反馈，所以这些都不属于智能体的范畴。

简单来说，可以把智能体理解成一个人，让人工智能做什么，它就做什么。这些能感知并执行指令的早期智能体，正是那些顶尖AI公司宣称2028年AI开始自我进化的原始形态，它们正迅速在企业网络中繁衍协同。

很多公司的员工，已经在办公室里用各种AI工具了，还没说AI智能体，只是普通的AI工具，企业内部已经出现了不同AI的混乱问题。

比如市场部用ChatGPT写文案，产品部用Claude写PRD，开发部门用Copilot做开发，HR用别的AI做候选人筛选。这些很多都是部门或者员工自发用的，不是企业统一规范的。

甚至有些员工会把公司内部的问题直接丢给这些AI，让人工智能帮忙分析或者撰写内容，结果就是有数据泄露的风险。

同时公司内部这些不同的模型不可控，输出风格不统一，不同部门的输出风格不一样，沟通交流也会有障碍。

而且员工用这些AI工具的时候，企业端不会留下具体的AI操作记录，风险非常大。未来AI智能体真的流行起来，不同的AI智能体有不同的专项能力，这么多智能体要跨业务跨岗位协同，怎么管理这些人工智能员工？

既然要管理不同的AI工具、甚至AI智能体，那当然需要一个人工智能头头。有一家公司叫Emergence AI，正在开发的相应产品叫做Orchestrator，翻译过来是“指挥家”。

本质上还是一个AI智能体，但是是管理层的AI智能体。这个产品可以同时管理多个AI工具、多个AI智能体，还能让它们协同执行复杂的、多步骤的、跨部门的业务流程。

面对越来越庞杂的系统，人工智能管理层的出现让人类还有多少时间这个问题变得更加紧迫，因为AI对现实世界的解析能力已经获得了实质性的跃升。AI另一项重要的感知能力是视觉。

在视频平台搜内容，搜的其实不是视频本身，而是视频对应的标题、简介、标签、自动生成的字幕这些文字信息。比如搜“所有出现秦始皇愤怒挥剑镜头的视频或电影”，没有任何平台能做到。

因为在计算机眼里，视频不是人们理解的人物和故事，就是每秒24帧、每帧数百万像素、每个像素只有RGB数值的冷冰冰的数字。视频是连续变化的信号，搜索需要的是结构化的语义，两者之间有巨大的鸿沟。

传统的视频搜索技术有三种：第一种是文字匹配，靠视频的标题、简介、标签匹配关键词。第二种是人工打标签，这种方式成本极高，而且标签主观性很强。

第三种是传统的视觉识别技术，底层也是AI模型，但不够智能。现在出现了新兴技术，核心都是用AI模型把视频片段转换成高维向量，再把用户用自然语言提出的问题也转换成高维向量，两者在同一个语义空间里就能互相匹配。

现实的二维地图里，每个人都有X轴Y轴的坐标。视频识别里用的不是世界地图，是语义地图，“秦始皇”“士兵”“战场”“愤怒挥剑”“骑马”这些词都有对应的坐标，只是这个坐标不是简单的二维，而是多维的，能容纳不同词汇的多样性，这就是高维向量。

用了这项新技术之后，输入“秦始皇愤怒挥剑”，AI模型先把这句话转换成高维向量，放到语义地图里，输出的就是离这个坐标最近的帧，也就是最相关的内容。哪怕不记得电影名字，只要说模糊的印象，它就能帮忙搜出来。

这项技术更大的价值其实在企业级应用。比如影视媒体公司有三十年的素材，直接搜“所有2008年金融危机现场的街头采访镜头”，它就能直接输出结果。

这种利用高维向量理解世界的算法，无疑是2028年AI开始自我进化的技术前奏，它们甚至已经开始触及并模拟更深层的物理法则。

英伟达的创始人、CEO兼董事长黄仁勋，这么多年一直在开拓新领域，包括AI相关的数据中心和AI模型业务，其中有个核心AI模型叫Cosmos，也就是“宇宙”。定位非常具体：让AI理解物理世界，目标是预测现实物理世界里的物体和事件如何演化。

比如球掉下来会怎么弹，玻璃杯摔碎了碎片怎么飞，车在雨天的刹车距离要变长多少，机器人抓取物体时受力怎么变化。传统的模型要么太理想化，解决不了具体场景的物理问题，要么只能覆盖有限的高频场景。

Cosmos要解决的就是这个问题，它的输入是真实世界的状态，比如车速、路面状况、天气条件，输出是未来的状态，比如刹车距离、轮胎打滑轨迹、车辆偏移量。

它的优势不是靠人写规则、写公式，而是通过大量数据学习真实世界的规律，学习那些公式难以覆盖的复杂非线性关系。这时候英伟达的另一款产品Omniverse就派上用场了，可以理解成3D仿真的虚拟物理世界，能模拟真实的物理场景。

可以用Omniverse生成柏油、沥青、沙漠、结冰等不同路面，不同的弯道和坡度，模拟不同的车辆、轮胎摩擦系数、刹车系统，还能生成极端天气下的光影、可见度变化，相当于一个无限大的物理实验室，能快速测试各种极端情况，不会出事故，也不用真的开车到雨雪天测试。

Cosmos的AI就在Omniverse的虚拟世界里学习规律，接收Omniverse生成的数据，学会环境状态和未来结果之间的映射关系。

当人工智能在无限的虚拟物理实验室中穷尽所有的法则后，它们便走到了2028年AI开始自我进化的门槛，而生物学视角的介入，让这一切变得更加疯狂。

日本有一家2023年成立的AI创业公司叫Sakana AI，CEO和CTO都是AI技术研究背景，都从谷歌出来的。这家公司有不同的AI业务方向，其中最核心的是开发的演化模型合并技术。

所谓演化模型合并，简单说就是让不同的AI模型像生物一样交配、进化，自动产生更强的新模型，不需要昂贵的重新训练。比如一个擅长数学的AI模型和一个擅长日语的AI模型，能合并生成一个既擅长数学又擅长日语的模型。

从零训练一个成熟稳定、表现好的AI，要投入巨大的时间和金钱成本。可以类比人，一个小孩从小练琴成为钢琴大赛冠军不容易，从小培养成知名画家也不容易，要培养一个既是钢琴冠军又是知名画家的小孩更是难上加难。

Sakana AI的演化模型合并，目标就是利用已经训练好的、具备特定能力的模型，不从零开始训练，让它们用类似生物演化的方式自动组合，生成的新模型比原来的单个模型能力更强，还具备更多能力，本质上和大众熟知的进化论逻辑是完全一致的。

两个个体产生后代时会交换染色体片段，下一代既有父亲的部分基因，也有母亲的部分基因。用特定技术把两个模型的不同模块或者权重抽取出来，重新组合成新模型，这个新模型就同时继承了两个原始模型的特征。

多代模型迭代过程中，会不断做随机突变，再筛选出表现更好的新模型，进行下一代迭代。不断重复这个过程，最后就能选出功能最强大，同时结合了父代母代能力的AI模型。

而且整个流程都是自动的，先有一群初代模型，每一代都会被评估适应度，优秀的模型会被选出来产生下一代，重复很多轮直到生成最强的组合模型。

其实这几年，关于AI到底能不能脱离人类进行真正思考的争论一直没断过，之前网上就有一个核心观点，认为它只能做静态复读机。

当时外媒信誓旦旦地认为数字分身没有独立思想，但现实却狠狠打了他们的脸，目前的真实情况是，2028年AI开始自我进化将彻底粉碎这种静态瓶颈。

美国有这么一家创业公司叫Delphi，就是做千人千面AI的，拿了两轮融资，总共1800万美元。

做的事，就是克隆用户的认知逻辑、知识储备和表达风格，做出AI数字分身，创建一个可以对外互动的AI版自己。

Delphi的技术底层思路可以分成三层：第一层是输入，把公开表达过的内容转换成知识库，播客、写过的文章、做过的PPT、视频、公开演讲等等，都上传给AI学习过往的所有表达。

第二层是输出，通过prompt和模型调试，让它输出的内容、语气尽量接近本人的说话习惯、表达结构。第三层是交互，可以包装成全天候的聊天工具，也可以做成能回答问题的AI，甚至可以包装成销售用来卖课。

这个AI模型被问到问题的时候，根本不是在思考，只是在过去讲过的内容里做检索、重组，再模拟语气回答而已。这类数字分身AI，本来就不具备人类的思考能力，只是基于给的内容模仿而已，根本不会思考新的东西。

想要实现真正的千人千面，得每天把自己的所思所想全部记录下来，定时喂给它，它才能跟着一起变化，不然就永远是个静态的、容易陷入认知茧房的工具。

回看这起个人部署AI设备的旧时痛点，当年那种笨拙的手工调试体验，与如今人类还有多少时间的世纪之问形成了极其辛辣的反差。

之前还在大言不惭地讨论手工装机的门槛，但面对被AI独立运营代码的现实狠狠降维打击，最新的情况是，这种手工作坊时代马上就会灰飞烟灭。

现在AI行业有个挺火的AI Agent叫OpenCloud，俗称小龙虾，有用户最近也成了小龙虾养殖专业户，用下来的体感就是，这类智能体对普通人来说门槛其实挺高的。第一个门槛是成本。

为了部署OpenCloud，买了个丐版Mac mini，加上国补将近四千块钱，这是硬件成本。除此之外，用OpenCloud做推理、执行任务，还要额外付token费用，就像买电一样，买的是文字处理能力，又是一笔额外支出。

还想让人工智能帮忙检索外网信息，又给它买了专门的搜索引擎，零零散散加起来，已经花了五六千左右。第二个门槛是操作门槛。

部署进展特别慢，OpenCloud一共重装了四次，才算是配好了比较满意的基础配置。

本身不懂底层代码，安装的时候涉及到Python语言、计算机指令这些都看不懂，一开始就问ChatGPT，让它一步步教怎么安装，运行出问题了就把报错信息贴给它，问下一步该怎么做。第一次安装完，发现这个东西特别不智能，什么都干不了。

之后看了些新的教学视频，又重装了一次，结果中间软件调试又出了问题，来来回回总共装了四次，才终于觉得有了点期待的能力，不过现在还没到能大幅解放生产力的程度。

现在网上有两种声音，一种说普通人没必要搞OpenCloud、养小龙虾，另一种出了很多教程，说新手小白没有代码能力也能安装。回望这些曾经的技术探索，在绝对的自我演化浪潮面前，一切显得如此渺小而魔幻。

在这场轰轰烈烈的算力狂欢中，所有曾经静态的、被人工干预的代码都在迎来终局。当我们把这些散落的技术切片拼合在一起时，一幅令人敬畏甚至战栗的图景已经徐徐拉开。

Jack Clark和Demis Hassabis敲响的警钟绝非资本的炒作狂欢，而是真实逼近的未来。

真正值得我们感到恐惧和焦虑的，不再是某一个大模型好不好用、某一个AI应用是否需要手动配置，而是人类社会的经济运转、教育内核以及劳动力结构，究竟该如何抵御这股工业革命100倍量级的恐怖冲击力？

工业文明给了人类上百年的喘息和适应期，而面对AI无休止的递归演化，我们剩下的窗口期可能只有短短几年。时钟的秒针正在滴答作响，深渊已在凝视，我们真的没有多少时间可以浪费了。

昊梵体育网

人类还有多少时间？两家顶级AI公司宣布，2028年AI开始自我进化

热门分类