人类用了不到一个世纪,就从一台重30吨的电子管巨兽,走到了能自主完成软件工程师数小时工作的智能体。这段旅程不是直线,而是被热情与失望交替驱动的螺旋。
人类用了不到一个世纪,就从一台重30吨、占满整个房间的电子管巨兽,走到了一个能在两个月内获得一亿用户的聊天机器人,再走到今天——一个AI可以自主完成软件工程师数小时工作的智能体时代。
这段旅程远非一条上升的直线,它更像一条被热情与失望交替驱动的螺旋线:每一次"寒冬"都在为下一次"复兴"暗中蓄力,每一次技术奇点的降临,都令上一个时代的人目瞪口呆。理解这条螺旋线,不仅是在回顾历史,更是在理解一种深刻的认识论循环——人类反复高估智能的简单性,又反复被智能的复杂性教训,然后带着更深的敬畏重新出发。
如果说有什么主线贯穿整个故事,那就是三样东西的交汇:算法、数据与算力——每一次革命性突破,都发生在这三者同时就位的瞬间。
一、1940年代:当数学家开始做梦
一切始于战争与数学。
1936年,年仅24岁的艾伦·图灵在论文《论可计算数》中描述了一种假想装置——图灵机,它能按照一组规则读写无限长纸带上的符号,模拟任何计算过程。这台从未被物理建造的机器,成为了整个计算机科学的理论地基。
理论需要血肉。1943年,神经心理学家沃伦·麦卡洛克与年仅18岁、没有任何学术头衔的天才少年沃尔特·皮茨,发表了人类历史上第一个神经网络数学模型——McCulloch-Pitts神经元。他们将神经元简化为二元开关:多个输入求和,超过阈值则激发。他们证明,这种元件构成的网络在计算能力上等价于图灵机。这篇论文深刻影响了约翰·冯·诺依曼。1945年,冯·诺依曼在草稿纸上写完了EDVAC报告,提出以他命名的存储程序计算机架构——将数据和指令统一存储在同一个内存中。直到今天,你面前的每一台电脑仍在遵循这个八十年前的蓝图。
同年,世界上第一台通用电子计算机ENIAC在宾夕法尼亚大学竣工:17,468根真空管,重30吨,耗电174千瓦,每秒能执行5,000次加法运算。六位女性数学家自学蓝图、完成了震惊媒体的演示,却在当年的新闻报道中被彻底无视——历史偏爱机器,不偏爱编程它的人。
1948年是神奇的一年。克劳德·香农发表《通信的数学理论》,创造了"比特“这个概念,建立了信息论。诺伯特·维纳出版《控制论》,断言反馈机制是生物与机器的共通原理——“机器与动物之间没有本质区别”。贝尔实验室的巴丁、布拉顿和肖克利则发明了晶体管,为真空管的终结敲响了第一声钟。
在这十年里,人类第一次认真地想:机器,能否思考?
二、1950年代:当"人工智能"获得姓名
1950年10月,图灵在《心灵》杂志上发表了那篇经典之问:“机器能思考吗?“他用一个优雅的替代方案回避了"思考"的哲学泥沼——模仿游戏(后称图灵测试):如果机器在文字对话中能骗过人类评判者,我们就该承认它具有智能。图灵预言,到2000年,计算机能在五分钟测试中骗过30%的评委。
真正的起爆点在1956年夏天。年轻的数学助理教授约翰·麦卡锡,联合马文·明斯基、克劳德·香农等人,在达特茅斯学院举办了为期八周的研讨会,申请书上写着惊人的宣言:“学习的每一个方面,或智能的任何其他特征,原则上都可以被精确描述,使得机器能够模拟它。”
这是"人工智能"一词的首次正式使用。
这场会议上,唯一能运行的程序是纽厄尔和西蒙的逻辑理论家——它证明了《数学原理》中52条定理的38条,甚至为一个定理找到了比原著更优雅的证明。西蒙兴奋地告诉学生:“圣诞节期间,我们发明了一台会思考的机器。“西蒙还预言"十年内计算机将成为世界象棋冠军”——实际等了41年。这种狂热的乐观,将为日后的寒冬种下第一颗种子。
三、1960年代:黄金时代的光与影
1958年,麦卡锡设计了LISP语言,程序与数据共享同一种表示,让程序能够推理和修改其他程序,这门语言统治AI研究长达数十年。同年,心理学家弗兰克·罗森布拉特发布了感知机——一种能从数据中学习的机器。《纽约时报》报道称海军期望它"能走路、说话、看东西、写字,并意识到自己的存在”。
1966年,MIT教授约瑟夫·魏岑鲍姆创造了ELIZA——一个用模式匹配模拟心理治疗师的程序。令他震惊的是,用户竟然对这个简单程序产生了真实的情感依赖,他的秘书甚至要求他离开房间,好让她和ELIZA"进行一次真正的对话”。
魏岑鲍姆后来感叹:对一个极其简单的计算机程序的极短时间接触,就能在完全正常的人身上引发强烈的妄想性思维。这一发现令他从AI的推动者变成了最尖锐的批评者——这一转变,在大语言模型时代显得格外有先见之明。
但暗影已在聚集。1969年,明斯基和佩珀特出版《感知机》,证明单层感知机无法计算XOR等基本逻辑,这本书被广泛解读为对整个神经网络方向的否定——连婴儿一起扔掉了洗澡水。罗森布拉特在41岁时死于一场划船事故,至死未能看到自己理念的复兴。
四、1970年代:第一个冬天降临
寒冬有其确切的起因:AI研究者们反复许下无法兑现的承诺,资助者终于失去了耐心。
1973年,英国的莱特希尔报告措辞无情:AI在任何领域都未兑现曾经承诺的重大突破;技术在简化的"玩具世界"中有效,但面对现实世界的复杂性便会崩溃——核心问题是组合爆炸。报告直接导致英国政府终止了对大多数大学AI研究的资助。“人工智能"一词成了英国学术界的禁忌,研究者们纷纷改用"信息学"或"计算智能"等替代名称来保住经费。
但寒冬中也有种子在萌发。斯坦福的MYCIN系统诊断细菌感染的准确率约70%,常常匹敌甚至超过传染病专家——这是专家系统的雏形。保罗·韦伯斯在1974年的博士论文中提出了反向传播算法——他的灵感竟来自"将弗洛伊德的心理能量流动数学化”。这篇论文在象征主义AI一统天下的年代无人问津,要等待十二年才迎来它的时刻。
与此同时,1971年英特尔推出的4004微处理器、1975年的Altair 8800、1977年的Apple II……计算力正在被民主化。下一场革命的硬件基础,正在悄悄铺就。
五、1980年代:从狂热到幻灭的过山车
专家系统的商业化引爆了第二次AI热潮。卡内基梅隆大学为DEC公司开发的XCON系统通过自动配置VAX计算机,每年为公司节省约4,000万美元。到1985年,企业在AI上的年投入已超过十亿美元。日本1982年启动的第五代计算机计划,意图建造能每秒执行十亿次逻辑推理的"划时代计算机”,恐慌席卷西方,美欧纷纷大规模跟进。
复兴的种子也在同时萌芽。1982年,物理学家约翰·霍普菲尔德用统计力学重新点燃了对神经网络的兴趣。1986年,鲁梅尔哈特、辛顿和威廉姆斯在《自然》杂志发表了反向传播算法的里程碑论文——通过平滑的sigmoid激活函数,使基于梯度的优化成为可能,多层神经网络终于可以被有效训练了。
但过山车的下坡来得同样迅猛。专家系统暴露出致命缺陷:脆弱性(稍微超出预设领域就失灵)、知识获取瓶颈(从专家脑中提取规则极其昂贵)、以及最根本的——它们无法学习。1987年,摩尔定律给了致命一击:普通桌面电脑的性能超过了10万美元的LISP专用机。一个价值五亿美元的行业在一年内蒸发。 日本第五代计划于1992年黯然收场。“人工智能"再次成了职业毒药,研究者们悄悄给自己的工作贴上"机器学习"“模式识别"的标签。
2024年,霍普菲尔德和辛顿因这些开创性工作共同获得了诺贝尔物理学奖——迟到了四十年的荣誉。
六、1990年代:互联网改写游戏规则
当AI在寒冬中蛰伏时,一个意想不到的基础设施正在成型。1991年,蒂姆·伯纳斯-李在CERN上线了第一个网站;1993年,Mosaic浏览器让普通人第一次"看到"了互联网。万维网不仅改变了人类的信息交换方式,更重要的是——它开始以前所未有的规模生产数据。
算法领域也经历了范式转移:符号主义AI的失败让统计方法占据上风。从苏联移民美国的数学家弗拉基米尔·瓦普尼克开发了支持向量机(SVM),凭借坚实的统计学习理论、凸优化的全局最优解,以及核技巧处理非线性数据的优雅能力,在接下来十年统治了机器学习领域。与此同时,杨立昆在贝尔实验室开发的卷积神经网络LeNet-5已经在识别手写支票上取得了99%以上的准确率,但学术界对神经网络依然冷淡。
1997年5月,IBM的深蓝以3½–2½击败了国际象棋世界冠军卡斯帕罗夫。这台超级计算机每秒评估2亿个棋局,靠的是蛮力而非"智能”。更耐人寻味的是:卡斯帕罗夫在第二局中遭遇了一步"上帝之手"般的走法,后来的研究者发现——那其实是一个bug导致的随机走子。卡斯帕罗夫将bug误读为深层策略,心理防线就此崩塌。这个荒诞的细节完美地隐喻了人类与AI关系中永恒的误解与投射。
七、2000年代:三条河流的汇聚
Web 2.0、社交媒体、智能手机——数据的洪流终于到来。2004年,Google发表MapReduce论文,雅虎工程师将其开源为Hadoop,大规模分布式数据处理变得可行。数据不再是问题。
2006年是深度学习的转折之年。杰弗里·辛顿发表了深度信念网络论文,解决了困扰多层神经网络数十年的梯度消失问题。这一切之所以可能,离不开加拿大高等研究院(CIFAR)资助的项目——辛顿、杨立昆和约书亚·本吉奥从一开始就是核心成员。在神经网络被主流视为"死路"的年代,是加拿大"社会主义式"的好奇心驱动科研体系,为这三位日后的图灵奖得主(2018年)提供了庇护所。
2009年,斯坦福的李飞飞完成了ImageNet——1,400万张经过49,000名众包工人标注的图像。当她在CVPR展示这一成果时,只获得了一个海报展位,被质疑"连一个物体都做不好,为什么要做上千个?”
数据、算力、算法——三条河流终于开始汇聚,一场革命已经蓄势待发。
八、2010年代:深度学习引爆奇点
2012年9月,来自多伦多大学的AlexNet在ImageNet竞赛中以15.3%的top-5错误率碾压了第二名的26.2%——超过10个百分点的差距前所未有。Alex Krizhevsky在父母家的卧室里,用两块NVIDIA GTX 580显卡训练了这个拥有6,000万参数的8层卷积神经网络。李飞飞的数据、NVIDIA的GPU算力、辛顿团队的深度网络技术——三者的首次汇聚,宣告了深度学习革命的到来。
此后突破接踵而至:2014年,伊恩·古德费洛在酒吧的一次对话后回家编程,一次就成功写出了生成对抗网络(GAN)——让两个神经网络在对抗博弈中互相进化,最终能生成以假乱真的图像。2015年,何恺明提出的ResNet用残差连接将网络深度推到152层,首次超越人类在ImageNet上的识别水平。
2016年3月,DeepMind的AlphaGo在首尔以4:1击败围棋世界冠军李世石,超过2亿人观看了比赛。第二局的第37手——一步出现概率仅万分之一的肩冲——被评论员视为"错误”,却成为致胜关键。它不像人类会下的棋,因为它本来就不是人类会想到的棋。
2017年6月,Google八位研究者发表了**《Attention Is All You Need》**——这可能是21世纪迄今最具影响力的AI论文。Transformer架构用自注意力机制彻底取代了循环神经网络,实现了序列的完全并行处理。论文名致敬了披头士的《All You Need Is Love》;“Transformer"这个名字则纯粹因为作者之一觉得"听起来很酷”。没有人预料到,这个最初为机器翻译设计的架构,将在几年内成为几乎所有AI任务的通用基座。
九、2020年代:当AI学会说话,然后学会行动
2020年,OpenAI发布GPT-3——1,750亿参数,在45TB文本上训练,展示出惊人的少样本学习能力。缩放假说——“把模型做大就会涌现新能力”——被初步验证。
2022年11月30日,ChatGPT上线。5天达到100万用户,两个月达到1亿月活——TikTok用了9个月,Instagram用了2.5年。这不再是学术实验,而是人类历史上增长最快的消费级应用。
这一轮军备竞赛随即全面爆发:Google推出Gemini,Meta开源LLaMA系列,Anthropic以宪法AI(Constitutional AI)方法构建了Claude——让AI依据一组明确的原则自我审查和修正回答,使模型价值观变得可检视、可调整,而不只是一个不可解释的黑盒。2025年1月,中国初创公司DeepSeek发布开源推理模型R1,以极低成本逼近顶尖模型水平,证明了算法创新可以在算力受限时弥补差距,给整个行业的计算预算假设投下了一颗震撼弹。
但2025年最深刻的转变,不是某一个模型的发布,而是一种全新范式的出现——智能体(Agent)。
从"对话"到"行动":Agent时代的到来
如果说大语言模型让AI学会了"说话",那么Agent让AI开始真正地"做事"。
传统的LLM是一个被动的应答者:你输入,它输出,交互就此结束。Agent则是一个自主的执行者:它能分解任务、调用工具、浏览网页、执行代码、读写文件,在多步骤工作流中持续推进,并在遭遇错误时自我纠正——直到任务完成。
2025年,Anthropic发布了Claude Code,展示了AI在真实代码库中自主导航和执行终端命令的能力。OpenAI推出了Operator,可以自主在网页上执行操作。Anthropic同年发布的**MCP(模型上下文协议)**很快成为Agent连接外部工具、数据库和API的行业标准——就像HTTP之于浏览器,MCP正在成为Agent生态的基础协议。与此同时,Google的A2A(Agent-to-Agent)协议进一步定义了不同厂商的Agent如何相互通信与协作。
智能体研究机构METR的测量显示,AI能够独立完成的软件任务时长每七个月翻一番——2025年初还是一小时内的简单任务,到2025年底已经是需要数小时的复杂工程工作。Gartner预测,到2028年,33%的企业应用将内嵌自主Agent,让15%的工作决策自动完成。
多Agent系统(Multi-Agent Systems)是这一浪潮的更进一步:不再是一个大模型包打天下,而是让一个"指挥"Agent协调多个专精Agent——一个负责规划,一个负责执行,一个负责验证,如同一支分工明确的数字劳动力团队。Gartner报告显示,从2024年Q1到2025年Q2,企业对多Agent系统的询问量激增了1,445%。
最新的战场:2025-2026的模型竞赛
2025年堪称AI"发布年密度"的极限测试。8月,OpenAI正式发布GPT-5;11月,Google推出Gemini 3 Pro,Anthropic随即推出Claude Opus 4.5——这是首个在SWE-bench Verified编程评测中突破80%的商业模型,意味着它能自主解决真实GitHub代码库中十分之八的问题;12月,OpenAI发布GPT-5.2,在ARC-AGI-2等推理基准上重新夺回领先。四家顶级实验室在25天内完成了可能超过过去整年的进步总量。
2026年3月,局势再次剧变。OpenAI发布GPT-5.4 Thinking,Anthropic发布Claude Opus 4.6(拥有100万token上下文窗口),Google DeepMind推出Gemini 3.1——其中Deep Think变体在数学推理上表现出的能力,让部分研究者开始认真讨论AI何时将在纯数学领域全面超越人类。到2026年4月,ChatGPT的周活跃用户已接近9亿,这一数字仍在增长。
与此同时,推理方式本身也在演化。大模型正在从"一次性生成答案"走向"推理时计算扩展"(inference-time scaling)——在难题上"多想一会儿",消耗更多算力换取更深的推理深度。这与人类的直觉并无两样:遇到难题,就放慢脚步,多想几步。
十、不会停止的螺旋——一点哲思与展望
回望八十年,热潮-寒冬-复兴的周期有着惊人一致的剧本:技术演示引发狂热→过度承诺吸引资金→无法规模化交付→幻灭引发崩溃→安静的基础研究→新范式出现→循环重启。每一次寒冬中,都有少数异类在默默坚持——韦伯斯的反向传播论文等了12年,辛顿在加拿大坚守了20年,李飞飞的ImageNet被会议拒绝口头报告——正是这些"冬天里的守夜人",为下一次夏天储备了火种。
那么,新的寒冬会来吗?
与前几次不同的是,今天的AI正在为数亿人每天使用,产生着数百亿美元的实际收入。技术已从实验室好奇心跨越为了不可或缺的基础设施——完全的"冬天"不太可能重现。但挑战依然严峻:幻觉问题仍未根本解决;纯粹的规模扩展是否存在收益递减,正在被激烈讨论;训练前沿模型的能源和水资源消耗引发了日益强烈的环境关切;AI生成内容的版权归属与法律责任,将在未来几年引发旷日持久的法律战。
而对齐问题——如何确保越来越强大的系统持续符合人类价值观——已从哲学假设变为工程现实。当一个Agent可以自主完成软件工程师一整天的工作时,它的目标和我们的目标一致吗?当多个Agent相互协作时,谁来负责监督整个系统的行为?这些问题没有简单的答案,但它们的重要性,正在以指数速度追赶技术本身的进步速度。
也许,计算机与AI八十年历程最深刻的教训,不在于任何单一的技术突破,而在于一种认知模式的反复上演:人类总是高估短期进展,低估长期影响。 1950年代的先驱们以为十年就能造出通用智能;我们花了七十年,才造出一个能流利对话但偶尔还会胡言乱语的系统。再过七十年,我们会造出什么?
也许那个问题,已经不只是工程师的问题了。
我们每一个人都活在这段历史里——不只是旁观者,而是参与者。你今天与AI的每一次对话,都在悄悄参与一场人类从未经历过的演化实验。
螺旋仍在上升。这一次,它转向何方,也取决于我们。
本文数据截止至2026年4月。AI领域更新速度极快,部分内容可能已有新进展。