硅与梦：计算机与人工智能的八十年史诗

人类用了不到一个世纪，就从一台重30吨的电子管巨兽，走到了能自主完成软件工程师数小时工作的智能体。这段旅程不是直线，而是被热情与失望交替驱动的螺旋。

人类用了不到一个世纪，就从一台重30吨、占满整个房间的电子管巨兽，走到了一个能在两个月内获得一亿用户的聊天机器人，再走到今天——一个AI可以自主完成软件工程师数小时工作的智能体时代。

这段旅程远非一条上升的直线，它更像一条被热情与失望交替驱动的螺旋线：每一次"寒冬"都在为下一次"复兴"暗中蓄力，每一次技术奇点的降临，都令上一个时代的人目瞪口呆。理解这条螺旋线，不仅是在回顾历史，更是在理解一种深刻的认识论循环——人类反复高估智能的简单性，又反复被智能的复杂性教训，然后带着更深的敬畏重新出发。

如果说有什么主线贯穿整个故事，那就是三样东西的交汇：算法、数据与算力——每一次革命性突破，都发生在这三者同时就位的瞬间。

一、1940年代：当数学家开始做梦

一切始于战争与数学。

1936年，年仅24岁的艾伦·图灵在论文《论可计算数》中描述了一种假想装置——图灵机，它能按照一组规则读写无限长纸带上的符号，模拟任何计算过程。这台从未被物理建造的机器，成为了整个计算机科学的理论地基。

理论需要血肉。1943年，神经心理学家沃伦·麦卡洛克与年仅18岁、没有任何学术头衔的天才少年沃尔特·皮茨，发表了人类历史上第一个神经网络数学模型——McCulloch-Pitts神经元。他们将神经元简化为二元开关：多个输入求和，超过阈值则激发。他们证明，这种元件构成的网络在计算能力上等价于图灵机。这篇论文深刻影响了约翰·冯·诺依曼。1945年，冯·诺依曼在草稿纸上写完了EDVAC报告，提出以他命名的存储程序计算机架构——将数据和指令统一存储在同一个内存中。直到今天，你面前的每一台电脑仍在遵循这个八十年前的蓝图。

同年，世界上第一台通用电子计算机ENIAC在宾夕法尼亚大学竣工：17,468根真空管，重30吨，耗电174千瓦，每秒能执行5,000次加法运算。六位女性数学家自学蓝图、完成了震惊媒体的演示，却在当年的新闻报道中被彻底无视——历史偏爱机器，不偏爱编程它的人。

1948年是神奇的一年。克劳德·香农发表《通信的数学理论》，创造了"比特“这个概念，建立了信息论。诺伯特·维纳出版《控制论》，断言反馈机制是生物与机器的共通原理——“机器与动物之间没有本质区别”。贝尔实验室的巴丁、布拉顿和肖克利则发明了晶体管，为真空管的终结敲响了第一声钟。

在这十年里，人类第一次认真地想：机器，能否思考？

二、1950年代：当"人工智能"获得姓名

1950年10月，图灵在《心灵》杂志上发表了那篇经典之问：“机器能思考吗？“他用一个优雅的替代方案回避了"思考"的哲学泥沼——模仿游戏（后称图灵测试）：如果机器在文字对话中能骗过人类评判者，我们就该承认它具有智能。图灵预言，到2000年，计算机能在五分钟测试中骗过30%的评委。

真正的起爆点在1956年夏天。年轻的数学助理教授约翰·麦卡锡，联合马文·明斯基、克劳德·香农等人，在达特茅斯学院举办了为期八周的研讨会，申请书上写着惊人的宣言：“学习的每一个方面，或智能的任何其他特征，原则上都可以被精确描述，使得机器能够模拟它。”

这是"人工智能"一词的首次正式使用。

这场会议上，唯一能运行的程序是纽厄尔和西蒙的逻辑理论家——它证明了《数学原理》中52条定理的38条，甚至为一个定理找到了比原著更优雅的证明。西蒙兴奋地告诉学生：“圣诞节期间，我们发明了一台会思考的机器。“西蒙还预言"十年内计算机将成为世界象棋冠军”——实际等了41年。这种狂热的乐观，将为日后的寒冬种下第一颗种子。

三、1960年代：黄金时代的光与影

1958年，麦卡锡设计了LISP语言，程序与数据共享同一种表示，让程序能够推理和修改其他程序，这门语言统治AI研究长达数十年。同年，心理学家弗兰克·罗森布拉特发布了感知机——一种能从数据中学习的机器。《纽约时报》报道称海军期望它"能走路、说话、看东西、写字，并意识到自己的存在”。

1966年，MIT教授约瑟夫·魏岑鲍姆创造了ELIZA——一个用模式匹配模拟心理治疗师的程序。令他震惊的是，用户竟然对这个简单程序产生了真实的情感依赖，他的秘书甚至要求他离开房间，好让她和ELIZA"进行一次真正的对话”。

魏岑鲍姆后来感叹：对一个极其简单的计算机程序的极短时间接触，就能在完全正常的人身上引发强烈的妄想性思维。这一发现令他从AI的推动者变成了最尖锐的批评者——这一转变，在大语言模型时代显得格外有先见之明。

但暗影已在聚集。1969年，明斯基和佩珀特出版《感知机》，证明单层感知机无法计算XOR等基本逻辑，这本书被广泛解读为对整个神经网络方向的否定——连婴儿一起扔掉了洗澡水。罗森布拉特在41岁时死于一场划船事故，至死未能看到自己理念的复兴。

四、1970年代：第一个冬天降临

寒冬有其确切的起因：AI研究者们反复许下无法兑现的承诺，资助者终于失去了耐心。

1973年，英国的莱特希尔报告措辞无情：AI在任何领域都未兑现曾经承诺的重大突破；技术在简化的"玩具世界"中有效，但面对现实世界的复杂性便会崩溃——核心问题是组合爆炸。报告直接导致英国政府终止了对大多数大学AI研究的资助。“人工智能"一词成了英国学术界的禁忌，研究者们纷纷改用"信息学"或"计算智能"等替代名称来保住经费。

但寒冬中也有种子在萌发。斯坦福的MYCIN系统诊断细菌感染的准确率约70%，常常匹敌甚至超过传染病专家——这是专家系统的雏形。保罗·韦伯斯在1974年的博士论文中提出了反向传播算法——他的灵感竟来自"将弗洛伊德的心理能量流动数学化”。这篇论文在象征主义AI一统天下的年代无人问津，要等待十二年才迎来它的时刻。

与此同时，1971年英特尔推出的4004微处理器、1975年的Altair 8800、1977年的Apple II……计算力正在被民主化。下一场革命的硬件基础，正在悄悄铺就。

五、1980年代：从狂热到幻灭的过山车

专家系统的商业化引爆了第二次AI热潮。卡内基梅隆大学为DEC公司开发的XCON系统通过自动配置VAX计算机，每年为公司节省约4,000万美元。到1985年，企业在AI上的年投入已超过十亿美元。日本1982年启动的第五代计算机计划，意图建造能每秒执行十亿次逻辑推理的"划时代计算机”，恐慌席卷西方，美欧纷纷大规模跟进。

复兴的种子也在同时萌芽。1982年，物理学家约翰·霍普菲尔德用统计力学重新点燃了对神经网络的兴趣。1986年，鲁梅尔哈特、辛顿和威廉姆斯在《自然》杂志发表了反向传播算法的里程碑论文——通过平滑的sigmoid激活函数，使基于梯度的优化成为可能，多层神经网络终于可以被有效训练了。

但过山车的下坡来得同样迅猛。专家系统暴露出致命缺陷：脆弱性（稍微超出预设领域就失灵）、知识获取瓶颈（从专家脑中提取规则极其昂贵）、以及最根本的——它们无法学习。1987年，摩尔定律给了致命一击：普通桌面电脑的性能超过了10万美元的LISP专用机。一个价值五亿美元的行业在一年内蒸发。 日本第五代计划于1992年黯然收场。“人工智能"再次成了职业毒药，研究者们悄悄给自己的工作贴上"机器学习"“模式识别"的标签。

2024年，霍普菲尔德和辛顿因这些开创性工作共同获得了诺贝尔物理学奖——迟到了四十年的荣誉。

六、1990年代：互联网改写游戏规则

当AI在寒冬中蛰伏时，一个意想不到的基础设施正在成型。1991年，蒂姆·伯纳斯-李在CERN上线了第一个网站；1993年，Mosaic浏览器让普通人第一次"看到"了互联网。万维网不仅改变了人类的信息交换方式，更重要的是——它开始以前所未有的规模生产数据。

算法领域也经历了范式转移：符号主义AI的失败让统计方法占据上风。从苏联移民美国的数学家弗拉基米尔·瓦普尼克开发了支持向量机（SVM），凭借坚实的统计学习理论、凸优化的全局最优解，以及核技巧处理非线性数据的优雅能力，在接下来十年统治了机器学习领域。与此同时，杨立昆在贝尔实验室开发的卷积神经网络LeNet-5已经在识别手写支票上取得了99%以上的准确率，但学术界对神经网络依然冷淡。

1997年5月，IBM的深蓝以3½–2½击败了国际象棋世界冠军卡斯帕罗夫。这台超级计算机每秒评估2亿个棋局，靠的是蛮力而非"智能”。更耐人寻味的是：卡斯帕罗夫在第二局中遭遇了一步"上帝之手"般的走法，后来的研究者发现——那其实是一个bug导致的随机走子。卡斯帕罗夫将bug误读为深层策略，心理防线就此崩塌。这个荒诞的细节完美地隐喻了人类与AI关系中永恒的误解与投射。

七、2000年代：三条河流的汇聚

Web 2.0、社交媒体、智能手机——数据的洪流终于到来。2004年，Google发表MapReduce论文，雅虎工程师将其开源为Hadoop，大规模分布式数据处理变得可行。数据不再是问题。

2006年是深度学习的转折之年。杰弗里·辛顿发表了深度信念网络论文，解决了困扰多层神经网络数十年的梯度消失问题。这一切之所以可能，离不开加拿大高等研究院（CIFAR）资助的项目——辛顿、杨立昆和约书亚·本吉奥从一开始就是核心成员。在神经网络被主流视为"死路"的年代，是加拿大"社会主义式"的好奇心驱动科研体系，为这三位日后的图灵奖得主（2018年）提供了庇护所。

2009年，斯坦福的李飞飞完成了ImageNet——1,400万张经过49,000名众包工人标注的图像。当她在CVPR展示这一成果时，只获得了一个海报展位，被质疑"连一个物体都做不好，为什么要做上千个？”

数据、算力、算法——三条河流终于开始汇聚，一场革命已经蓄势待发。

八、2010年代：深度学习引爆奇点

2012年9月，来自多伦多大学的AlexNet在ImageNet竞赛中以15.3%的top-5错误率碾压了第二名的26.2%——超过10个百分点的差距前所未有。Alex Krizhevsky在父母家的卧室里，用两块NVIDIA GTX 580显卡训练了这个拥有6,000万参数的8层卷积神经网络。李飞飞的数据、NVIDIA的GPU算力、辛顿团队的深度网络技术——三者的首次汇聚，宣告了深度学习革命的到来。

此后突破接踵而至：2014年，伊恩·古德费洛在酒吧的一次对话后回家编程，一次就成功写出了生成对抗网络（GAN）——让两个神经网络在对抗博弈中互相进化，最终能生成以假乱真的图像。2015年，何恺明提出的ResNet用残差连接将网络深度推到152层，首次超越人类在ImageNet上的识别水平。

2016年3月，DeepMind的AlphaGo在首尔以4:1击败围棋世界冠军李世石，超过2亿人观看了比赛。第二局的第37手——一步出现概率仅万分之一的肩冲——被评论员视为"错误”，却成为致胜关键。它不像人类会下的棋，因为它本来就不是人类会想到的棋。

2017年6月，Google八位研究者发表了**《Attention Is All You Need》**——这可能是21世纪迄今最具影响力的AI论文。Transformer架构用自注意力机制彻底取代了循环神经网络，实现了序列的完全并行处理。论文名致敬了披头士的《All You Need Is Love》；“Transformer"这个名字则纯粹因为作者之一觉得"听起来很酷”。没有人预料到，这个最初为机器翻译设计的架构，将在几年内成为几乎所有AI任务的通用基座。

九、2020年代：当AI学会说话，然后学会行动

2020年，OpenAI发布GPT-3——1,750亿参数，在45TB文本上训练，展示出惊人的少样本学习能力。缩放假说——“把模型做大就会涌现新能力”——被初步验证。

2022年11月30日，ChatGPT上线。5天达到100万用户，两个月达到1亿月活——TikTok用了9个月，Instagram用了2.5年。这不再是学术实验，而是人类历史上增长最快的消费级应用。

这一轮军备竞赛随即全面爆发：Google推出Gemini，Meta开源LLaMA系列，Anthropic以宪法AI（Constitutional AI）方法构建了Claude——让AI依据一组明确的原则自我审查和修正回答，使模型价值观变得可检视、可调整，而不只是一个不可解释的黑盒。2025年1月，中国初创公司DeepSeek发布开源推理模型R1，以极低成本逼近顶尖模型水平，证明了算法创新可以在算力受限时弥补差距，给整个行业的计算预算假设投下了一颗震撼弹。

但2025年最深刻的转变，不是某一个模型的发布，而是一种全新范式的出现——智能体（Agent）。

从"对话"到"行动"：Agent时代的到来

如果说大语言模型让AI学会了"说话"，那么Agent让AI开始真正地"做事"。

传统的LLM是一个被动的应答者：你输入，它输出，交互就此结束。Agent则是一个自主的执行者：它能分解任务、调用工具、浏览网页、执行代码、读写文件，在多步骤工作流中持续推进，并在遭遇错误时自我纠正——直到任务完成。

2025年，Anthropic发布了Claude Code，展示了AI在真实代码库中自主导航和执行终端命令的能力。OpenAI推出了Operator，可以自主在网页上执行操作。Anthropic同年发布的**MCP（模型上下文协议）**很快成为Agent连接外部工具、数据库和API的行业标准——就像HTTP之于浏览器，MCP正在成为Agent生态的基础协议。与此同时，Google的A2A（Agent-to-Agent）协议进一步定义了不同厂商的Agent如何相互通信与协作。

智能体研究机构METR的测量显示，AI能够独立完成的软件任务时长每七个月翻一番——2025年初还是一小时内的简单任务，到2025年底已经是需要数小时的复杂工程工作。Gartner预测，到2028年，33%的企业应用将内嵌自主Agent，让15%的工作决策自动完成。

多Agent系统（Multi-Agent Systems）是这一浪潮的更进一步：不再是一个大模型包打天下，而是让一个"指挥"Agent协调多个专精Agent——一个负责规划，一个负责执行，一个负责验证，如同一支分工明确的数字劳动力团队。Gartner报告显示，从2024年Q1到2025年Q2，企业对多Agent系统的询问量激增了1,445%。

最新的战场：2025-2026的模型竞赛

2025年堪称AI"发布年密度"的极限测试。8月，OpenAI正式发布GPT-5；11月，Google推出Gemini 3 Pro，Anthropic随即推出Claude Opus 4.5——这是首个在SWE-bench Verified编程评测中突破80%的商业模型，意味着它能自主解决真实GitHub代码库中十分之八的问题；12月，OpenAI发布GPT-5.2，在ARC-AGI-2等推理基准上重新夺回领先。四家顶级实验室在25天内完成了可能超过过去整年的进步总量。

2026年3月，局势再次剧变。OpenAI发布GPT-5.4 Thinking，Anthropic发布Claude Opus 4.6（拥有100万token上下文窗口），Google DeepMind推出Gemini 3.1——其中Deep Think变体在数学推理上表现出的能力，让部分研究者开始认真讨论AI何时将在纯数学领域全面超越人类。到2026年4月，ChatGPT的周活跃用户已接近9亿，这一数字仍在增长。

与此同时，推理方式本身也在演化。大模型正在从"一次性生成答案"走向"推理时计算扩展"（inference-time scaling）——在难题上"多想一会儿"，消耗更多算力换取更深的推理深度。这与人类的直觉并无两样：遇到难题，就放慢脚步，多想几步。

十、不会停止的螺旋——一点哲思与展望

回望八十年，热潮-寒冬-复兴的周期有着惊人一致的剧本：技术演示引发狂热→过度承诺吸引资金→无法规模化交付→幻灭引发崩溃→安静的基础研究→新范式出现→循环重启。每一次寒冬中，都有少数异类在默默坚持——韦伯斯的反向传播论文等了12年，辛顿在加拿大坚守了20年，李飞飞的ImageNet被会议拒绝口头报告——正是这些"冬天里的守夜人"，为下一次夏天储备了火种。

那么，新的寒冬会来吗？

与前几次不同的是，今天的AI正在为数亿人每天使用，产生着数百亿美元的实际收入。技术已从实验室好奇心跨越为了不可或缺的基础设施——完全的"冬天"不太可能重现。但挑战依然严峻：幻觉问题仍未根本解决；纯粹的规模扩展是否存在收益递减，正在被激烈讨论；训练前沿模型的能源和水资源消耗引发了日益强烈的环境关切；AI生成内容的版权归属与法律责任，将在未来几年引发旷日持久的法律战。

而对齐问题——如何确保越来越强大的系统持续符合人类价值观——已从哲学假设变为工程现实。当一个Agent可以自主完成软件工程师一整天的工作时，它的目标和我们的目标一致吗？当多个Agent相互协作时，谁来负责监督整个系统的行为？这些问题没有简单的答案，但它们的重要性，正在以指数速度追赶技术本身的进步速度。

也许，计算机与AI八十年历程最深刻的教训，不在于任何单一的技术突破，而在于一种认知模式的反复上演：人类总是高估短期进展，低估长期影响。 1950年代的先驱们以为十年就能造出通用智能；我们花了七十年，才造出一个能流利对话但偶尔还会胡言乱语的系统。再过七十年，我们会造出什么？

也许那个问题，已经不只是工程师的问题了。

我们每一个人都活在这段历史里——不只是旁观者，而是参与者。你今天与AI的每一次对话，都在悄悄参与一场人类从未经历过的演化实验。

螺旋仍在上升。这一次，它转向何方，也取决于我们。

本文数据截止至2026年4月。AI领域更新速度极快，部分内容可能已有新进展。

一、1940年代：当数学家开始做梦#

二、1950年代：当"人工智能"获得姓名#

三、1960年代：黄金时代的光与影#

四、1970年代：第一个冬天降临#

五、1980年代：从狂热到幻灭的过山车#

六、1990年代：互联网改写游戏规则#

七、2000年代：三条河流的汇聚#

八、2010年代：深度学习引爆奇点#

九、2020年代：当AI学会说话，然后学会行动#

从"对话"到"行动"：Agent时代的到来#

最新的战场：2025-2026的模型竞赛#

十、不会停止的螺旋——一点哲思与展望#