你是否想过,一辆能像人一样“思考”和“决策”的自动驾驶汽车,其核心奥秘究竟是什么?就在6月6日,答案迎来重大突破——清华大学智能产业研究院(AIR)与百度联合发布了全球首个支持实车部署的开源端到端自动驾驶系统AIR ApolloFM。这不仅是技术的发布,更是一次行业空白的填补,它一举解决了现有开源系统“能端到端不能上车”或“能上车非端到端”的致命矛盾。
清华大学智能产业研究院(AIR)首席专家陈亦伦亲自为我们深入解读了这项里程碑式的技术,从演进脉络、核心痛点、设计理念到实车表现,全景式ApolloFM如何为自动驾驶开启全新范式。
以下为技术解读全文:
自动驾驶演进:从“规则编排”到“AI涌现”
自动驾驶技术的发展,本质是算法栈的智能化演进。其核心可分为三部分:感知目标与障碍物、理解道路结构、以及最终的决策规划。

早期系统依赖大量人工规则与昂贵传感器(如激光雷达),如同被设定好路线的“扫地机器人”,能力局限且成本高昂。2015年后,深度学习让AI学会了“看”,降低了感知成本。2020年后,AI进一步学会了“认路”,减少了对高清地图的依赖。决策规划的“大脑”仍由复杂代码规则驱动,迭代笨重,难以应对无穷的开放道路场景。
直到以特斯拉V12为代表的端到端大模型出现,行业终于看到曙光:一个统一的AI模型,有望替代过去割裂的感知、预测、规划模块,实现从输入到输出的“一气呵成”。自动驾驶的终极形态,必然是端到端的AI化。
当代核心挑战:开集世界与AI决策的困境
迈向端到端,首先要解决两个根本性难题。
第一,世界模型需要“开集”进化。当前自动驾驶的“世界模型”是用有限的点、线、面来简化表达物理世界,这是一个“闭集”。但真实世界是无限的。AI需要能感知和理解万物(开集)的能力,而非仅限于预先定义的几十个类别。如何定义和构建“开集世界模型”的数据与真值,是首要挑战。

第二,AI决策规划如何训练与超越? 让AI的决策能力超越人类工程师精心打磨的规则,绝非暴力堆数据就能实现。

模仿学习面临“数据偏见”:路上多是安全行驶数据,危险的“反面教材”极少。强化学习则受困于“奖励函数”设计的难题。决策的本质是应对海量场景与智能体组合的稀疏样本分布,这要求AI必须具备真正的场景理解与推理能力,而非简单的模式记忆。

仿真器曾被寄予厚望,但其逼真度,尤其是在复杂行为生成上,仍是瓶颈。
新趋势与新思路:拥抱大模型,构建“汽车大脑”
当前主流方案仍基于2020年前的AI技术。而此后,大模型、多模态、生成式AI已掀起革命。ApolloFM的设计,正是为了融合这些前沿技术,攻克上述挑战。
设计思路:从“大脑”到“小脑”,安全与智能并重
我们的设计始于两个基本思考。

思考一:自动驾驶AI,必须是“强AI”。开放道路充满长尾挑战:未干的水泥地能否驶过?空中漂浮的塑料袋要不要躲?骑手伸腿是示意转向吗?处理这些需要深度的环境理解与常识推理,这已属于强人工智能范畴。一个能驾驭复杂交通的模型,本质上就是具身智能基础模型。
我们认为,这样的模型必须具备大语言模型(LLM)的三大能力:开集感知(词汇量无限)、常识内嵌、深度推理。我们将其定义为VLA(视觉-语言-动作)模型,它模拟人类“大脑”的深思熟虑,而非“小脑”的条件反射。
从VLA大模型蒸馏到VA小模型,是更可行的技术路径,正如人类先学习思考再形成肌肉记忆。
思考二:安全是工业产品的生命线。系统必须有实时、可解释的安全模块作为“底线”。

于是,ApolloFM架构诞生:一个实时安全的“4D全场景感知与规控”模块作为基础保障,再叠加一个从具身智能大模型蒸馏而来的端到端驾驶模型以提升上限。二者均源于同一个强大的“母模型”。其命名也由此而来:安全框架继承自开源 Apollo 工程,智能内核则来自基础模型(Foundation Model)。
核心模块:三级AI模型,灵活适配各类场景
ApolloFM的核心是三级AI模型架构。

1. 具身智能基础大模型(VLA):如同“母脑”,它是一个多模态大模型,输入所有传感器及地图信息,同时输出开集感知、场景描述和驾驶动作,真正实现“看懂、想通、开好”。
2. 4D全场景感知模型:从VLA蒸馏而来的实时感知“眼睛”,输出包含万物及其关系的开集世界模型,为安全兜底模块提供信息。

3. 端到端驾驶大模型(三种模式):提供灵活的部署选择。 - 模式一(实时VA):轻量“小脑”,算力要求低,实时运行,胜任多数场景。 - 模式二(端侧VLA+VA):“端侧大脑+小脑”组合,VLA提供强推理,处理复杂情况。 - 模式三(云端VLA加持):在模式二基础上接入“云端超级大脑”,能力上限最高,适合Robotaxi等对智能要求极高的场景。

上车实测:像人一样推理与决策
理论需经实践检验。研发团队基于量产传感器(1激光雷达+11摄像头)和NVIDIA Orin平台,将ApolloFM成功部署于实车。

实际路测中,ApolloFM展现了令人印象深刻的场景理解与泛化能力。它不仅能描述环境(如“红绿灯即将变色”“住宅区行人可能较多”),更能完成复杂推理决策。
例如,在车辆被遮挡区域,ApolloFM准确预测了前车掉头意图。其内部“思考链”清晰可循:定位关键目标→预测旁车汇入→评估“急刹”与“微避让”选项→选择最优策略并直接输出轨迹。整个过程由AI模型一体完成,无需人工规则干预。

系统还流畅处理了连续绕行工程车、夜间避让逆行者、人车混行路口等多种长尾场景。这些在传统架构中需大量规则雕琢的案例,如今被VLA模型及其蒸馏模型优雅解决。

未来与邀请
AIR ApolloFM的发布,为自动驾驶开源社区带来了全球首个可实车验证的端到端全栈方案。未来,团队将聚焦于更高效的数据生产方式、仿真与模型训练的协同、云边端协同等前沿探索。

这是一项庞大的系统工程,其成功也离不开众多高校开发者的贡献。我们诚挚邀请学术界与产业界对自动驾驶基础模型感兴趣的同行,携手共探未来!
相关问答
fm如何正确防守?
防守者应该在...同时,防守者应该密切关注对手的动作,以便及时做出反应.3.防守时机:防守者应该在对手准备进攻时立即采取行动,而不是等待对手进攻后再做出反...
ampmfm分别怎么样去调制?
(2)非线性调制:FM是频率调制(调频)是载波的频率随时间变化,PM是相位调制(调相)是载波的相位随时间变化,由于这两种调制过程中,载波的幅度保持恒定不变...数字...
FM2008内有什么出色的,技术好的边锋,强力中锋,中后卫和边卫,和中场?
我一直找这里找的。你去看看吧。。。都不错的边锋便宜的有本阿尔法强力中锋的话这网站里的卡多佐还不错中后卫推荐AndreaBarzagli,Felipe,Breno边位皇马的马...
如何提高网球接发球技术-PvtLaPq1fm8的回答-懂得
所人都有体会,发球是一项比较难的手很少能够这项技术,发出的球软弱无力,或者不够稳定,失误太多,根本不具威胁性.所以这些人在比赛时,无法在发...
足球总监有什么用?
足球总监或者叫技术总监一般都是国外大俱乐部才有.足球总监有以下主要工作:1、球员的续约转会以及外租2、以最经济实惠的价格购买到主教练喜欢的球员如果是...
LW,SW,分别表示()()(),FM指()_作业帮
物理的信息技术多波段收音机,选台的指示盘上面的英文字母MW,LW,SW,分别表示()()(),FM指()题目物理的信息技术答案解析解答一中波长波短波调频...
求推荐!!生产FM公司有哪些,FM服务质量高吗??_环保_天涯问答...
[回答]致力于甲醛相关产品的工艺和成套装置的研发、整合与技术提升,并积极利用自身优势开发甲醛下游产品.熙源工程不仅为客户提供工艺包(授权使用)和专用...
帮个忙诸位前辈楼主请问:衢州专业生产FM产品质量好,FMxxx...
[回答]生产能力可以达到40万吨/年,结束了大型铁钼法甲醛装置不能国产化的局面.在我们业界看来,无锡熙源售后一直表现优秀,我身边的同行都表示很看...在...
汽车遥控电池型号怎么看-汽车维修技术网
[回答]汽车钥匙电池不是通用的电池上面都有型号的,汽车的电池大概有十种左右.汽车钥匙电池不是通用的电池上面都有型号的,要看电池上面的编号,比较常用...
麻烦行家们谁能给我说一下常州FM报价,FM服务体验如何??_环...
[回答]FM105.9现用于播出辽宁都市广播的节目,与FM92.1同步播出.FM105.6是沈阳市苏家屯区广播电视台的经典音乐调频,其呼号为“经典1056,沈阳上空最美的声...


