无人驾驶--第九届毫末AI DAY如期而至顾维灏提出大模型重塑汽车智能化技术路线新方案--其乐融融的IT技术小站

2023年10月11日，北京金秋时节，第九届HAOMO AI DAY如期而至。本届HAOMO AI DAY以 "BETTER AI，BETTER HAOMO"为主题。

毫末重磅发布三款“极致性价比”千元级无图NOH，全面满足高中低价位智驾车型量产需求；毫末发布的行业首个自动驾驶生成式大模型DriveGPT雪湖·海若公布最新成果：共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4D Clips数据；进一步升级引入多模态大模型，获得识别万物的能力；与NeRF技术进一步整合，渲染重建4D空间；借助LLM（大语言模型），让自动驾驶认知决策具备了世界知识。

产品层面，搭载毫末城市NOH功能的魏牌蓝山将在2024年第一季度正式量产上市；小魔驼即将在2023年第四季度在商超履约配送场景实现盈利。

（毫末董事长张凯重磅发布三款“极致性价比”千元级HPilot产品）

成立近四年时间，毫末始终引领中国自动驾驶技术风向标，HAOMO AI DAY更成为中国自动驾驶技术的一面旗帜。毫末率先在行业布局大模型、大数据、大算力技术发展方向，冲刺自动驾驶3.0时代。

（毫末CEO顾维灏公布DriveGPT发布200天重要成果）

毫末董事长张凯表示：“毫末一直在全力以赴投入到AI自动驾驶的技术浪潮中，毫末坚持的渐进式路线与对技术投入的长期主义，让毫末模式成为中国自动驾驶发展的新范式。”

（从左至右：毫末智行COO侯军、董事长张凯、CEO顾维灏、CIO甄龙豹）

重磅发布三款千元级HPilot产品，以“极致性价比”抢占智驾市场

“2023年我国高阶智能辅助驾驶市场迎来大爆发。”活动现场，张凯以《BETTER AI，BETTER HAOMO》为主题，分享了对2023年智驾市场竞争局势的判断，以及毫末四大战役的最新进展。

（张凯介绍2023年中国高阶智能辅助驾驶市场迎来大爆发）

张凯介绍，目前乘用车销量和智能化指数都在稳步提升，同时智能驾驶渗入率与价格却呈反向增长，乘用车市场L2及以上智能驾驶渗入率达42.4%，2025年将达70%，并普及到10-20万的主销车型上；城市NOA迎来量产上车潮，目前占L2及以上辅助驾驶份额的17%，2025年将达70%；行泊分体的硬件设计、一体机逐步退出市场，更具性价比的行泊一体的域控方案将成为主流。

为了迎战智驾市场的变化，现场，毫末重磅发布了HP170、HP370、HP570三款“极致性价比”智能辅助驾驶产品，预计将在2023年和2024年先后上车。

（重磅发布三款千元级HPilot产品）

张凯表示：“毫末全新发布的第二代HPilot乘用车辅助驾驶三款产品，价格打下来的同时性能都打了上去，让中阶智驾便宜更好用，让高阶智驾好用更便宜。”这也是2023年，毫末给中国如此“卷”的智驾市场交出的答卷。

毫末HP170是3000元级“极致性价比”的高速无图NOH，可以实现行泊一体智驾。硬件配置上，算力5TOPS，传感器方案标配1个前视相机、4个鱼眼相机、2个后角雷达、12个超声波雷达，灵活选装1个前视雷达和2个前角雷达。

场景上，可实现高速、城市快速路上的无图NOH，短距离记忆泊车等功能，并获E-NCAP 5星AEB的高安全标准认证。

（毫末HP170）

毫末HP370是5000元级“极致性价比”的城市记忆行车与记忆泊车，可以实现行泊一体智驾。硬件配置上，算力32TOPS，传感器方案标配2个前视相机、2个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、2个后角雷达、12个超声波雷达，灵活选装2个前角雷达。

场景上，可实现高速、城快，以及城市内的记忆行车，免教学记忆泊车、智能绕障等功能。张凯表示：“毫末的记忆行车可看作毫末城市NOH的最小集，是城市NOH的强有力补充。”

（毫末HP370）

毫末HP570是8000元级“极致性价比”的城市全场景无图NOH产品，未来将在100+城落地。硬件配置上，算力可选72TOPS和100TOPS两款芯片，传感器方案标配2个前视相机、4个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、12个超声波雷达，还支持选配1颗激光雷达。

场景上，可实现城市无图NOH、全场景辅助泊车、全场景智能绕障、跨层免教学记忆泊车等功能。张凯强调：“HP570平台的历史使命是打造行业内最具性价比的高阶城市智驾产品。”

（毫末HP570）

发布新产品的同时，张凯介绍了毫末2023年四大战役的最新成果。首先是“智能驾驶装机量王者之战”，在中国的自动驾驶公司中，毫末稳居中国量产自动驾驶第一名，辅助驾驶产品HPilot整体已搭载至超过20款车型，用户辅助驾驶行驶里程突破8700万公里。

其中，最新搭载毫末HPilot的车型为山海炮HEV版、新摩卡Hi-4S等。

（毫末HPilot整体已搭载超过20款车型）

其次是“MANA大模型巅峰之战”，DriveGPT发布200天左右的时间里，累积480万段Clips高质量测试。目前已有生态伙伴17家，助力生态伙伴提效90%。

2023年DriveGPT成功入选“北京市通用人工智能产业创新伙伴计划”成为首批模型伙伴观察员及入选北京市首批人工智能10个行业大模型应用案例。此外，DriveGPT还助力毫末荣获2023中国AI基础大模型创新企业的称号。

（DriveGPT发布200天的蝶变生长）

第三是“城市NOH百城大战”，具备城市NOH导航辅助驾驶功能的毫末HP550（原HPilot3.0），将搭载魏牌蓝山在2024年第一季度正式量产上市。

现场，张凯和顾维灏首次公开测试搭载HP550的城市NOH的魏牌蓝山视频曝光，在保定闹市区全程12公里的行驶中，历时35分钟，手动接管3次。其中包含21个红绿灯，7个路口转向……重感知路线的毫末城市NOH展现出出色性能，尤其是面对拥堵道路、红绿灯交替以及非机混行等复杂场景，处理得非常自然，产品力行业领先。

（HP550将搭载魏牌蓝山在2024年第一季度正式量产上市）

最后是“末端物流自动配送商业之战”，末端物流自动配送车小魔驼3.0，售价89999元，是全球首款9万元内中型末端物流自动配送车，可以满足在物流、商超、零售等9大场景的需求，小魔驼3.0产品推出在中国无人车规模化商用的行业进程中具有里程碑式的意义。

目前，小魔驼已配送超过22万单。小魔驼即将在2023年第四季度在商超履约配送场景实现盈利。从商业意义上，毫末具备了成为全球范围内首家拥有规模化盈利 L4业务公司的能力。

（毫末小魔驼3.0亮相）

演讲中张凯还介绍毫末总部已落户北京市顺义区，毫末将充分发挥在自动驾驶领域的技术和产业优势，助力顺义打造中国新能源智能汽车产业高地。

DriveGPT雪湖·海若200天蝶变：通用感知实现“万物识别”、通用认知具备世界知识

历届HAOMO AI DAY的核心主题都是聚焦最硬核的自动驾驶AI技术。此次，顾维灏带来了主题为《自动驾驶3.0时代：大模型将重塑汽车智能化的技术路线》的演讲，分享了毫末对于自动驾驶3.0时代AI开发模式的思考以及毫末DriveGPT大模型的最新进展和实践。

顾维灏认为，自动驾驶3.0时代与2.0时代相比，其开发模式和技术框架都将发生颠覆性的变革。在自动驾驶2.0时代，以小数据、小模型为特征，以Case任务驱动为开发模式。而自动驾驶3.0时代，以大数据、大模型为特征，以数据驱动为开发模式。

（毫末提出的自动驾驶3.0时代的技术架构演进趋势）

相比2.0时代主要采用传统模块化框架，3.0时代的技术框架会发生颠覆性变化。首先，自动驾驶会在云端实现感知大模型和认知大模型的能力突破，并将车端各类小模型逐步统一为感知模型和认知模型，同时将控制模块也AI模型化。

随后，车端智驾系统的演进路线也是一方面会逐步全链路模型化，另一方面是逐步大模型化，即小模型逐渐统一到大模型内。然后，云端大模型也可以通过剪枝、蒸馏等方式逐步提升车端的感知能力，甚至在通讯环境比较好的地方，大模型甚至可以通过车云协同的方式实现远程控车。最后，在未来车端、云端都是端到端的自动驾驶大模型。

顾维灏还详细介绍了毫末DriveGPT大模型在推出200天后的整体进展。首先是DriveGPT训练数据规模提升。截止2023年10月DriveGPT雪湖·海若共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4D Clips数据。

其次是通用感知能力提升，DriveGPT通过引入多模态大模型，实现文、图、视频多模态信息的整合，获得识别万物的能力；同时，通过与NeRF技术整合，DriveGPT实现更强的4D空间重建能力，获得对三维空间和时序的全面建模能力；最后是通用认知能力提升，借助大语言模型，DriveGPT将世界知识引入到驾驶策略中。

顾维灏认为，未来的自动驾驶系统一定是跟人类驾驶员一样，不但具备对三维空间的精确感知测量能力，而且能够像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识，并且能基于这些人类社会的经验来做出更好的驾驶策略，真正实现完全无人驾驶。

毫末DriveGPT是如何具备识别万物的通用感知能力，以及拥有世界知识的通用认知能力？顾维灏也给出了详尽解释。

（毫末DriveGPT升级：大模型让自动驾驶拥有世界知识）

在感知阶段，DriveGPT首先通过构建视觉感知大模型来实现对真实物理世界的学习，将真实世界建模到三维空间，再加上时序形成4D向量空间；然后，在构建对真实物理世界的4D感知基础上，毫末进一步引入开源的图文多模态大模型，构建更为通用的语义感知大模型，实现文、图、视频多模态信息的整合，从而完成4D向量空间到语义空间的对齐，实现跟人类一样的“识别万物”的能力。

（毫末DriveGPT通用感知大模型：让自动驾驶认识万物）

毫末通用感知能力的进化升级包含两个方面。首先是视觉大模型的CV Backbone的持续进化，当前基于大规模数据的自监督学习训练范式，采用Transformer大模型架构，实现视频生成的方式来进行训练，构建包含三维的几何结构、图片纹理、时序信息等信息的4D表征空间，实现对全面的物理世界的感知和预测。

其次是构建起更基础的通用语义感知大模型，在视觉大模型基础上引入图文多模态模型来提升感知效果，图文多模态模型可以对齐自然语言信息和图片的视觉信息，在自动驾驶场景中就可以对齐视觉和语言的特征空间，从而具备识别万物的能力，也由此可以更好完成目标检测、目标跟踪、深度预测等各类任务。

在认知阶段，基于通用语义感知大模型提供的“万物识别”能力，DriveGPT通过构建驾驶语言（Drive Language）来描述驾驶环境和驾驶意图，再结合导航引导信息以及自车历史动作，并借助外部大语言模型LLM的海量知识来辅助给出驾驶决策。

（毫末DriveGPT认知大模型：让自动驾驶具备常识）

由于大语言模型已经学习到并压缩了人类社会的全部知识，因而也就包含了驾驶相关的知识。经过毫末对大语言模型的专门训练和微调，从而让大语言模型更好地适配自动驾驶任务，使得大语言模型能真正看懂驾驶环境、解释驾驶行为，做出驾驶决策。认知大模型通过与大语言模型结合，使得自动驾驶认知决策获得了人类社会的常识和推理能力，也就是获得了世界知识，从而提升自动驾驶策略的可解释性和泛化性。

（毫末DriveGPT应用的七大实践）

在分享了最新DriveGPT大模型技术框架后，顾维灏随后也给出了毫末基于DriveGPT大模型开发模式的七大应用实践，包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移、驾驶行为解释、驾驶环境预测和车端模型开发。

其中，在驾驶行为解释方面，毫末DriveGPT在原有结合场景库及人工标注方式来对驾驶行为进行解释的基础上，升级为引入大语言模型来解释驾驶环境，让AI自己解释自己的驾驶决策。

接下来，毫末会持续通过构建自动驾驶描述数据，来对大语言模型进行微调，让大语言模型能够像驾校教练或者陪练一样，对驾驶行为做出更详细的解释。

（驾驶行为解释：透视AI的思考过程）

驾驶环境预测方面，毫末DriveGPT原来基于海量人驾数据预训练和接管数据的反馈强化学习来完成未来BEV场景的预测生成，现在则在此基础上，进一步通过引入大语言模型，在使用驾驶行为数据的同时，让大语言模型对当前的驾驶环境给出解释和驾驶建议，然后再将驾驶解释和驾驶建议作为prompt输入到生成式大模型，来让自动驾驶大模型获得外部大语言模型内的人类知识，从而具备常识，才能理解人类社会的各种明规则、潜规则，才能跟老司机一样，预测未来最有可能出现的驾驶场景，从而与各类障碍物进行更好地交互。

（驾驶环境预测：生成未来世界）

车端模型开发模式变革方面，毫末正在尝试用蒸馏的方法，也就是用大模型输出的伪标签作为监督信号，让车端小模型来学习云端大模型的预测结果，或者通过对齐Feature Map的方式，让车端小模型直接学习并对齐云端的Feature Map，从而提升车端小模型的能力。基于蒸馏的方式，可以让车端的感知效果提升五个百分点。

（车端模型开发新模式：把大模型蒸馏成小模型）

此外，毫末DriveGPT的驾驶场景理解可以对海量驾驶场景数据进行秒级特征搜索，从而实现更高效的数据筛选，为大模型挖掘海量高质量训练数据；驾驶场景标注是采用了开集（Open-set）场景下的Zero-Shot自动标注，可实现对任意物体既快速又精准的标注，不仅可实现针对新品类的Zero-Shot快速标注，而且精度还非常高，预标注准召达到80%以上；驾驶场景生成，可以基于驾驶场景的文生图模型，通过文字描述批量生成平时难以获取的Hardcase数据，实现无中生有的可控生成；对于驾驶场景迁移，基于AIGC生成能力，可实现多目标场景生成，能将采集到的一个场景，迁移到该场景的不同时间、不同天气、不同光照等各类新场景下，可同时获取全天候驾驶数据，实现瞬息万变的高效场景迁移。

现场，顾维灏还给出了DriveGPT赋能车端的三大测试成果：

第一个是毫末纯视觉自动泊车测试成果。毫末利用视觉感知模型，使用鱼眼相机可以识别墙、柱子、车辆等各类型的边界轮廓，形成360度的全视野动态感知，可以做到在15米范围内达到30cm的测量精度，2米内精度可以高于10cm。这样的精度可实现用视觉取代USS超声波雷达，从而进一步降低整体智驾方案成本。

（毫末纯视觉泊车）

第二个是毫末对交通场景全要素识别测试成果。DriveGPT基于通用感知的万物识别的能力，从原有感知模型只能识别少数几类障碍物和车道线，到现在可以识别各类交通标志、地面箭头、甚至井盖等交通场景的全要素数据。大量高质量的道路场景全要素标注数据，可以有效帮助毫末重感知的车端感知模型实现效果的提升，助力城市NOH的加速进城。

（城市NOH全要素覆盖）

第三个是毫末城市NOH对小目标障碍物检测的测试成果。毫末在当前城市NOH的测试中，可以在城市道路场景中，在时速最高70公里的50米距离外，就能检测到大概高度为35cm的小目标障碍物，可以做到100%的成功绕障或刹停，这样可以对道路上穿行的小动物等移动障碍物起到很好地检测保护作用。

（毫末城市NOH小目标障碍物检测）

顾维灏也提到，毫末DriveGPT大模型的应用，在自动驾驶系统开发过程中带来了巨大技术提升，使得毫末的自动驾驶系统开发彻底进入了全新模式，新开发模式和技术架构将大大加速汽车智能化的进化进程。

全球顶尖产学研重磅嘉宾助阵，毫末生态伙伴已达近百家

本届HAOMO AI DAY再度齐聚自动驾驶领域超豪华嘉宾阵容。中国工程院院士、清华大学教授、清华智能产业研究院（AIR）院长张亚勤；清华大学车辆与运载学院副院长、长聘教授、博士生导师李升波发表主题演讲；合众新能源汽车CTO戴大力；中汽创智智能驾驶CTO张振林；美团自动车研发总监穆北鹏；达达快送产品与规划负责人郭瑜；火山引擎汽车行业总经理杨立伟；车云网&电动邦创始人、CEO程里等产业领军人物出席第九届HAOMO AI DAY尖峰对话环节，围绕“2023自动驾驶：乘风大模型，创造新范式”展开讨论。

（尖峰对话——2023自动驾驶：乘风大模型，创造新范式）

张亚勤发表了题为《Big Model, Generative Al and Intelligent Driving》的主题演讲，他表示：“AI大模型带来了从判别式AI到生成式AI的新技术范式变革，清华AIR正在利用生成式AI来构建自动驾驶仿真平台以及Real2Sim2Real基础模型平台。同时，清华AIR与毫末智行在数据驱动决策优化方向展开深入探索，共同推动全方位、多层次的产学研深度合作，加速AI技术在自动驾驶领域的落地应用。”