当前位置：首页 > 数码 > 揭秘-之外的美国大模型-ChatGPT-探索最新进展和创新 (之外的意思)

揭秘-之外的美国大模型-ChatGPT-探索最新进展和创新 (之外的意思)

admin12个月前 (04-14)数码51

年初以来，OpenAI以ChatGPT在全球掀起AI大模型热潮。但美国的AI大模型，远不止于OpenAI的ChatGPT。

美国大模型发布数量遥遥领先

综合各种数据，虽然中国发展势头迅猛，但美国依然是全球发布大模型最多的国家。到2023年5月，其10亿级参数规模以上的基础大模型就已突破100个。根据《经济学人》报道，美国2022年大模型投资总额达474亿美元，是第二名中国（134亿美元）的约3.5倍，且仍保持激增态势。

高盛则进一步预测，美国2025年大模型相关投资可达千亿美元，约全球的1/2。高盛的调查显示，罗素3000指数公司中有16%的公司在2023年的财报会议中提到了大模型，其经济学家估计，大模型将在十年内提高1%的整体劳动生产率，并为标普500指数带来约14%的增长。

美国具有代表性的通用大模型公司

除了ChatGPT，美国如今具有代表性的通用大模型公司还包括：Anthropic、Cohere以及等。

Anthropic

由OpenAI前高管Dario和Daniela Amodei等人于2021年自立门户创办的Anthropic，目前估值已达300亿美元，是仅次于OpenAI（约860亿美元估值）的通用大模型企业。Anthropic拥有多位参与过GPT-2与GPT-3研发的前OpenAI核心员工，其大模型产品Claude 2也被认为是仅次于ChatGPT的经典力作，甚至有分析师认为，Claude 2的性能优于ChatGPT-4。

比如，Claude 2可以处理多达约75000个单词的数据集，而ChatGPT大约是3000个，这意味着它可以处理和输出更复杂的内容，也被应用到更有挑战性的领域，比如生成数千字的长文内容。更让Claude 2积攒人气的是，它直接免费向公众开放，而不是像GPT-4一样需要付费使用。

优秀的创始团队和强大的产品性能，让Anthropic备受资本追捧，谷歌、韩国最大移动运营商之一SKTelecom（SKT）、亚马逊都已成为其投资者，其中仅亚马逊的投资就高达40亿美元。

Cohere

在Anthropic之外，还有一家令人称道的公司便是Cohere。今年6月，2019年创立的Cohere获得NVIDIA、Oracle、Salesforce Ventures等投资的2.7亿美元，成为估值20亿美元的独角兽，也是估值仅次于OpenAI和Anthropic的基础大模型公司。

Cohere同样以强大创始团队备受业内瞩目，其创始人之一Aidan Gomez是大语言模型领域开创性本文《Attention is All You Need》的最年轻作者，正是文章首次提出了著名的Transformer架构，成为通用大模型发展的基础模型，ChatGPT就是在这一架构的基础上诞生。

Cohere与OpenAI提供的产品类似，但它看到了数据隐私这个市场机会，将自己与OpenAI的定位区分开来，选择了ToB赛道，坚定地走商用大模型的路线。其产品基础能力包括三大类：文本检索，文本生成和文本分类，并且可针对客户需求，强调安全性，隐私以及定制化服务。Cohere的另一大卖点是，不受任何云端平台限制，进而保障资料的私密安全性。它提供灵活性存储和资料隐私保护路径，可使用户实现本地部署，以满足客户资料存储不同位置的需求。

Cohere能迅速转向，找到自己的差异化定位，离不开Aidan及其联合创始人独特的人才观和创业哲学。Aidan曾表示，Cohere寻找不同背景但对AI非常感兴趣并富有雄心的人：他不一定有大公司的漂亮履历，但是一定要对自己专注的领域有非常高的兴趣和热情，而且不光会写本文，还要有实际动手的能力。

差异化的产品战略，与众不同的团队背景，让Cohere成为通用大模型领域的一股清流。日前，Cohere发布了全球首个公开可用的多语言理解模型。

总结

美国在AI大模型领域占据着领先地位，拥有OpenAI、Anthropic、Cohere等具有代表性的公司。这些公司在产品性能、团队背景、市场定位等方面各有优势，推动着全球AI大模型的发展。

自动驾驶革命：解密端到端背后的数据、算力和AI奇迹

作者|毫末智行数据智能科学家贺翔

编辑|祥威

最近，特斯拉FSD V12的发布引发了业界对端到端自动驾驶的热议，业界纷纷猜测FSD V12的强大能力是如何训练出来的。从马斯克的测试视频可以大致归纳一下FSD V12系统的一些核心特征：

这些特征如此炫酷，引领着自动驾驶技术风向。那么究竟什么是端到端自动驾驶，如何实现端到端自动驾驶呢？笔者作为自动驾驶领域的从业人员，将从实战应用的角度出发，探讨端到端如何落地。

一、自动驾驶的传统做法

从第一性原理来讲，自动驾驶就是一个序列到序列的映射过程，输入的是一个传感器信号序列，可能包括多个摄像头采集到的视频、Lidar采集到的点云、以及GPS、IMU等各类信息，输出的是一个驾驶决策序列，例如可以是驾驶动作序列、也可以输出轨迹序列再转为操作动作。

这个过程与大部分AI任务基本一致，这种映射过程就相当于一个函数 y = f(x)。但是实现这种函数往往难度比较大、任务极其复杂，对于这种复杂的任务，一般可以通过2类方式来解决：

传统分治法

分治法是将自动驾驶任务进行切分，定义多个子任务，每个子任务负责解决驾驶过程的某些特定问题，再进行系统集成来完成整个自动驾驶任务。传统上，这些子任务包括：

以网络的Apollo为例，整体系统架构如图所示，可见，要完成复杂的自动驾驶任务，需要先完成大量相对简单的子任务，这些子任务可以先进行独立开发测试，然后再将这些子任务集成到一个系统里进行验证。这种方式通过把复杂的任务切分、简化、分而治之，大幅度降低了系统开发难度，同时可以针对每个模块都的输入输出进行白盒化分析，系统具备很好的可解释性，这对自动驾驶而言至关重要，一旦发生事故，必须要进行深入分析，找到原因。

但是，这种方式也有明显的弊端，例如模块太多、集成困难、错误累加等等，同时由于系统设计时引入了太多的人为先验经验，导致自动驾驶能力上限比较低，系统的泛化性比较差，对于没有见过的场景往往无法处理。

二、「端到端」技术兴起

相比之下，端到端自动驾驶不进行任务切分，希望直接输入传感器数据、输出驾驶决策（动作或者轨迹），从而抛弃传统自动驾驶里的感知、预测、规划、控制等各类子任务。这种方式有明显的优势，例如：

一个典型的端到端自动驾驶系统如图所示：

输入：大部分自动驾驶汽车都装载了相机、Lidar、毫米波雷达等各类传感器，采集这些传感器的数据，输入深度学习系统即可。

输出: 可以直接输出转向角、油门、刹车等控制信号，也可以先输出轨迹再结合不同的车辆动力学模型，将轨迹转为转向角、油门、刹车等控制信号。

可见，端到端自动驾驶系统就像人类的大脑，通过眼睛、耳朵等传感器接受信息，经过大脑处理后，下达指令给手脚执行命令，整个系统简单的都没啥可介绍的……。但是这种简单也隐藏了巨大的风险，例如可解释性很差，无法像传统自动驾驶任务一样将中间结果拿出来进行分析；对数据的要求非常高，需要高质量的、分布多样的、海量的训练数据，否则AI就会实现废品进废品出。

与传统的自动驾驶方式对比可见，同样的输入、同样的输出，传统自动驾驶包含多个任务（多个模块），但是端到端只有一个任务。此处容易产生一个误区，即认为传统的自动驾驶是多模块的、端到端自动驾驶是单模块的，把分模块与分任务的概念搞混了。

传统的自动驾驶是分任务的，必然是多个模块。端到端自动驾驶可以用单模块来实现，当然也可以用多模块来实现，其区别在于是否端到端训练。分任务系统是每个任务独立训练、独立优化、独立测评的，而端到端系统是把所有模块看成一个整体进行端到端训练、端到端测评的。

例如2023年CVPR best paper提出的UniAD就是一种分模块端到端训练方式，这种方式通过端到端训练避免了多任务训练的融合难题实现全局最优，又保留了分模块系统的优势、可以抛出中间模块的结果进行白盒化分析，反而更具灵活性对部署也更友好，如图所示：

分任务的自动驾驶系统更像model centric系统，开发者通过不断优化各个模型来提升各个任务的效果。而端到端自动驾驶则更像data centric系统，通过对数据的调优来提升系统效果。

早年，由于自动驾驶积累的数据还非常少，端到端系统的效果往往比较差。最近几年，随着带高阶辅助驾驶功能的量产车大规模落地，通过海量量产车可以采集到丰富的驾驶数据，覆盖各类场景，再加上最近几年AI算力的蓬勃发展，端到端自动驾驶在海量数据、海量算力的加持下，取得了突破性进展。

以特斯拉为例，通过遍布全球的几百万辆量产车，可以采集到足够丰富、足够多样的数据，再从中选出优质数据，在云端使用数万张GPU、以及自研的DOJO进行训练和验证，使得端到端自动驾驶能够从paper变成product。

到 2023 年初，特斯拉就声称已经分析了从特斯拉客户的汽车中收集的 1000 万个视频片段（clips），特斯拉判断完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips才能正常工作。

特斯拉通过分布在全球的几百万量产车，基于影子模式，每当自动驾驶决策与人类司机不一致时，就会采集并回传一个clip，已经累积了200P以上的数据，不管是数据规模、数据分布还是数据质量上都遥遥领先。为了能在云端处理这些数据，当前特斯拉拥有近10万张A100，位居全球top5，预计到今年底会拥有100EFlops的算力，并针对自动驾驶自研了Dojo，在算力上同样遥遥领先。

在2022年，毫末智行也开始了对端到端自动驾驶以及自动驾驶大模型的探索，走过了一条从看图说话到完型填空到写小作文的道路。

最早，毫末将端到端自动驾驶简单地定义为一个看图说话任务，希望输入一串图片、输出一串驾驶决策，这种方式与机器翻译输入一串中文输出一串英文非常类似，所以可以选择端到端的序列模型，通过对输入图片进行编码，再解码输出驾驶决策。

但是训练之后，发现难以找到足够的数据来训练模型，因为手里采集到的数据绝大部分驾驶行为都是雷同的，例如大部分都是直行，能用的数据不到2%。虽然项目效果未达预期，但是训练过程发现端到端训练需要消耗大量的算力，于是又开始着手解决算力问题，并且在2022年底跟火山引擎合作落地了业界领先的智算中心，等2023年大模型爆发再加上美国的制裁，算力市场已经一卡难求了，这也算一个意外收获。

三、端到端自动驾驶的挑战

从特斯拉的开发经验来看，端到端自动驾驶真不是一般的企业能玩的，其所需的数据规模、算力规模远远超出国内企业的承受能力。除了成本高昂，端到端自动驾驶的技术难度也非常高，想要从实现从paper到product落地，相当于跨越从二踢脚到登月的难度。

端到端训练首先需要解决数据问题。早年自动驾驶企业大多依赖采集车采集数据，这种数据是不真实的、分布有偏的、低质量的，只能做个demo，难以进行大规模端到端训练。最近几年，随着量产车的规模化落地，业界很多公司都开始转向采用量产车通过影子模式采集数据，但这种模式依然面临艰巨的挑战。首先是采集策略问题，即如何平衡数据的长尾问题（有效性）和数据的规模问题（成本），如果采集策略比较宽松，我们往往发现采集回来的数据大部分是废品数据，根本没有使用价值，如果采集策略过于严格，又担心丢失大量有价值的数据。其次是数据的质量问题，如何定义数据质量是个艰巨的产品问题，如何精准地挑选出高质量的数据又是一个复杂的技术问题。然后是数据分布问题，如何从海量clips中提取有效的特征、如何统计数据的分布、应该考虑哪些维度，都需要大量的工作。对大部分自动驾驶企业，还会面临严重的数据泛化问题，因为不同的车型传感器配置差异巨大，采集的数据往往难以复用，而国内车企普遍车型众多，最后很可能是采了一堆数据放在那没法使用，看起来是数据资产，其实都是存储成本。毫不夸张地说，数据会占据端到端自动驾驶开发中80%以上的研发成本。

在美国多轮制裁之下，国内采购GPU难上加难，大部分企业手里拥有的算力资源非常有限，拥有超过1000张A100的企业寥寥无几，甚至全国加起来都没有特斯拉一家企业多。如何在算力受限的情况下，进行端到端自动驾驶的研发，是一个值得深入讨论的问题。

即使有了数据、有了算力，如何设计合适的自动驾驶算法来进行端到端训练，依然没有统一的答案。业界做过很多的尝试，包括模仿学习、强化学习等等。模仿学习是模仿人类专家的行为，从中学习最优策略，例如可以挑选一批高质量的驾驶行为数据来训练模型。强化学习则是通过与环境的交互和奖罚不断试错进行学习，可以设定一个奖励机制，例如更少的碰撞、更高的效率等，在仿真环境里进行大规模试错。

端到端自动驾驶的评估也是一个十分困难的问题。自动驾驶测评分为2类：闭环评估和开环评估，主要区别在于闭环评估可以接受到反馈信号从而形成反馈闭环。开环评估可以对不同的任务通过输入输出来进行评估，例如单独评估感知、预测、规划的效果，并与真实数据或者标注数据进行对比，传统的自动驾驶可以通过开环评估迭代。而端到端自动驾驶则难以进行开环评估，甚至也有人认为开环评估的端到端自动驾驶根本没有意义。闭环评估一般通过在仿真引擎构建的虚拟世界里建立反馈闭环，但是仿真不真是业界一大难题，很难推广到现实世界中的各种场景。例如在接近大货车时，即使自动驾驶能完美地通过，乘客往往也会有严重的恐慌心理，这种心理很难模拟。而如果采用实车闭环测评，一方面测评成本太高，另一方面危险场景的hard case使用实车测评危险太大。

如前文所述，可解释性是端到端自动驾驶的一个弱点。尤其是对于单模块端到端自动驾驶模型，实现可解释性极为困难，虽然可以将注意力权重可视化来提供部分解释性，但可靠性和实用性仍然十分有限，难以对事故、售后定责等问题给出有效的证据。对于分模块的端到端系统，虽然可以将中间结果抛出以提供更多的信息，但是这种信息往往是神经网络的隐层特征，跟直观的、真实的证据链还是有一定的差距，难以跟客户解释清楚。

终于在云端完成了端到端自动驾驶的训练了，仿真效果也很好，最后是如何把这套系统搬到车上并且高效的运行。云端系统为了处理数以百万计的clips，一般都采用复杂的网络结构、巨大的网络参数（高达10亿甚至更多），再用成千上万张A100进行训练。但是车端往往只有非常低的算力、非常低的功耗，却要求极高的帧率（每秒处理的图片数量）、极低的延迟，这导致端到端自动驾驶上车十分困难，只有经过大规模的量化剪枝等提效手段之后才有可能。

这些最难的部分，特斯拉还没公开谈过是如何解决的。今年的特斯拉AI Day，大家可以期待一下特斯拉的端到端如何破解以上难题。在这之前，笔者谈一下毫末是如何做的。

四、自动驾驶端到端的探索

为了降低训练难度，毫末考虑将端到端大模型进行拆分，分为2个阶段，一个阶段解决感知问题（看懂世界），一个阶段解决认知问题（驾驶决策），这样做的好处有2个：

在感知阶段，主要任务是把视觉信号转为感知结果，可以利用海量的带高清视频的采集数据和量产车回传的各类corner case视频来训练。而在认知阶段，则根据感知结果来进行驾驶决策，不需要输入视频，只需要输入感知结果和驾驶行为即可，这种数据可以通过量产车进行大规模定向采集。通过这种拆解，既降低了任务的难度，又能充分利用不同的数据。

对于感知大模型，毫末从第一性原理出发，认为要实现端到端自动驾驶，感知就必须跟人类一样，同时具备识别二维纹理和三维结构、认识万物这三个条件，并且最好是纯视觉的。基于这样的原则，我们建立了自监督感知大模型，将车载摄像头的二维视频数据进行编码，然后通过NeRF渲染来预测视频的下一帧图像，构建了4D特征空间。再通过多模态技术将视觉信号与文本信号对齐，实现识别万物。

对于认知大模型，输入的是感知结果、输出的是驾驶决策，由于感知结果和驾驶决策都是结构化文本，其处理的都是文本符号，我们自然而然地想到了引入NLP相关的技术。

在2023年之前，BERT模型在互联网领域取得了非常成功的应用，于是我们尝试将BERT类的掩码模型引入自动驾驶认知模型，通过量产车回传海量的数据对。这样输入历史10秒的、再用掩码盖住未来几秒的司机驾驶动作，然后让模型来预测驾驶动作，如果模型预测对了，就说明模型学会了开车，我们称之为完形填空。

但是训练效果并没有达到预期，分析后发现，与NLP任务完全不同，NLP通过mask部分单词，然后结合上下文可以把词猜出来，确实是完形填空。但是自动驾驶场景下，mask历史动作是毫无意义的，只能mask未来动作，即只有上文没有下文，这其实是写作文，大家都知道写作文的难度比完形填空高太多了。

而且，人类驾驶汽车不仅依赖历史感知结果，还更多的依赖对未来的预判，老司机往往对未来几秒的交通环境有非常好的预判，例如隔壁车道的车会不会突然变道、路边的行人会不会横穿马路等。基于这种预判，老司机再采取合理的驾驶动作。这种预判，从模型上讲就是一种生成式模型。于是我们将算法调整为GPT生成式模型，将历史感知结果使用BEV方式表达出来，再将BEV序列输入模型，让模型预测几秒钟之后未来世界可能发生的变化，这样就构建一个自回归的生成式模型，如下图所示：

然后，将感知和认识进行联合训练就可以实现端到端自动驾驶了。但是，我们发现仅通过这种方式进行训练，想要达到非常好的驾驶效果，需要的数据规模、算力规模都极为庞大，我们根本无法承受。

例如，在传统的分任务自动驾驶范式下，感知算法识别塑料袋后，可以人为设计一个塑料袋可以压过去的驾驶策略，这样训练成本很低，但是在端到端范式下想要让自动驾驶识别塑料袋并学习到塑料袋是可以压过去，需要大量数据进行训练，成本极高，这也是特斯拉手握数万卡的原因之一。

塑料袋、泡沫等软性材质是可以压过去的、交警的手势优先级是高于红绿灯的、救护车是要避让的，这些其实都属于人类社会的世界知识，这些知识都是人类经过长期学习之后获得的。

传统的基于人工策略的自动驾驶成本很低，就是因为通过人工策略直接把人类社会积累的知识用在了自动驾驶上，省去了训练成本。但是驾驶知识包罗万象，如果要基于人类知识为世间万物定制各类策略，也是一件不可能的事情。

那如何既能利用人类社会沉淀的知识，又能降低端到端自动驾驶的训练成本呢？考虑到大语言模型中压缩了几乎全人类的知识，如果能将跟驾驶决策相关的知识提取出来，应该能大幅度降低训练成本。

于是，毫末在端到端自动驾驶中又引入了大语言模型，通过感知大模型识别万物后，将这些信息输入LLM，通过LLM来提取世界知识，并作为辅助特征来指导驾驶决策。如图所示，这个系统极为复杂，算力消耗非常大，目前还只能在云端运行，未来几年将加快向车端的落地。

五、未来趋势

过去一年，大语言模型的发展思路给端到端自动驾驶很多启发，在模型、数据上都值得借鉴。

在自然语言处理领域，Chatgpt作为基础模型展示了极强的泛化能力。最近，学术界的研究在语言-视觉大模型上也取得了突破性进展，这种基础模型无疑会让自动驾驶如虎添翼。

特斯拉、Wayve等公司也提出将World Model作为自动驾驶基础模型的思路。World model是一种基于视频来预测未来世界的模型，例如特斯拉的world model可以根据prompt给出的动作来做出反馈，并生成未来的世界图像，而且能保证多视角、时序的一致性。

大语言模型压缩了人类的大部分知识，当然也包括驾驶知识。可以通过与LLM进行交互，提取驾驶常识。例如传统的占用

清华邓志东教授：大模型助力自动驾驶特斯拉至少领先行业三年

自动驾驶加速发展，产业链将洗牌。

作者|Juice

编辑|志豪

自动驾驶在走过低谷之后，正开始重新攀登高峰。

从去年开始，国内自动驾驶市场的整体表现并不算好，大额融资变得寥寥，而技术上的突破也并不明显，整个行业走向了低谷。

但今年，这一趋势发生了很大的变化。

从政策角度来讲，工信部等四部委联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》，正式对L3/L4自动驾驶的准入与上路进行了具体的规范，为L3/L4向商业化、规模化迈进进行了政策法规的创新引领与适度超前部署。

▲《关于开展智能网联汽车准入和上路通行试点工作的通知》

而从技术层面来看，以ChatGPT为代表的通用人工智能技术正在给自动驾驶的发展注入新活力。传统的小模型、小数据弱人工智能方法正被换挡，通过大模型来布局自动驾驶的路径越发明显。

其中最典型的玩家当属特斯拉，通过端到端的大模型技术，其在自动驾驶方面的最新产品FSDV12在海外的表现已经非常稳定了，引进国内也指日可待，届时，特斯拉在自动驾驶领域可能会再次化身为鲶鱼，搅起新的风暴。

▲特斯拉FSD Beta在不同环境下的示意图

从用户接受度的维度来看，现阶段，部分新购车的用户尤其是新能源汽车的车主对于智能辅助驾驶NOA的接受程度已经越来越高了，完成了初步的用户教育，这也为自动驾驶的真正规模化落地提供了可能性。

可以说自动驾驶的发展正进入一波全新的发展周期。

而在大好形势下，我们也应该清晰地认识到，自动驾驶的发展也还有一些难题需要解决，比如说大模型如何为自动驾驶赋能？放开L3/L4准入政策后，怎样才能真正实现产品落地？多种技术路线之争应该如何决断？

如果不能很好地回答这些问题，那对于自动驾驶的发展来说仍然会产生不小的影响。为了更好得到这些问题的答案，车东西特地采访了国内人工智能和自动驾驶领域的先行者——清华大学计算机系长聘教授，博士生导师，清华大学人工智能研究院视觉智能研究中心主任邓志东教授。

邓志东教授是国内最早一批开始从事人工智能研究的专家之一，同时在2009年就开始了自动驾驶的研发与实践，也属于最早的一批研究者，因此在这两方面无疑有着足够的积累和发言权。

另外预告一下，邓志东教授将参加12月19日由智一科技旗下智能汽车产业新媒体车东西联合硬科技讲解与服务平台智猩猩在深圳发起主办的2023全球自动驾驶峰会，并在主会场开幕式带来主题报告《大型视觉语言模型助力自动驾驶产业落地》。另外，李弘扬、李志琦等学者以及来自智行者、元戎启行、Nullmax等企业的众多大咖也已确认参会演讲或参与圆桌讨论。欢迎大家报名，线下参会交流。

ChatGPT是分水岭人工智能发展提速

在人工智能领域，邓志东教授绝对算得上是老资历了，1992年在清华博士后期间就开始投身到了人工神经网络的研究方向。

当时研究的主要是人工神经网络与非线性系统学等，这些在当时还处在非常早期的阶段，人工神经网络模型还在缓慢的量变过程中，没有达到质变。

人工智能产业从2012年开始起步，十几年间，真正落地的产品并不算多，一些落地的产品主要为人脸识别、机器翻译与语音识别等，但机器翻译的“机器”味道似乎还比较浓，整个行业并未闭环一个良好的产业逻辑。

2022年，很多行业内的从业人员对于（弱）人工智能产业能否真正落地产生了怀疑。

而ChatGPT无疑是一个划时代的产品，大模型在某种意义上把人工智能这个产业又重新救活了。

▲ChatGPT聊天页面

不过大模型并不算是一个全新的概念。预训练与微调的范式，2015年前后就出现了，2017年Transformer问世后就开始有了大模型。事实上，2020年出现了两个重要的AI进展，一个是OpenAI推出的GPT-3，另一个则是谷歌的AlphaFold2，这两项成果被普遍认为是人工智能领域六十多年来产生的“诺奖级”成果。

事实也确实如此。AlphaFold 2就成为了今年诺贝尔奖的候选成果之一，虽然最终没有获奖，但是这一成果和GPT-3基础大模型之重要性，可谓不言而喻。

这些大型语言模型与以往最大的不同之处在于，已开始出现了一些认知能力，这是此前不曾有过的，人工智能确实更聪明了。从目前的视角回头来看，2022年11月30日ChatGPT惊艳问世之前的人工智能十年，应该叫做弱人工智能时代，当时一个模型只能解决一个任务。

当时是小数据、小模型，通常需要标签进行完全的监督学习，而且也还没有摆脱机器性。

现在最大的不同就是模拟并构建了人类语言模型与世界知识模型，开始运用人类的语言思维来理解和学习了。这是一个非常大的突破，语言实际上属于高级文明，不仅可帮助人类沟通交流，而且还便于记载文明，促进人类知识传承，让下一代人站在人类知识总和的肩膀上前行。

相比于人类，机器对人类知识的传承效率更高，可以在短短数年时间内学完人类整个一般性的文本知识，甚至还能记忆得更加准确。

大模型的发展离不开Transformer的出现，2017年6月12日谷歌的NLP研发人员在进行神经机器翻译的时候提出了Transformer这种可规模化的新一代神经网络模型。

▲八位在谷歌工程师率先提出Transformer

邓志东教授认为，Transformer的诞生并不是突然出现的，当时行业内已有很多人都在研究LSTM模型的注意力机制，包括怎么使用多层的编码器，怎么使用多个解码器层，怎么去做隐含的特征表达等等，实际已经有了Transformer的雏形。

但是这样的突破性创新或许只能出现在巨头企业里，原因是相比于LSTM，Transformer更加复杂“冗余”了，这就需要更多的GPU算力，显然当时只有头部企业才能有足够的算力去考虑或支撑这样的研究。

不过，Transformer诞生之初还仅是为了做机器翻译，后来才开始用来做文本语言大模型。OpenAI在2015年12月正式成立，初心就是要实现通用人工智能（AGI），而这一使命或愿景也是十分大胆的，此前极少有人敢提及这一观点。

▲OpenAI初始成员

实际上，OpenAI的核心团队都是硅谷非常成功的人士，新的阶段有了更加宏大的目标。

OpenAI早期并没有做出什么重要的成果，回过头去看，初期的GPT-1和GPT-2都没有太大的意义，不具有明显的优势，直到GPT-3的出现。

这主要跟模型的架构有关系，BERT等编码器架构的模型文本阅读理解与特征表达能力会比较强，但是生成能力相对较差，反过来，GPT等解码器架构的模型生成能力比较强，但阅读理解能力比较差，OpenAI正是选择了后一种技术路线。

后来通过Transformer神经网络规模的不断增加，特别是与GPU算力的交替跃升之后，才通过大型语言模型的自监督学习与构建，获得了非常大的性能提升。

随着算力和数据的不断扩增，人工智能的能力也在不断提升。现在GPT-4 Turbo甚至已经可以开始利用外部工具了，包括可以调用很多Action来完成任务，这也是一个非常大的突破。

▲OpenAI CEO山姆·奥尔特曼发布GPT-4 Turbo

但也应该明确的一点是，通用人工智能的发展还刚刚拉开序幕，一切才刚刚开始。

从这个角度来看，我们正处在一个非常幸运的时代，还有大量机会见证通用人工智能更多的发展变化。

大模型赋能智能驾驶特斯拉是先行者

从仅十年人工智能的发展角度来看，有三个人的作用非常突出，一个是图灵奖得主杰弗里·辛顿，另外两个则是辛顿的博士生，一个是前一段时间OpenAI“政变”的核心人物伊利亚·苏茨克维（Ilya Sutskever），另一个则是亚历克斯·克里切夫斯基（Alex Krizhevsky）。AlexNet就是以后者的名字命名的，而伊利亚作为OpenAI的联合创始人与首席科学家，则在GPT的发展过程中做出了很大的贡献。

除此之外，特斯拉AI与Autopilot 视觉主管，斯坦福李飞飞教授的博士生Andrej Karpathy，曾是OpenAI的创始成员及研究员之一，2017年至2022年则成为特斯拉人工智能与自动驾驶的灵魂人物。

▲Andrej Karpathy（左）与马斯克（右）在特斯拉AI DAY上演讲

Karpathy在特斯拉负责人工智能与AutoPilot期间，于2020年主持将特斯拉EAP的所有底层代码都进行了Transformer重写，这与他的OpenAI工作经历不无关系。

也是在那个时候，马斯克才正式对外喊出了要推出FSDBeta。

所以特斯拉较早就知道要用大模型来落地自动驾驶。为了更好地支撑多模态大模型的发展，特斯拉还专门研发了Dojo超算，也购置了大量的A100。

▲Dojo超算机柜

目前人类已经进入到了互联网和移动互联网时代，每天都有海量的数据涌现，因此必须要采用自监督或者无监督的学习方法，这就对数据本身的质量具有非常之高的要求。

而特斯拉既是一家人工智能算法与算力公司，也是一家自动驾驶公司，更是一家主机厂，不但具有足够多的数据，也拥有足够强的算力支撑，并且已经在大模型算法方向上走了较长时间了。

BEV+Transformer算法的使用，不用激光雷达也可以进行纵向距离的测算与补全，这也是一个创新性的做法。

大型语言模型的使用对于自动驾驶的性能提升非常明显，例如，通过视觉语言大模型就可以直接阅读理解道路交通场景，并生成详细的文本描述。

当大模型人工智能获得了道路交通场景的感知能力之后，再配合类似于Q*之类的深度强化学习算法进行决策与规控，特别是利用多模态大型语言模型进行端到端的整体贯通之后，甚至直接通过交互就可进行智能体学习，这就和人一样，只要经过一些驾驶技能的培训与操练就能够上路了。

目前产业界和学术圈对于特斯拉FSDV12都很期待，这一版本正是用彻底的端到端思路来实现高阶智驾的，跟人类一样，输入是不断涌入的图像帧视频，输出就直接是转向、制动与加速这三个模拟量。

这个过程中会存在较多的问题，例如中间的感知、预测、决策与规控过程其实是不透明的，另外就是如何处理边缘事件？现在看来，特斯拉可能通过视觉大模型与超级算力有效地解决了后面这个问题。这可能是因为他们已拥有了足够多的高质量训练数据，或多模态大模型出现了超强的零样本泛化能力。

另外特斯拉已经从2020年就开始做这个事情了，而且作为头部造车新势力，也积累了世界上最多的数据，而国内则在今年3月之后才开始加速布局，中间的差距至少有三年，所以在短时间内很难去超越特斯拉。

▲特斯拉基于视觉数据构建3D空间

国内的智驾玩家中，华为投入了大量的人力与资源进去，技术扎实，目前走得比较靠前。而网络、<a href=target=_blank

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 大模型