当前位置:首页 > 数码 > 大模型训练的多卷奥秘-揭示算力之谜 (大模型训练的几个阶段)

大模型训练的多卷奥秘-揭示算力之谜 (大模型训练的几个阶段)

admin4个月前 (05-06)数码35

随着大模型的发展,对算力的需求也越来越大。高端GPU芯片短缺和高昂的训练成本给大模型的训练带来了巨大的挑战。

高端GPU芯片短缺

高端GPU芯片主要用于大模型的训练。由于全球芯片短缺和供需失衡等因素,高端GPU芯片一卡难求。顶峰时期,一张英伟达A100的价格已经被炒到了二三十万人民币。即便如此,高昂的价格依然可能拿不到芯片。

一位云计算行业高管表示,算力短缺的情况确实存在。很多客户都想要高端GPU资源,但能提供的暂时无法完全满足广泛的市场需求。

高昂的训练成本

除了GPU芯片短缺,高昂的训练成本也是大模型训练面临的一大困难。以清华大学毕业生毕恺峰训练的盘古气象大模型为例,其训练成本可能超出200万。如果训练的是通用大模型,成本可能要翻百倍。

腾讯集团副总裁、云与智慧产业事业群COO邱跃鹏透露,投资规模最大的是在训练,没有几十亿的资本投入,很难下场去持续做大模型。

应对措施

面对算力困境,各家企业也在积极应对。

一些企业通过使用更高质量的数据来提升训练效率。信通院发布的《行业大模型标准体系及能力架构研究报告》建议,在数据质量方面,引入人工标注和确认,构建高质量数据集,减少大模型成本。

提升基础架构能力,实现千卡以上稳定运行两周不掉卡,也是优化大模型训练的方法之一。

结语

大模型训练的算力困境短期内难以解决。各家企业通过积极应对,探索创新方法,不断提升基础架构能力,为大模型的发展提供了新的可能。


再增两百博士下一线,华为云盘古大模型奔涌进行业

在过去几个月的大模型落地实践中,业界遇到了方方面面的挑战。为了攻下行业山头,华为常务董事、华为云CEO张平安在华为全联接大会2023上,提出了 “解难题、做难事、行致远”的号召。华为云今年还将派出200多位博士和天才少年,与行业头部企业、战略伙伴一起,开展大模型落地会战。

文|赵艳秋

编|牛慧

9月21日,在盘古大模型3.0推出两个多月后,华为云在华为全联接大会2023上又推出了汽车、医学等新的行业大模型,并对政务、矿山、气象、数字人直播、软件研发等大模型进行了升级。

与会者观察到,华为云全力在行业大模型的道路上快速推进,打法路径更为明晰。会议上宣布了矿山、气象、政务等大模型落地的标杆案例。

由于不少行业处于大模型落地早期,在过去几个月的实践中,业界普遍反映,遇到了方方面面不小的困难。华为常务董事、华为云CEO张平安在会上提出了“解难题、做难事、行致远”的号召。

大模型训练的多卷奥秘

数智前线获悉,为了攻下行业山头,华为云今年还将增派200多位博士和天才少年到一线,与头部企业、战略伙伴一起,开展各种会战。

大模型的路线“分歧”

今年7月华为云发布盘古大模型3.0后,很多客户和业界朋友找到软通动力华为云智能服务总经理魏建勋咨询,华为云所说的大模型,为什么与OpenAI的ChatGPT大语言模型不同?

华为云对大模型的定义和发展路径,在业界也引发争论。不少大厂今年强力投入的是大语言模型,但华为云发布的是自然语言、视觉、科学计算、预测、多模态等五个基础大模型以及数个行业大模型,对大语言模型并未特别强调。

有人士认为,这混淆了大模型的概念,也有人士认为,解决行业问题才是硬道理。不过,魏建勋发现,最近一个多月,华为云的大模型单子越来越多,找华为云和软通动力合作的企业也越来越多。“大家看到在行业中,尤其在矿山和气象领域的典型落地案例后,无论在惠民,还是在企业收益上,大家都渐渐有了感知。”

“华为云主打的是行业,行业有纵深,会遇到多种多样的诉求。”魏建勋告诉数智前线,在这种情况下,只有大语言模型是不行的。

华为云一位高管告诉数智前线,之所以选择这个模式,是因为他们觉得一个模型解决不了所有问题。“有的模型擅长文,有的擅长理,比如我们的科学计算大模型,能解决调度这类复杂问题。我们的盘古气象大模型,研究成果上了《自然》杂志,就是因为它有一个独立的模型。”

“从本质上看,华为云的大模型道路是一条可落地、可变现、不烧钱的商业路径。”从事数字人应用开发的云蝠智能创始人魏佳星观察。

他坦言,华为云选择这条路径与ToB基因密切相关。国内外有多个大厂在做大语言模型,但在大语言模型还未展现出明确商业化优势前,“在这样一个竞争氛围里,我感觉华为即使去做,胜算也不会太高”。而在产业这块就不同了,像华为云盘古气象大模型,一两年内可能就是市场上的独家技术。“在这个窗口期内,它可以继续加大数据、加大算力,做到占领市场。”

实际上,在华为全联接大会2023上,张平安介绍,盘古气象大模型已在欧洲中期天气预报中心、国家气象局等开始试用。泰国气象局也启动了与盘古的合作。在矿山领域,山东能源集团已把矿山大模型全面应用到9大业务系统、21个场景中。目前,矿山大模型在全国其他8个矿井开始规模使用......

华为判断,人工智能应用迎来奇点,正在加速进入行业生产系统,未来2年将深入到50%以上的行业核心场景,逐步成为数字经济增长的主引擎。

“这是不是有点像5年前新能源车的状况?”魏佳星说,“在纯电赛道没有一个明确的定论前,一些企业先做增程式,比做纯电跑得要快,但大家一开始也有争议。”

不过,大模型落地行业,并不是一件容易的事。

一位金融行业资深人士向数智前线描述了今年银行落地大模型的状态:二三月,大家都很焦虑,怕落后;四五月,纷纷组建团队去做;之后几个月,大家在找方向、落地上遇到了困难,开始变得理性;现在,他们看标杆,把验证过的场景拿来试用。

在这个过程中,除了编程助手这类开箱即用的功能外,业界发现,大模型与业务场景结合的难度不小,一方面需要大算力,不少头部企业因为数据与合规要求,要构建基础设施,投资大,有一定周期;另一方面,在行业或企业大模型的训练上,即便是微调,也可能要一两万条数据,还要找到适宜的方法,企业都在探索中;同时,不少企业还要开发算子,解决公有云和私有云协同。

魏建勋观察,目前阶段,华为云的打法是聚焦头部企业,找到具有代表性和普适性的痛点,结合盘古大模型和企业know-how,打造行业标杆,为行业复制打基础。

大模型落地大会战

打造标杆是一件具有开拓性的事。在华为内部有着密密麻麻的Roadmap,科学家和数学家进一步下沉一线,识别行业难点,更快构建行业大模型,拓展行业深度。

华为云人工智能算法专家金博士,参与了盘古汽车大模型的构建。“下到一线后,我充分理解到自动驾驶中数据的价值。”数据是个吞金兽,一个包含视觉、雷达等多传感器的10秒图像文字训练,数据采集标注成本要几百元,而自动驾驶需要几百万小时的行驶数据。

同时,如何补足“鬼探头”这类Corner Case长尾数据,解决几年前自动驾驶车将横穿马路的白色大卡车误判为云朵,而酿成事故的这类问题,是行业难题之一。

在盘古汽车大模型中,采用NeRF构建的数字孪生、元宇宙虚拟环境中,利用大模型的生成和泛化能力,产出大量虚拟数据,而且只要训练一次,就可生成适配不同新车型视角的视频,让Corner Case闭环周期,从两周以上缩短到两天内,也降低了实际道路采集标注成本。

盘古汽车大模型也进入汽车的研产供销服场景中,一汽解放数字化部宋磊部长,在会上分享了一汽解放,应用盘古汽车大模型的实践。

在金融领域,负责盘古金融大模型的祝博士,下到一线后,了解到银行的痛点之一,是传统智能客服仍要依赖大量人工,而对一线人员的知识传递也存在瓶颈。大模型结合知识库,可理解专业知识,实现专业问答,成为一线人员的助手。基于盘古金融大模型的网点问答,7月在工行上线后,陆续推广了几百个网点,答案采纳率超过85%,获得一线业务的好评。目前,文档问答孵化成的标准解决方案,又快速复制到交行、农行、银联以及上交所等。

值得关注的是,工行向祝博士反映,他们在人才上面临两难:一方面不希望员工被大模型取代;另一方面很多岗位还有人才缺口。他们期望大模型释放出的员工,能做更多高价值的事。在这一诉求下,华为联合工行实验室的人力资源团队 ,梳理了大模型在企业应用的人员转身实践,设计了系列培训课程,如Prompt调优、微调、大模型运营等,并与远程银行、网点等部门合作,建立联合项目组,驱动企业人员能力提升。

“这样的实践,也驱动我们梳理了一整套企业落地方法论,真正做到授人以渔,让企业和员工深入拥抱新技术,提升生产力。”祝博士说。

在气象领域,盘古气象大模型此前创造了台风路径的预测纪录。这次升级后,它又攻克了暴雨预测这一全球气象领域Top级难题,让暴雨红色预警从3小时预报,提前到24小时发出,这对政府的灾害防御、老百姓的生产生活极为关键。

深圳气象局也在与华为合作,基于盘古气象大模型,打造深圳区域气象预报大模型。数智前线获悉,这或将成为全球首个区域气象预报模型,有望实现大约三公里精度的气象预报。

9月30日,华为云还将启动盘古气象平台的邀测,这是一个SaaS服务,让全球用户可以直接调用降水预测等功能。

在医学领域,乔博士和刘博士的团队在解决医疗大模型严肃性和专业性的挑战。“通用NLP大模型通过公开数据学习,能力非常有限。”乔博士介绍,他们通过大量医学数据,并定义了大量医学任务,教会NLP大模型学习医学的知识和场景。“大模型还结合搜索、知识图谱,进一步保障大模型的可溯源性。”刘博士说。

盘古医学大模型的目标是让每个医生拥有可信赖的临床助手,这对普惠医疗的实现也意义深远。目前,在由10个科室真实病例构成的检验报告解读测试中,在三个对照组中,盘古医学助手几乎达到了对照组1,也就是相当于临床医生的平均水平。

在大会期间还公布了多个大模型的落地进展,如政务大模型首次将NLP大模型与CV大模型融合,让城市各类开放和长尾事件秒级发现、分钟级分拨。矿山大模型,让山能济宁二号煤矿每年多产出8000吨精煤,增收数千万元;数字人直播,让丹寨农特产和非遗产业蜡染走出大山,走向全球。

过去几个月,华为攻克行业难题的各种会战中,合作伙伴的能力和价值也在快速释放中。他们识别行业关键问题,结合自身行业know-how,推动盘古进入行业。魏建勋告诉数智前线,软通动力在尝试突破车险理赔的难点,将原来理赔定损,从几天逐步缩短到小时级、分钟级,“现场就能解决”,目前该项目与车企客户在PoC阶段。

支撑百模千态

在大模型训练和落地过程中,算力目前是行业的“集体焦虑”。这也是华为全联接大会2023上,与会者最关注的事情之一。

“大家都在到处找算力,供需比大约在 1:10 之间。”一位算力行业人士说,“大模型厂商都在各地密集访谈,到处寻找稳定算力的合作伙伴,每家对算力的需求都在万P以上。”

<

深度学习之卷积神经网络经典模型

LeNet-5模型 在CNN的应用中,文字识别系统所用的LeNet-5模型是非常经典的模型。 LeNet-5模型是1998年,Yann LeCun教授提出的,它是第一个成功大规模应用在手写数字识别问题的卷积神经网络,在MNIST数据集中的正确率可以高达99.2%。 下面详细介绍一下LeNet-5模型工作的原理。 LeNet-5模型一共有7层,每层包含众多参数,也就是卷积神经网络中的参数。 虽然层数只有7层,这在如今庞大的神经网络中可是说是非常少的了,但是包含了卷积层,池化层,全连接层,可谓麻雀虽小五脏俱全了。 为了方便,我们把卷积层称为C层,下采样层叫做下采样层。 首先,输入层输入原始图像,原始图像被处理成32×32个像素点的值。 然后,后面的隐层计在卷积和子抽样之间交替进行。 C1层是卷积层,包含了六个特征图。 每个映射也就是28x28个神经元。 卷积核可以是5x5的十字形,这28×28个神经元共享卷积核权值参数,通过卷积运算,原始信号特征增强,同时也降低了噪声,当卷积核不同时,提取到图像中的特征不同;C2层是一个池化层,池化层的功能在上文已经介绍过了,它将局部像素值平均化来实现子抽样。 池化层包含了六个特征映射,每个映射的像素值为14x14,这样的池化层非常重要,可以在一定程度上保证网络的特征被提取,同时运算量也大大降低,减少了网络结构过拟合的风险。 因为卷积层与池化层是交替出现的,所以隐藏层的第三层又是一个卷积层,第二个卷积层由16个特征映射构成,每个特征映射用于加权和计算的卷积核为10x10的。 第四个隐藏层,也就是第二个池化层同样包含16个特征映射,每个特征映射中所用的卷积核是5x5的。 第五个隐藏层是用5x5的卷积核进行运算,包含了120个神经元,也是这个网络中卷积运算的最后一层。 之后的第六层便是全连接层,包含了84个特征图。 全连接层中对输入进行点积之后加入偏置,然后经过一个激活函数传输给输出层的神经元。 最后一层,也就是第七层,为了得到输出向量,设置了十个神经元来进行分类,相当于输出一个包含十个元素的一维数组,向量中的十个元素即0到9。 AlexNet模型 AlexNet简介 2012年Imagenet图像识别大赛中,Alext提出的alexnet网络模型一鸣惊人,引爆了神经网络的应用热潮,并且赢得了2012届图像识别大赛的冠军,这也使得卷积神经网络真正意义上成为图像处理上的核心算法。 上文介绍的LeNet-5出现在上个世纪,虽然是经典,但是迫于种种复杂的现实场景限制,只能在一些领域应用。 不过,随着SVM等手工设计的特征的飞速发展,LeNet-5并没有形成很大的应用状况。 随着ReLU与dropout的提出,以及GPU带来算力突破和互联网时代大数据的爆发,卷积神经网络带来历史的突破,AlexNet的提出让深度学习走上人工智能的最前端。 图像预处理 AlexNet的训练数据采用ImageNet的子集中的ILSVRC2010数据集,包含了1000类,共1.2百万的训练图像,张验证集,张测试集。 在进行网络训练之前我们要对数据集图片进行预处理。 首先我们要将不同分辨率的图片全部变成256x256规格的图像,变换方法是将图片的短边缩放到 256像素值,然后截取长边的中间位置的256个像素值,得到256x256大小的图像。 除了对图片大小进行预处理,还需要对图片减均值,一般图像均是由RGB三原色构成,均值按RGB三分量分别求得,由此可以更加突出图片的特征,更方便后面的计算。 此外,对了保证训练的效果,我们仍需对训练数据进行更为严苛的处理。 在256x256大小的图像中,截取227x227大小的图像,在此之后对图片取镜像,这样就使得原始数据增加了(256-224)x(256-224)x2= 2048倍。 最后对RGB空间做PCA,然后对主成分做(0,0.1)的高斯扰动,结果使错误率下降1%。 对测试数据而言,抽取以图像4个角落的大小为的图像,中心的大小的图像以及它们的镜像翻转图像,这样便可以获得10张图像,我们便可以利用softmax进行预测,对所有预测取平均作为最终的分类结果。 ReLU激活函数 之前我们提到常用的非线性的激活函数是sigmoid,它能够把输入的连续实值全部确定在0和1之间。 但是这带来一个问题,当一个负数的绝对值很大时,那么输出就是0;如果是绝对值非常大的正数,输出就是1。 这就会出现饱和的现象,饱和现象中神经元的梯度会变得特别小,这样必然会使得网络的学习更加困难。 此外,sigmoid的output的值并不是0为均值,因为这会导致上一层输出的非0均值信号会直接输入到后一层的神经元上。 所以AlexNet模型提出了ReLU函数,公式:f(x)=max(0,x)f(x)=max(0,x)。 用ReLU代替了Sigmoid,发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid快很多,这成了AlexNet模型的优势之一。 Dropout AlexNet模型提出了一个有效的模型组合方式,相比于单模型,只需要多花费一倍的时间,这种方式就做Dropout。 在整个神经网络中,随机选取一半的神经元将它们的输出变成0。 这种方式使得网络关闭了部分神经元,减少了过拟合现象。 同时训练的迭代次数也得以增加。 当时一个GTX580 GPU只有3GB内存,这使得大规模的运算成为不可能。 但是,随着硬件水平的发展,当时的GPU已经可以实现并行计算了,并行计算之后两块GPU可以互相通信传输数据,这样的方式充分利用了GPU资源,所以模型设计利用两个GPU并行运算,大大提高了运算效率。 模型分析 AlexNet模型共有8层结构,其中前5层为卷积层,其中前两个卷积层和第五个卷积层有池化层,其他卷积层没有。 后面3层为全连接层,神经元约有六十五万个,所需要训练的参数约六千万个。 图片预处理过后,进过第一个卷积层C1之后,原始的图像也就变成了55x55的像素大小,此时一共有96个通道。 模型分为上下两块是为了方便GPU运算,48作为通道数目更加适合GPU的并行运算。 上图的模型里把48层直接变成了一个面,这使得模型看上去更像一个立方体,大小为55x55x48。 在后面的第二个卷积层C2中,卷积核的尺寸为5x5x48,由此再次进行卷积运算。 在C1,C2卷积层的卷积运算之后,都会有一个池化层,使得提取特征之后的特征图像素值大大减小,方便了运算,也使得特征更加明显。 而第三层的卷积层C3又是更加特殊了。 第三层卷积层做了通道的合并,将之前两个通道的数据再次合并起来,这是一种串接操作。 第三层后,由于串接,通道数变成256。 全卷积的卷积核尺寸也就变成了13×13××13×256。 一个有4096个这样尺寸的卷积核分别对输入图像做4096次的全卷积操作,最后的结果就是一个列向量,一共有4096个数。 这也就是最后的输出,但是AlexNet最终是要分1000个类,所以通过第八层,也就是全连接的第三层,由此得到1000个类输出。 Alexnet网络中各个层发挥了不同的作用,ReLU,多个CPU是为了提高训练速度,重叠pool池化是为了提高精度,且不容易产生过拟合,局部归一化响应是为了提高精度,而数据增益与dropout是为了减少过拟合。 VGG net 在ILSVRC-2014中,牛津大学的视觉几何组提出的VGGNet模型在定位任务第一名和分类任务第一名[[i]]。 如今在计算机视觉领域,卷积神经网络的良好效果深得广大开发者的喜欢,并且上文提到的AlexNet模型拥有更好的效果,所以广大从业者学习者试图将其改进以获得更好地效果。 而后来很多人经过验证认为,AlexNet模型中所谓的局部归一化响应浪费了计算资源,但是对性能却没有很大的提升。 VGG的实质是AlexNet结构的增强版,它侧重强调卷积神经网络设计中的深度。 将卷积层的深度提升到了19层,并且在当年的ImageNet大赛中的定位问题中获得了第一名的好成绩。 整个网络向人们证明了我们是可以用很小的卷积核取得很好地效果,前提是我们要把网络的层数加深,这也论证了我们要想提高整个神经网络的模型效果,一个较为有效的方法便是将它的深度加深,虽然计算量会大大提高,但是整个复杂度也上升了,更能解决复杂的问题。 虽然VGG网络已经诞生好几年了,但是很多其他网络上效果并不是很好地情况下,VGG有时候还能够发挥它的优势,让人有意想不到的收获。 与AlexNet网络非常类似,VGG共有五个卷积层,并且每个卷积层之后都有一个池化层。 当时在ImageNet大赛中,作者分别尝试了六种网络结构。 这六种结构大致相同,只是层数不同,少则11层,多达19层。 网络结构的输入是大小为224*224的RGB图像,最终将分类结果输出。 当然,在输入网络时,图片要进行预处理。 VGG网络相比AlexNet网络,在网络的深度以及宽度上做了一定的拓展,具体的卷积运算还是与AlexNet网络类似。 我们主要说明一下VGG网络所做的改进。 第一点,由于很多研究者发现归一化层的效果并不是很好,而且占用了大量的计算资源,所以在VGG网络中作者取消了归一化层;第二点,VGG网络用了更小的3x3的卷积核,而两个连续的3x3的卷积核相当于5x5的感受野,由此类推,三个3x3的连续的卷积核也就相当于7x7的感受野。 这样的变化使得参数量更小,节省了计算资源,将资源留给后面的更深层次的网络。 第三点是VGG网络中的池化层特征池化核改为了2x2,而在AlexNet网络中池化核为3x3。 这三点改进无疑是使得整个参数运算量下降,这样我们在有限的计算平台上能够获得更多的资源留给更深层的网络。 由于层数较多,卷积核比较小,这样使得整个网络的特征提取效果很好。 其实由于VGG的层数较多,所以计算量还是相当大的,卷积层比较多成了它最显著的特点。 另外,VGG网络的拓展性能比较突出,结构比较简洁,所以它的迁移性能比较好,迁移到其他数据集的时候泛化性能好。 到现在为止,VGG网络还经常被用来提出特征。 所以当现在很多较新的模型效果不好时,使用VGG可能会解决这些问题。 GoogleNet 谷歌于2014年Imagenet挑战赛(ILSVRC14)凭借GoogleNet再次斩获第一名。 这个通过增加了神经网络的深度和宽度获得了更好地效果,在此过程中保证了计算资源的不变。 这个网络论证了加大深度,宽度以及训练数据的增加是现有深度学习获得更好效果的主要方式。 但是增加尺寸可能会带来过拟合的问题,因为深度与宽度的加深必然会带来过量的参数。 此外,增加网络尺寸也带来了对计算资源侵占过多的缺点。 为了保证计算资源充分利用的前提下去提高整个模型的性能,作者使用了Inception模型,这个模型在下图中有展示,可以看出这个有点像金字塔的模型在宽度上使用并联的不同大小的卷积核,增加了卷积核的输出宽度。 因为使用了较大尺度的卷积核增加了参数。 使用了1*1的卷积核就是为了使得参数的数量最少。 Inception模块 上图表格为网络分析图,第一行为卷积层,输入为224×224×3 ,卷积核为7x7,步长为2,padding为3,输出的维度为112×112×64,这里面的7x7卷积使用了 7×1 然后 1×7 的方式,这样便有(7+7)×64×3=2,688个参数。 第二行为池化层,卷积核为3×33×3,滑动步长为2,padding为 1 ,输出维度:56×56×64,计算方式:1/2×(112+2×1?3+1)=56。 第三行,第四行与第一行,第二行类似。 第 5 行 Inception module中分为4条支线,输入均为上层产生的 28×28×192 结果:第 1 部分,1×1 卷积层,输出大小为28×28×64;第 2 部分,先1×1卷积层,输出大小为28×28×96,作为输入进行3×3卷积层,输出大小为28×28×128;第 3部分,先1×1卷积层,输出大小为28×28×32,作为输入进行3×3卷积层,输出大小为28×28×32;而第3 部分3×3的池化层,输出大小为输出大小为28×28×32。 第5行的Inception module会对上面是个结果的输出结果并联,由此增加网络宽度。 ResNet 2015年ImageNet大赛中,MSRA何凯明团队的ResidualNetworks力压群雄,在ImageNet的诸多领域的比赛中上均获得了第一名的好成绩,而且这篇关于ResNet的论文Deep Residual Learning for Image Recognition也获得了CVPR2016的最佳论文,实至而名归。 上文介绍了的VGG以及GoogleNet都是增加了卷积神经网络的深度来获得更好效果,也让人们明白了网络的深度与广度决定了训练的效果。 但是,与此同时,宽度与深度加深的同时,效果实际会慢慢变差。 也就是说模型的层次加深,错误率提高了。 模型的深度加深,以一定的错误率来换取学习能力的增强。 但是深层的神经网络模型牺牲了大量的计算资源,学习能力提高的同时不应当产生比浅层神经网络更高的错误率。 这个现象的产生主要是因为随着神经网络的层数增加,梯度消失的现象就越来越明显。 所以为了解决这个问题,作者提出了一个深度残差网络的结构Residual: 上图就是残差网络的基本结构,可以看出其实是增加了一个恒等映射,将原本的变换函数H(x)转换成了F(x)+x。 示意图中可以很明显看出来整个网络的变化,这样网络不再是简单的堆叠结构,这样的话便很好地解决了由于网络层数增加而带来的梯度原来越不明显的问题。 所以这时候网络可以做得很深,到目前为止,网络的层数都可以上千层,而能够保证很好地效果。 并且,这样的简单叠加并没有给网络增加额外的参数跟计算量,同时也提高了网络训练的效果与效率。 在比赛中,为了证明自己观点是正确的,作者控制变量地设计几个实验。 首先作者构建了两个plain网络,这两个网络分别为18层跟34层,随后作者又设计了两个残差网络,层数也是分别为18层和34层。 然后对这四个模型进行控制变量的实验观察数据量的变化。 下图便是实验结果。 实验中,在plain网络上观测到明显的退化现象。 实验结果也表明,在残差网络上,34层的效果明显要好于18层的效果,足以证明残差网络随着层数增加性能也是增加的。 不仅如此,残差网络的在更深层的结构上收敛性能也有明显的提升,整个实验大为成功。 除此之外,作者还做了关于shortcut方式的实验,如果残差网络模块的输入输出维度不一致,我们如果要使维度统一,必须要对维数较少的进行増维。 而增维的最好效果是用0来填充。 不过实验数据显示三者差距很小,所以线性投影并不是特别需要。 使用0来填充维度同时也保证了模型的复杂度控制在比较低的情况下。 随着实验的深入,作者又提出了更深的残差模块。 这种模型减少了各个层的参数量,将资源留给更深层数的模型,在保证复杂度很低的情况下,模型也没有出现梯度消失很明显的情况,因此目前模型最高可达1202层,错误率仍然控制得很低。 但是层数如此之多也带来了过拟合的现象,不过诸多研究者仍在改进之中,毕竟此时的ResNet已经相对于其他模型在性能上遥遥领先了。 残差网络的精髓便是shortcut。 从一个角度来看,也可以解读为多种路径组合的一个网络。 如下图: ResNet可以做到很深,但是从上图中可以体会到,当网络很深,也就是层数很多时,数据传输的路径其实相对比较固定。 我们似乎也可以将其理解为一个多人投票系统,大多数梯度都分布在论文中所谓的effective path上。 DenseNet 在Resnet模型之后,有人试图对ResNet模型进行改进,由此便诞生了ResNeXt模型。 这是对上面介绍的ResNet模型结合了GoogleNet中的inception模块思想,相比于Resnet来说更加有效。 随后,诞生了DenseNet模型,它直接将所有的模块连接起来,整个模型更加简单粗暴。 稠密相连成了它的主要特点。 我们将DenseNet与ResNet相比较: 从上图中可以看出,相比于ResNet,DenseNet参数量明显减少很多,效果也更加优越,只是DenseNet需要消耗更多的内存。 总结 上面介绍了卷积神经网络发展史上比较著名的一些模型,这些模型非常经典,也各有优势。 在算力不断增强的现在,各种新的网络训练的效率以及效果也在逐渐提高。 从收敛速度上看,VGG>Inception>DenseNet>ResNet,从泛化能力来看,Inception>DenseNet=ResNet>VGG,从运算量看来,Inception<DenseNet< ResNet<VGG,从内存开销来看,Inception<ResNet< DenseNet<VGG。 在本次研究中,我们对各个模型均进行了分析,但从效果来看,ResNet效果是最好的,优于Inception,优于VGG,所以我们第四章实验中主要采用谷歌的Inception模型,也就是GoogleNet。

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 大模型

“大模型训练的多卷奥秘-揭示算力之谜 (大模型训练的几个阶段)” 的相关文章

突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)

突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)

在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。 大模型的语料库 AI大语言模型(LLM)是组成由具有许多参数(通常...

揭秘-之外的美国大模型-ChatGPT-探索最新进展和创新 (之外的意思)

揭秘-之外的美国大模型-ChatGPT-探索最新进展和创新 (之外的意思)

年初以来,OpenAI以ChatGPT在全球掀起AI大模型热潮。但美国的AI大模型,远不止于OpenAI的ChatGPT。 美国大模型发布数量遥遥领先 综合各种数据,虽然中国发展势头迅...

的推理高手-火眼金睛-南放大与微软让大模型进化成具有-应用分治算法和prompt战略 (推理高手怎样培养出来)

的推理高手-火眼金睛-南放大与微软让大模型进化成具有-应用分治算法和prompt战略 (推理高手怎样培养出来)

近年来,大言语模型(LLMs)因为其通用的疑问处置才干而惹起了少量的关注。现有钻研标明,适当的揭示设计(promptenginerring),例如思想链(Chn-of-Thoughts),可以解锁...

的未来-大模型竞速-2024-服务-应用和MaaS (未来的模型)

的未来-大模型竞速-2024-服务-应用和MaaS (未来的模型)

引言 年末的大模型赛道出乎意料地平静。相比于电商领域的戏剧化反转和游戏行业的连续地震,大模型领域除了行业媒体的零星解读外,只有字节跳动和百度两家头部企业与海外大模型相互套壳的新闻引起了些许波澜。...

Shift-AI-Giant-Generative-Unveils-Multimodal-Parameter-Comprehensive-Apple-300Billion-with (Shift+f5什么功能)

Shift-AI-Giant-Generative-Unveils-Multimodal-Parameter-Comprehensive-Apple-300Billion-with (Shift+f5什么功能)

相较于英伟达、微软等大型科技股,苹果往年的体现令人绝望不已,股价年内跌逾10%,且失去了环球市值最高公司的宝座。 面前要素很便捷,苹果在这场人工智能()比赛中落伍了。为了解脱困境,苹果近期...

周鸿祎分享大模型十大趋势-2024年或迎杀手级应用 (周鸿祎讲座)

周鸿祎分享大模型十大趋势-2024年或迎杀手级应用 (周鸿祎讲座)

在2023年风马牛年终秀上,360集团创始人周鸿祎分享了对2024年大模型发展趋势的十大预测,呼吁企业树立信仰,AllinAI。 十大预测 大模型成为数字系统标配,无处不在。...

大模型-从基础到实质-深度揭秘人工智能中的庞然大物 (模型基础)

大模型-从基础到实质-深度揭秘人工智能中的庞然大物 (模型基础)

大模型:人工智能领域的新篇章 大模型的定义与特点 大模型是指参数量达到亿级甚至更大规模的深度学习模型。与传统机器学习模型相比,大模型在三个方面呈现出更高的规模: - 数据量:大模型需要大量的有...

的崛起-大模型时代-DenseMamba-精度大幅提升-推动Mamba-RetNet-和-DenseNet (崛起的demo)

的崛起-大模型时代-DenseMamba-精度大幅提升-推动Mamba-RetNet-和-DenseNet (崛起的demo)

引言 随着大型语言模型 (LLM) 的突破性进展,这些模型在语言理解、对话交互和逻辑推理方面展示了卓越的性能。过去一年,我们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Tra...