当前位置：首页 > 数码 > 突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)

突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)

admin12个月前 (04-13)数码95

在2024年全国两会上，有委员提出，应重视当前国内人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺问题。

大模型的语料库

AI大语言模型（LLM）是组成由具有许多参数（通常数十亿个或更多）的人工神经网络。其基础是人类已经产生的各类知识产品，包括各类公开发表的或在网上出现的文章、著作，以及各类网文、帖子等。

目前，大模型最大的语料库来自于用户生成内容（UGC），但更为严谨的并获得反复验证的百科全书式知识信息，才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物，包括在报纸、期刊文章和著作。

ChatGPT作为大模型能先领风骚，主要依赖于英文语料库；如果中国的大模型AI发展要获得突破，必然要依赖于中文。

英文语料库的优势

一项研究显示，从1900-2015年，收录于SCI的有3000多万篇文章，其中，92.5%的文章是以英语发表的；SSCI出版的400多万篇文章中，93%的文章是用英语发表。

这些情况表明，由于英文语料库的占比最大，因而依赖英语训练的大模型也更具有可信性和权威性。因此，目前世界上一流的大模型都是靠英文语料库来训练和生成大模型。

以ChatGPT为例，训练数据中，中文语料比重不足千分之一，而英文语料占比超过92.6%。

中文语料的困境

这对中国的人工智能发展显然是一个挑战。中国要研发更多更可靠和更实用的大模型AI，必须依赖中文语料，或建立中文语料库。中国目前欠缺系统化、优质的中文语料，中文语料的不足会极大地限制中国AI的发展。

值得注意的是，这并非没有解决办法。比如，在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料就显示，尽管中国的报纸出版有波动，但2019年中国报纸出版种类为1851种。

但由于资料挖掘不足、公开出版物不容易上网或没有网络版、一些中文语料因为年代久远等因素也难以在市场上自由流通，导致目前中文优质数据稀缺。

建立多元化语料库

加快中文语料的开发，首先在于提高语料库的质量，如此才能进一步共享和利用。中国目前中文语料丰富，建设一个多元化和多模式的语料库有以下途径：

加强数据合规监管机制
加强数据安全和知识产权的保护
加快高质量中文数据集的开发与利用

通过这些举措，可以补齐优质中文语料数据短板，为中国人工智能的发展奠定坚实的基础。

华为盘古大模型是什么？为什么很多人说其让很多的AI头部玩家崩溃了？

华为盘古：超大规模AI的革命性突破

华为云以创新为驱动，震撼发布了盘古系列超大规模预训练模型，其中包括视觉CV和强大的中文NLP模型。这一突破性成果在CLUE榜单上创造了多项新纪录，展现出极高的易用性与成本效益，让AI领域的众多顶级玩家都为之瞩目。对于开发者而言，盘古模型提供了一套定制化开发的解决方案，以及直观易用的界面，简化了技术接入过程。

华为作为国内视觉预训练的先驱，其盘古CV大模型已经成功应用于超过100种场景，显著提升了精度，并展示了卓越的迁移能力。得益于其自研的全局对比度自监督学习方法，盘古在处理弱标签信息、扩展局部关系和处理多视角、不同尺度图像等方面实现了显著改进，不仅提高了模型性能，还降低了标注成本和迭代周期的复杂性。

在电力智能巡检领域，盘古CV大模型凭借海量数据（数十TB）的处理能力，成功将标注成本降低了80%以上，同时将迭代效率提升了一倍，展现了其在实际应用中的威力和效率。

面对盘古2000亿参数模型所带来的巨大挑战，华为研发团队不仅开发了业界首例千亿规模的中文预训练API，还巧妙地运用MindSpore框架，实现了5维并行（数据、算子、Pipeline、优化器模型并行）的分布式训练技术。这种智能并行策略将复杂的技术细节整合到一个易于配置的框架中，使得大模型的训练变得更加高效。在2000亿参数模型中，MindSpore巧妙地将16个stage分配到64层，通过算子级并行在服务器内卡间、Pipeline并行在机架间以及数据并行跨机架，实现了资源的最优利用。

传统的神经网络架构中，算子的复杂性各异，往往限制了硬件的充分利用。MindSpore引入图算融合优化技术，将常规算子重组为高效版本，如将LayerNorm简化为高性能组合，使得盘古模型的训练时间减少超过20%。这一技术不仅提升了整体性能，而且在NLP和CV任务上也展现出了卓越的优化效果。

华为的盘古系列预训练模型以其卓越的性能和创新的并行策略，正在重塑AI领域的竞争格局，为开发者和行业应用带来前所未有的可能性。要深入了解华为云的最新技术和动态，不妨关注华为云官方，那里将不断揭示更多前沿技术的精彩故事。

近年，科技是否进入了“瓶颈期”？有何突破？

人类的经济水平就进入了一个崭新的阶段，这一切的背后都离不开科学家的无私奉献，尤其是在18世纪，科学家们就提出了不少的伟大理论。可以说如果没有这些理论的指引，人类的科技至少要落后数百年的时间。

爱因斯坦、牛顿等人的出现，对于社会起着与众不同的意义。爱因斯坦的相对论影响至今，罗斯福在原子结构上的突破，奠定了整个核物理的基础。科研人员如今研究的很多理论，也是在上个世纪被科学家提出的。我们心中不禁出现了一个疑问，为何在科技发展近百年的时间里，没有出现拥有超高贡献的科学家呢？

有不少人认为，近百年的科学毫无突破，文明的发展可能遭到了阻碍，如果这个阻碍没有办法破解，我们将永远被困在地球上。根据数据显示，全球每年的人口数量正在不断增加，地球的资源也在面临着枯竭，如果我们真的永远被困在地球上，那么等待人类的只有一个结果，那就是走向灭亡。

纵观整个人类科学史，曾出现过很多的先进技术，只是它们大多都诞生于上个世纪20年代。从那个时期之后，人类的发展基本是在验证已有的科学理论。如今，21世纪已经过去了2成的时间，文明却没有发生翻天覆地的变化。文明似乎一直处于止步不前的状态，那么事实真的是这样吗？

其实只要细想一下，在近百年的时间里，人类的文明也是有所进步，几乎每天都会有新科技的出现，只要我们善于观察，就能够发现科技水平，也处于一个增长的情况，只不过呈现出来的并不是直线上升的情况。目前，科研人员着手的方向，就是原有理论的细致分析。不可否认，这些年的确没有出现像爱因斯坦这样的科学家，但这并不代表人类的科技水平没有进步，只能说进步的程度相对比较平和。科研人员的研究方向不再局限于科学领域，而是扩展到医学等各个方面。

在我国，像袁隆平、屠呦呦、钱学森等科学家，他们分别在杂交事业、医疗事业、国防事业上，都有着不俗的成就，在国际上也是名震四方。在他们的努力下，我们国人的生活也是日益变好。我们并不能看不到科技的突飞猛进，就去否认科学家的成绩。不知道你对此有什么样的观点呢？

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 大模型