当前位置:首页 > 数码 > 突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)

突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)

admin7个月前 (04-13)数码46

在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。

大模型的语料库

AI大语言模型(LLM)是组成由具有许多参数(通常数十亿个或更多)的人工神经网络。其基础是人类已经产生的各类知识产品,包括各类公开发表的或在网上出现的文章、著作,以及各类网文、帖子等。

目前,大模型最大的语料库来自于用户生成内容(UGC),但更为严谨的并获得反复验证的百科全书式知识信息,才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物,包括在报纸、期刊文章和著作。

ChatGPT作为大模型能先领风骚,主要依赖于英文语料库;如果中国的大模型AI发展要获得突破,必然要依赖于中文。

英文语料库的优势

一项研究显示,从1900-2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。

这些情况表明,由于英文语料库的占比最大,因而依赖英语训练的大模型也更具有可信性和权威性。因此,目前世界上一流的大模型都是靠英文语料库来训练和生成大模型。

以ChatGPT为例,训练数据中,中文语料比重不足千分之一,而英文语料占比超过92.6%。

中文语料的困境

这对中国的人工智能发展显然是一个挑战。中国要研发更多更可靠和更实用的大模型AI,必须依赖中文语料,或建立中文语料库。中国目前欠缺系统化、优质的中文语料,中文语料的不足会极大地限制中国AI的发展。

值得注意的是,这并非没有解决办法。比如,在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料就显示,尽管中国的报纸出版有波动,但2019年中国报纸出版种类为1851种。

但由于资料挖掘不足、公开出版物不容易上网或没有网络版、一些中文语料因为年代久远等因素也难以在市场上自由流通,导致目前中文优质数据稀缺。

建立多元化语料库

重汽底盘赋能100K防撞车安全高效运行

加快中文语料的开发,首先在于提高语料库的质量,如此才能进一步共享和利用。中国目前中文语料丰富,建设一个多元化和多模式的语料库有以下途径:

  1. 加强数据合规监管机制
  2. 加强数据安全和知识产权的保护
  3. 加快高质量中文数据集的开发与利用

通过这些举措,可以补齐优质中文语料数据短板,为中国人工智能的发展奠定坚实的基础。

本文作者:张田勘


华为盘古大模型是什么?为什么很多人说其让很多的AI头部玩家崩溃了?

华为盘古:超大规模AI的革命性突破

华为云以创新为驱动,震撼发布了盘古系列超大规模预训练模型,其中包括视觉CV和强大的中文NLP模型。这一突破性成果在CLUE榜单上创造了多项新纪录,展现出极高的易用性与成本效益,让AI领域的众多顶级玩家都为之瞩目。对于开发者而言,盘古模型提供了一套定制化开发的解决方案,以及直观易用的界面,简化了技术接入过程。

华为作为国内视觉预训练的先驱,其盘古CV大模型已经成功应用于超过100种场景,显著提升了精度,并展示了卓越的迁移能力。得益于其自研的全局对比度自监督学习方法,盘古在处理弱标签信息、扩展局部关系和处理多视角、不同尺度图像等方面实现了显著改进,不仅提高了模型性能,还降低了标注成本和迭代周期的复杂性。

在电力智能巡检领域,盘古CV大模型凭借海量数据(数十TB)的处理能力,成功将标注成本降低了80%以上,同时将迭代效率提升了一倍,展现了其在实际应用中的威力和效率。

面对盘古2000亿参数模型所带来的巨大挑战,华为研发团队不仅开发了业界首例千亿规模的中文预训练API,还巧妙地运用MindSpore框架,实现了5维并行(数据、算子、Pipeline、优化器模型并行)的分布式训练技术。这种智能并行策略将复杂的技术细节整合到一个易于配置的框架中,使得大模型的训练变得更加高效。在2000亿参数模型中,MindSpore巧妙地将16个stage分配到64层,通过算子级并行在服务器内卡间、Pipeline并行在机架间以及数据并行跨机架,实现了资源的最优利用。

传统的神经网络架构中,算子的复杂性各异,往往限制了硬件的充分利用。MindSpore引入图算融合优化技术,将常规算子重组为高效版本,如将LayerNorm简化为高性能组合,使得盘古模型的训练时间减少超过20%。这一技术不仅提升了整体性能,而且在NLP和CV任务上也展现出了卓越的优化效果。

华为的盘古系列预训练模型以其卓越的性能和创新的并行策略,正在重塑AI领域的竞争格局,为开发者和行业应用带来前所未有的可能性。要深入了解华为云的最新技术和动态,不妨关注华为云官方,那里将不断揭示更多前沿技术的精彩故事。

近年,科技是否进入了“瓶颈期”?有何突破?

人类的经济水平就进入了一个崭新的阶段,这一切的背后都离不开科学家的无私奉献,尤其是在18世纪,科学家们就提出了不少的伟大理论。可以说如果没有这些理论的指引,人类的科技至少要落后数百年的时间。

爱因斯坦、牛顿等人的出现,对于社会起着与众不同的意义。爱因斯坦的相对论影响至今,罗斯福在原子结构上的突破,奠定了整个核物理的基础。科研人员如今研究的很多理论,也是在上个世纪被科学家提出的。我们心中不禁出现了一个疑问,为何在科技发展近百年的时间里,没有出现拥有超高贡献的科学家呢?

有不少人认为,近百年的科学毫无突破,文明的发展可能遭到了阻碍,如果这个阻碍没有办法破解,我们将永远被困在地球上。根据数据显示,全球每年的人口数量正在不断增加,地球的资源也在面临着枯竭,如果我们真的永远被困在地球上,那么等待人类的只有一个结果,那就是走向灭亡。

纵观整个人类科学史,曾出现过很多的先进技术,只是它们大多都诞生于上个世纪20年代。从那个时期之后,人类的发展基本是在验证已有的科学理论。如今,21世纪已经过去了2成的时间,文明却没有发生翻天覆地的变化。文明似乎一直处于止步不前的状态,那么事实真的是这样吗?

其实只要细想一下,在近百年的时间里,人类的文明也是有所进步,几乎每天都会有新科技的出现,只要我们善于观察,就能够发现科技水平,也处于一个增长的情况,只不过呈现出来的并不是直线上升的情况。目前,科研人员着手的方向,就是原有理论的细致分析。不可否认,这些年的确没有出现像爱因斯坦这样的科学家,但这并不代表人类的科技水平没有进步,只能说进步的程度相对比较平和。科研人员的研究方向不再局限于科学领域,而是扩展到医学等各个方面。

在我国,像袁隆平、屠呦呦、钱学森等科学家,他们分别在杂交事业、医疗事业、国防事业上,都有着不俗的成就,在国际上也是名震四方。在他们的努力下,我们国人的生活也是日益变好。我们并不能看不到科技的突飞猛进,就去否认科学家的成绩。不知道你对此有什么样的观点呢?

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 大模型

“突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)” 的相关文章

几何-成效-大模型跑分刷榜 (成就几何)

几何-成效-大模型跑分刷榜 (成就几何)

作为今年新硅编辑部的一员,我们最大的困扰就是面对超越GPT的大模型时陷入无尽的沉思。 为什么GPT如此容易被超越?在第一个中文大模型和第一个垂类大模型的名号相继被各大科技公司占领之后,这场竞...

钻研人员发现新型攻打形式-可经过图像和音频操纵大模型 (钻研人员发现了什么)

钻研人员发现新型攻打形式-可经过图像和音频操纵大模型 (钻研人员发现了什么)

随着大言语模型(LLM)开局整合多模态配置,攻打者或许会在图像和音频中暗藏恶意指令,应用这些指令操纵聊天机器人(例如)面前的LLM对用户揭示的照应。在2023年欧洲黑帽大会上示意,钻研人员指出,...

大模型轻松标注图像-NUS合作的神奇对话式标注-清华&amp (大模型 ai)

大模型轻松标注图像-NUS合作的神奇对话式标注-清华&amp (大模型 ai)

随着多模态大模型的发展,v的登场为该领域带来了新一批模型,如LLaVA、BLIP-2等。为了进一步扩展多模态大模型的区域理解能力,研究团队打造了一个可以同时进行对话和检测、分割的多模态模型NExT...

BentoML-实践指南-使用-JuiceFS-加速大模型加载 (奔腾)

BentoML-实践指南-使用-JuiceFS-加速大模型加载 (奔腾)

简介 BentoML 是一个开源的大语言模型(LLM)应用开发框架和部署工具,致力于为开发者提供最简单的构建大语言模型 AI 应用的能力。当 BentoML 在 Serverless 环境中...

Shift-AI-Giant-Generative-Unveils-Multimodal-Parameter-Comprehensive-Apple-300Billion-with (Shift+f5什么功能)

Shift-AI-Giant-Generative-Unveils-Multimodal-Parameter-Comprehensive-Apple-300Billion-with (Shift+f5什么功能)

相较于英伟达、微软等大型科技股,苹果往年的体现令人绝望不已,股价年内跌逾10%,且失去了环球市值最高公司的宝座。 面前要素很便捷,苹果在这场人工智能()比赛中落伍了。为了解脱困境,苹果近期...

周鸿祎分享大模型十大趋势-2024年或迎杀手级应用 (周鸿祎讲座)

周鸿祎分享大模型十大趋势-2024年或迎杀手级应用 (周鸿祎讲座)

在2023年风马牛年终秀上,360集团创始人周鸿祎分享了对2024年大模型发展趋势的十大预测,呼吁企业树立信仰,AllinAI。 十大预测 大模型成为数字系统标配,无处不在。...

大模型-从基础到实质-深度揭秘人工智能中的庞然大物 (模型基础)

大模型-从基础到实质-深度揭秘人工智能中的庞然大物 (模型基础)

大模型:人工智能领域的新篇章 大模型的定义与特点 大模型是指参数量达到亿级甚至更大规模的深度学习模型。与传统机器学习模型相比,大模型在三个方面呈现出更高的规模: - 数据量:大模型需要大量的有...