突破技术瓶颈-破解大模型中文语料不足问题 (突破技术瓶颈,重汽底盘赋能100K防撞车安全高效运行)
在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
大模型的语料库
AI大语言模型(LLM)是组成由具有许多参数(通常数十亿个或更多)的人工神经网络。其基础是人类已经产生的各类知识产品,包括各类公开发表的或在网上出现的文章、著作,以及各类网文、帖子等。
目前,大模型最大的语料库来自于用户生成内容(UGC),但更为严谨的并获得反复验证的百科全书式知识信息,才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物,包括在报纸、期刊文章和著作。
ChatGPT作为大模型能先领风骚,主要依赖于英文语料库;如果中国的大模型AI发展要获得突破,必然要依赖于中文。
英文语料库的优势
一项研究显示,从1900-2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。
这些情况表明,由于英文语料库的占比最大,因而依赖英语训练的大模型也更具有可信性和权威性。因此,目前世界上一流的大模型都是靠英文语料库来训练和生成大模型。
以ChatGPT为例,训练数据中,中文语料比重不足千分之一,而英文语料占比超过92.6%。
中文语料的困境
这对中国的人工智能发展显然是一个挑战。中国要研发更多更可靠和更实用的大模型AI,必须依赖中文语料,或建立中文语料库。中国目前欠缺系统化、优质的中文语料,中文语料的不足会极大地限制中国AI的发展。
值得注意的是,这并非没有解决办法。比如,在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料就显示,尽管中国的报纸出版有波动,但2019年中国报纸出版种类为1851种。
但由于资料挖掘不足、公开出版物不容易上网或没有网络版、一些中文语料因为年代久远等因素也难以在市场上自由流通,导致目前中文优质数据稀缺。
建立多元化语料库
加快中文语料的开发,首先在于提高语料库的质量,如此才能进一步共享和利用。中国目前中文语料丰富,建设一个多元化和多模式的语料库有以下途径:
- 加强数据合规监管机制
- 加强数据安全和知识产权的保护
- 加快高质量中文数据集的开发与利用
通过这些举措,可以补齐优质中文语料数据短板,为中国人工智能的发展奠定坚实的基础。
华为盘古大模型是什么?为什么很多人说其让很多的AI头部玩家崩溃了?
华为盘古:超大规模AI的革命性突破
华为云以创新为驱动,震撼发布了盘古系列超大规模预训练模型,其中包括视觉CV和强大的中文NLP模型。这一突破性成果在CLUE榜单上创造了多项新纪录,展现出极高的易用性与成本效益,让AI领域的众多顶级玩家都为之瞩目。对于开发者而言,盘古模型提供了一套定制化开发的解决方案,以及直观易用的界面,简化了技术接入过程。
华为作为国内视觉预训练的先驱,其盘古CV大模型已经成功应用于超过100种场景,显著提升了精度,并展示了卓越的迁移能力。得益于其自研的全局对比度自监督学习方法,盘古在处理弱标签信息、扩展局部关系和处理多视角、不同尺度图像等方面实现了显著改进,不仅提高了模型性能,还降低了标注成本和迭代周期的复杂性。
在电力智能巡检领域,盘古CV大模型凭借海量数据(数十TB)的处理能力,成功将标注成本降低了80%以上,同时将迭代效率提升了一倍,展现了其在实际应用中的威力和效率。
面对盘古2000亿参数模型所带来的巨大挑战,华为研发团队不仅开发了业界首例千亿规模的中文预训练API,还巧妙地运用MindSpore框架,实现了5维并行(数据、算子、Pipeline、优化器模型并行)的分布式训练技术。这种智能并行策略将复杂的技术细节整合到一个易于配置的框架中,使得大模型的训练变得更加高效。在2000亿参数模型中,MindSpore巧妙地将16个stage分配到64层,通过算子级并行在服务器内卡间、Pipeline并行在机架间以及数据并行跨机架,实现了资源的最优利用。
传统的神经网络架构中,算子的复杂性各异,往往限制了硬件的充分利用。MindSpore引入图算融合优化技术,将常规算子重组为高效版本,如将LayerNorm简化为高性能组合,使得盘古模型的训练时间减少超过20%。这一技术不仅提升了整体性能,而且在NLP和CV任务上也展现出了卓越的优化效果。
华为的盘古系列预训练模型以其卓越的性能和创新的并行策略,正在重塑AI领域的竞争格局,为开发者和行业应用带来前所未有的可能性。要深入了解华为云的最新技术和动态,不妨关注华为云官方,那里将不断揭示更多前沿技术的精彩故事。
近年,科技是否进入了“瓶颈期”?有何突破?
人类的经济水平就进入了一个崭新的阶段,这一切的背后都离不开科学家的无私奉献,尤其是在18世纪,科学家们就提出了不少的伟大理论。可以说如果没有这些理论的指引,人类的科技至少要落后数百年的时间。
爱因斯坦、牛顿等人的出现,对于社会起着与众不同的意义。爱因斯坦的相对论影响至今,罗斯福在原子结构上的突破,奠定了整个核物理的基础。科研人员如今研究的很多理论,也是在上个世纪被科学家提出的。我们心中不禁出现了一个疑问,为何在科技发展近百年的时间里,没有出现拥有超高贡献的科学家呢?
有不少人认为,近百年的科学毫无突破,文明的发展可能遭到了阻碍,如果这个阻碍没有办法破解,我们将永远被困在地球上。根据数据显示,全球每年的人口数量正在不断增加,地球的资源也在面临着枯竭,如果我们真的永远被困在地球上,那么等待人类的只有一个结果,那就是走向灭亡。
纵观整个人类科学史,曾出现过很多的先进技术,只是它们大多都诞生于上个世纪20年代。从那个时期之后,人类的发展基本是在验证已有的科学理论。如今,21世纪已经过去了2成的时间,文明却没有发生翻天覆地的变化。文明似乎一直处于止步不前的状态,那么事实真的是这样吗?
其实只要细想一下,在近百年的时间里,人类的文明也是有所进步,几乎每天都会有新科技的出现,只要我们善于观察,就能够发现科技水平,也处于一个增长的情况,只不过呈现出来的并不是直线上升的情况。目前,科研人员着手的方向,就是原有理论的细致分析。不可否认,这些年的确没有出现像爱因斯坦这样的科学家,但这并不代表人类的科技水平没有进步,只能说进步的程度相对比较平和。科研人员的研究方向不再局限于科学领域,而是扩展到医学等各个方面。
在我国,像袁隆平、屠呦呦、钱学森等科学家,他们分别在杂交事业、医疗事业、国防事业上,都有着不俗的成就,在国际上也是名震四方。在他们的努力下,我们国人的生活也是日益变好。我们并不能看不到科技的突飞猛进,就去否认科学家的成绩。不知道你对此有什么样的观点呢?
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。