当前位置:首页 > 数码 > 超长文本-AI大模型突破的潜力之窗 (超长文本复制)

超长文本-AI大模型突破的潜力之窗 (超长文本复制)

admin7个月前 (04-14)数码49

关键概念

  1. 大模型(LLM):一种具有大量参数和训练数据集的机器学习模型,能够处理复杂的任务,如自然语言理解、图像生成和代码编写。
  2. 上下文:一段文本或数据,它提供了理解目标文本或数据所需的背景知识。
  3. 超长上下文:长度远超标准文本处理任务所使用的上下文。

超长上下文的重要性

超长上下文在以下方面至关重要:
  • 提升推理能力:更长的上下文可以提供更多信息,帮助模型做出更准确和全面的推理。
  • 支持复杂任务:超长上下文可以允许模型处理需要大量背景知识的任务,例如撰写长篇小说或分析复杂代码库。
  • 增强泛化能力:大量的上下文可以帮助模型从各种数据源中学习,提高其在不同场景中的泛化能力。

国产大模型竞逐

国内大模型厂商正在竞相提升其模型的超长上下文处理能力。例如:
  • Kimi:来自月之暗面公司的Kimi,拥有200万字的无损上下文处理能力,可以分析完整代码库和撰写多步骤复杂任务。
  • 通义千问:来自阿里巴巴的通义千问,可以免费开放1000万字的长文档处理功能,帮助用户快速分析报告和本文。
  • MiniMaxABAB:来自稀宇科技的MiniMaxABAB,可以处理100万字的上下文,支持长篇小说和智能体交互。

局限性与质疑

尽管超长上下文处理能力很重要,但也存在一些局限性:
  • 计算成本高昂:推理超长上下文所需的计算资源非常高,尤其是在处理实时数据时。
  • 信息冗余:超长上下文中可能包含大量冗余或无关信息,这可能会降低模型的效率。
  • 噱头炒作:一些厂商可能夸大其模型的超长上下文处理能力,而忽视了实际应用价值。

未来展望

超长上下文处理能力在大模型的发展中将继续扮演重要角色。未来,我们预计以下趋势:
  • 更长的上下文长度:模型的上下文长度将不断增加,以支持更复杂和要求更高的任务。
  • 轻量级优化:研究人员将探索轻量级的技术,以降低超长上下文处理的计算成本。
  • 实际应用:大模型的超长上下文处理能力将被应用于各种行业,例如金融、医疗和教育。

结论

超长上下文处理能力正在成为国产大模型竞逐的新焦点。它为模型提供了更多信息,增强了推理能力、支持了复杂任务并提升了泛化能力。虽然存在局限性,但超长上下文处理能力有望在大模型的发展和应用中发挥越来越重要的作用。

AI大模型扎堆上线,你觉得谁能强势出圈?

撰文 / 涂彦平编辑 / 黄大路设计 / 赵昊然

ChatGPT在这个春天霸占了中文互联网,普通人面对它多生出兴奋和焦虑交织的复杂情绪,而大公司不甘落后,纷纷宣布自己也在做类似的AI大模型。

继3月16日网络发布文心一言之后,4月7日,阿里云官宣大模型通义千问开始邀请测试。

4月8日,在人工智能大模型技术高峰论坛上,华为云人工智能领域首席科学家田奇分享了盘古大模型的进展及应用。他透露,华为盘古大模型正在推动人工智能开发从“作坊式”到“工业化”升级。

AI大模型突破的潜力之窗

接下来,有多场大模型相关发布会扎堆举办。

4月10日,商汤“日日新SenseNova”大模型体系问世;4月11日,毫末智行自动驾驶生成式大模型DriveGPT雪湖·海若发布;由昆仑万维和奇点智源合作研发的天工大模型3.5发布在即,并将于4月17日启动邀请测试;5月6日,科大讯飞“1+N认知智能大模型”即将发布……

互联网巨头、人工智能公司、智能硬件公司、自动驾驶公司等各方力量,都积极参与到大模型这一场盛宴中来。

行业监管也迅速出手。4月11日,国家网信办发布通知,就《生成式人工智能服务管理办法(征求意见稿)》面向社会公开征求意见。

根据计算机科学家、自然语言模型专家吴军的说法,ChatGPT背后是一个叫做语言模型的数学模型在发挥作用,这项语言模型技术早在1972年就已经有了,是由他的导师弗莱德里克·贾里尼克(Fred Jelinek)在IBM期间带领团队研发出来的。

只是到了今天,由于算力不断提升,语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型,并逐步走向大模型的时代。

复旦大学计算机学院教授、MOSS系统负责人邱锡鹏曾这样描述大模型的能力飞跃:“当模型规模较小时,模型的性能和参数大致符合比例定律,即模型的性能提升和参数增长基本呈线性关系。然而,当 GPT-3/ChatGPT 这种千亿级别的大规模模型被提出后,人们发现其可以打破比例定律,实现模型能力质的飞跃。这些能力也被称为大模型的‘涌现能力’(如理解人类指令等)。”

每当有革命性的技术诞生,无一不是由其在具体行业的商用化应用来实质性地推动行业进步。作为连接技术生态和商业生态的桥梁,大模型也将在很多行业应用落地。

只是,这波来势凶猛的大模型热,究竟会催生万物生长改变万千业态,还是继区块链、元宇宙之后又一个看上去很美的泡沫?

无限想象空间?

特斯拉将Transformer大模型引入自动驾驶领域中,拉开了AI大模型在自动驾驶领域应用的开端。大模型在自动驾驶行业的应用将提升系统的感知和决策能力,已经被视为自动驾驶能力提升的核心驱动力。

4月2日,网络正式发布网络自动驾驶云Apollo Cloud2.0。网络智能驾驶事业群副总裁、智能网联业务总经理高果荣表示,Apollo Cloud2.0基于大模型实现了自动驾驶数据智能的搜索引擎,大模型的能力积累了自动驾驶数据智能的搜索引擎,从海量数据中能够精准找到自动驾驶面向不同场景的数据。

“在自动驾驶领域,BEV(Birds Eye View,鸟瞰视图)是当前主流的技术路线,未来可以朝着多模态、通用智能的方向发展。”商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示。

他认为,在通用人工智能时代,输入提示词和多模态内容,就可以生成多模态的数据,更重要的是,可以用自然语言生成对任务的描述,用非常灵活的方式覆盖大量的长尾问题和开放性的任务,甚至是一些主观描述。

王晓刚举了一个例子来说明AI和AGI处理任务的不同。给定一张图片,判断是否需要减速,AI和AGI的反应有什么不一样呢?

现有的AI系统,会首先做物体检测,然后再物体框里做文字识别,最后做决策。整个过程中每一个模块都是事先定义好的任务。

而在通用人工智能下,给定图像,人们只需要用自然语言去问问题,比如,“这个图标是什么意思?我们应该做什么?”模型本身不会发生变化,它会通过自然语言的方式给出一系列逻辑推理,最后得出结论。比如,它会说,“前面限速30公里/小时”“前面100米是学校区域”“有小孩”“应该小心驾驶”“将车速降到30公里/小时以下”等。

王晓刚还指出,智能驾驶汽车领域有“数据飞轮”的说法,通用人工智能时代则会产生“智慧飞轮”,人和模型之间可以互动,通过人的反馈,模型能更好地理解人需要它展示什么样的能力,而去解锁更多技能。从数据飞轮升级到智慧飞轮,可以实现人机共智。

商汤基于多模态大模型,可做到数据的感知闭环和决策闭环。从前端自动采集高质量的数据,到利用大模型进行自动化的数据标注和产品检测,“能够几百倍地提升模型迭代的效率并降低成本”。

华为云EI服务产品部总裁尤鹏也表示,“整个数据标注是整个自动驾驶领域准确率、效率、成本最高的一部分”,这部分的效率直接影响到自动驾驶算法和驾驶等级的提升。他透露,华为云正在做预训练标注大模型,支撑后续的自动驾驶算法的训练,可能会在几个月后会发布。

除了自动驾驶,很多行业人士相信,智能座舱也将在大模型的赋能下有着质的提升,尤其将为人机交互打开新的大门。

网络集团资深副总裁、智能驾驶事业群组总裁李震宇认为人工智能将重塑汽车空间,人与汽车的关系将会截然不同。“未来,我们相信每辆汽车都会搭载一个数字虚拟人。未来的数字虚拟人不仅可以模拟人的外形,还可以注入灵魂,真正拥有对人类意图的理解……同时也不再是单一以前场景的车机助理的身份,而会转化成全能助理。”

他相信,随着通用人工智能的发展,智能座舱将成为汽车创新的新焦点,将会重塑其空间,届时用户和车企之间的距离将缩短,用户和品牌之间的关系将更为紧密。“拥有自然语言交流能力的智能车可以让车企与用户直接进行一对一的对话。当汽车成为全能助理后,车企将面对用户需求爆发式的增长。”

王晓刚称,在智能座舱板块,通用人工智能可以使基模型具备对空间环境的理解、用户状态的感知、多模态指令解析及多轮逻辑对话、内容生成等一系列能力,进而赋能包括情绪感知、智能助手、基于情感的对话、创意内容生成、个性交互等一系列功能,不断地提升个性化体验,进一步拓展应用场景。

“智能汽车是通用人工智能实现闭环的一个非常好的场景,我们已经有人机共驾。”王晓刚表示,“未来我们希望车和模型之间能够产生更有效的互动,那就完成了从人到车到模型这样一个互动闭环,能够让通用人工智能为我们提供更好的驾乘体验,解锁无限的想象空间。”

只是,消费者距离这种有着“无限的想象空间”的汽车生活还有多远,没有人说得出答案。

希望在于将来

想象是美好的,不过,挑战也随之而来。

“过去我们一年要做大概1000万帧的自动驾驶图像的人工标定,请外包公司进行标定,大概6到8元钱一张,一年的成本接近一个亿。但是当我们使用软件2.0的大模型通过训练的方式进行自动化标定,效果会非常可怕——过去需要用一年做的事情基本上三个小时就能完成,效率是人的1000倍。”理想汽车创始人、董事长兼CEO李想OK表示,“对于员工来说,他们会感觉用拳头打架遇到了拿枪的。”

他认为,在这样的状况下,如何能够让软件2.0和现有人才进行融合,为他们提供怎样的全新工作流程、激励机制,如何去选用任用人才,给全行业提出了挑战。

更大的挑战可能还在于中外大模型技术的差距。

3月25日,在2023中国发展高层论坛上,360创始人、董事长兼CEO周鸿祎表示,目前来看,中国大语言模型和GPT-4的差距在两到三年时间,GPT的技术方向已经明确,不存在难以逾越的技术障碍,中国在场景化、工程化、产品化、商业化方面拥有巨大优势,应当坚持长期主义精神,迎头赶上。

4月9日,由中国人工智能学会主办的人工智能大模型技术高峰论坛上,融汇金信CTO李长亮认为,未来做通用大模型的和做场景的分层很清晰,没有中间态。做通用大模型需要大量的算力、数据、人员、资源等,只有有很强技术储备和资源调配能力的大公司才能做,中小创业公司在这条赛道上会很难;在垂直应用上,基于大模型的发展,结合场景的know-how做一些创新应用,则会有无数的企业诞生。

他还认为,中国在大模型这个产业赛道上是很有机会的,因为在中文场景下,我们更懂我们自己的语言,沉淀了大量的中文知识,会迅速追赶并超越。

我们也注意到,计算机科学家、自然语言模型专家吴军在4月3日晚得到的一场直播中则给当下的ChatGPT热泼了盆冷水。他直言ChatGPT在中国被过度炒作了,中国的大部分研究机构是做不了的。

在他看来,ChatGPT的原理很简单,但是在工程上要想做到,其实蛮困难,因为ChatGPT太耗资源,光硬件的成本就要差不多10亿美元,这还没算电钱。ChatGPT训练一次要耗多少电?吴军的说法是,大概是3000辆特斯拉的电动汽车,每辆跑到20万英里,把它跑死,这么大的耗电量,才够训练一次。这是非常花钱的一件事。

他的结论是,ChatGPT不算是一项新的技术革命,带不来什么新机会,最后可能的一个结果就是给几家大的做云计算的公司交钱。

由ChatGPT带起的大模型热,最终会在各行各业开花结果,还是盛名之下其实难副?不妨把这个问题交给时间。

ai大模型怎么进入?

进入ai大模型的方法如下:

工具:联想2020、Winsows11、360浏览器13.1.1469.0。

1、进入盘古大模型官网,点击【申请体验】。

2、盘古大模型支持以下模型,按照自己的需求来选择模型,以【NLP模型】举例,点击【申请体验】。

3、登录华为账号,没有华为账号的朋友需要注册华为账号。

4、接着按照提示填写信息内容,然后点击【下一步】便可进行体验。

5、需要注意的是,用户需要去华为云服务完成实名认证,否则申请界面会弹出这个提醒。没有完成实名认证,申请会受到限制。

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: AI大模型

“超长文本-AI大模型突破的潜力之窗 (超长文本复制)” 的相关文章

从研究创新到市场应用-探索中国-AI-大模型的商业化之路 (研究创新性从几个角度)

从研究创新到市场应用-探索中国-AI-大模型的商业化之路 (研究创新性从几个角度)

大模型的商业化之路:困境与机遇 导言 大模型,作为人工智能领域的重大突破,拥有改变各行各业的潜力。其商业化之路却面临着重重困境。本文将深入探讨大模型商业化的困局、探索可行的路径,并深入分析中国市...

应用和未来展望-深入解读AI大模型-技术 (未来应用是做什么的)

应用和未来展望-深入解读AI大模型-技术 (未来应用是做什么的)

简介 AI大模型,或称大型人工智能模型,是近年来人工智能领域的一项重大进展。通过在大规模数据集上进行训练,AI大模型获得适应一系列下游任务的能力,展示出广泛的普适应用支撑能力。 AI大...

谷歌AI大模型Gemini-惊艳亮相-在复杂学科推理和编程言语了解方面逾越GPT (谷歌AI大模型概念股龙头)

谷歌AI大模型Gemini-惊艳亮相-在复杂学科推理和编程言语了解方面逾越GPT (谷歌AI大模型概念股龙头)

美国科技巨头谷歌今天发表推出人工默认模型Gemini,并针对三种不同的尺寸优化了Gemini1.0: GeminiUltra——谷歌最大、最有才干的模型,实用于高度复杂的义务。 Gem...

国产AI大模型再添新军-新一批模型通过备案-加速智能化变革 (国产ai大模型哪家强)

国产AI大模型再添新军-新一批模型通过备案-加速智能化变革 (国产ai大模型哪家强)

快科技1月30日消息,据媒体报道,新一批的国产大模型通过了备案许可,其中小米的小爱同学AI助手位居其中。据了解,此次共有13家企业14个AI大模型通过备案,是获批数量最大的一次,也是首次出现一家公...

AI大模型的入侵-工作灭绝的脚步比你想象中更快 (AI大模型的英文)

AI大模型的入侵-工作灭绝的脚步比你想象中更快 (AI大模型的英文)

大模型的道路:非浸入式与浸入式 在人工智能蓬勃发展的浪潮中,大模型已成为技术领域的主导力量。这些庞大的模型凭借着处理海量数据的强大能力,引发了技术世界的变革。在大模型的光鲜外观背后,一个亟待探讨的议...