当前位置:首页 > 数码 > 错过懊悔不已-LLM-大型言语模型-提醒其精华 (错过懊悔不已是什么歌)

错过懊悔不已-LLM-大型言语模型-提醒其精华 (错过懊悔不已是什么歌)

admin4个月前 (05-10)数码24

当蠢才享一篇知乎高赞文章,作者是张俊林教员。

图片

读完收获很多,能帮大家更好地理解、学习大模型。原文有2.8w字,我提炼了外围要点,浏览须要10min。

的出现给很多人带来了惊喜和觉悟。有人惊喜地发现大型言语模型(LLM)的成果如此杰出,而有人则看法到咱们对LLM的认知和开展理念距离环球先进水平还有很大差距。我是既惊喜又觉悟的一员,也是典型的中国人,擅长自我反思。因此,我开局反思,并将这篇文章作为反思的结果。

我以为,target=_blankclass=infotextkey>OpenAI在LLM的理念和相关技术方面上游于国外的和DeepMind大概半年到一年的期间,上游国际大概两年左右。在LLM这个疑问上,梯队很清楚,Google应该排在第二位,最能表现Google技术目光的是PaLM和Pathways,推出期间大概在2022年2月到4月之间。同一期间,OpenAI推出的是InstructGPT,从这里可以看出Google和OpenAI的差距。至于为什么这么说,你看了前面的内容就能了解。DeepMind之前的重点不时在强化学习攻克游戏和AIforscience等方面,对LLM的关注比拟晚,大概是在2021年才开局注重这个方向,目前仍在追逐形态。Meta在LLM上的关注更少,重点不时不在LLM上,目前也在致力追逐。这些机构是目前做得最好的,即使如此,国际的差距也是可以了解的。至于OpenAI关于LLM的理念是什么,我会在本文的最后一局部谈谈我的认知。

本文试图回答一些疑问:ChatGPT能否带来了NLP乃至AI畛域的钻研范式转换?假设是,那会带来怎样的影响?LLM从海量数据中学到了什么知识?LLM又是如何存取这些知识的?随着LLM规模逐渐增大,会带来什么影响?什么是InContextLearning?为什么它是一项很奥秘的技术?它和Instruct又是什么相关?LLM具有推理才干吗?思想链CoT又是怎样做的?等等。经过浏览本文,您将对这些疑问有一个答案。

在谈到LLM技术现状之前,我先微观地谈一下我心目中的钻研范式转换疑问,这样咱们才干更明晰地理解详细技术的变动。

假设咱们回忆NLP畛域的技术开展,或者会发现两次大的钻研范式转换。第一次性转换是从深度学习到两阶段预训练模型,期间跨度大概是2013年至2020年。在Bert和GPT模型出现之前,NLP畛域关键依赖于深度学习模型,其中外围技术是改良的LSTM和CNN模型以及SequencetoSequence+Attention的总体技术框架。但是,深度学习在NLP畛域的运行并没有取得很大的成功,关键要素是数据量的限度和特色抽取器的表白才干不够强。Bert和GPT模型的出现扭转了这一现状,引领了NLP畛域的技术转变。这种转变带来了两个影响:一是两边义务的沦亡,二是不同钻研方向技术路途的一致。

第二次转换是从预训练模型走向通用人工智能(AGI),期间跨度大概是2020年至今。ChatGPT是这次转换的关键节点,它成功了理想LLM模型的接口层,让LLM顺应人类的习气命令表白方式。这关于提高LLM的易用性和用户体验至关关键。这次转换将进一步推进LLM模型的开展,归入更多的钻研畛域,逐渐成功通用人工智能。

在这个背景下,很多NLP子畛域将不再具有独立钻研的价值,由于LLM模型可以经过排汇更多的畛域知识来处置这些疑问。同时,更多NLP之外的钻研畛域也将被归入LLM技术体系,成为通用人工智能的一局部。图像处置和多模态义务是其中的一个人造选用。

总的来说,LLM模型的开展趋向是谋求规模越来越大的模型,经过参与预训练数据的多样性来涵盖更多的畛域知识。人机接口技术也将继续改良,让LLM更好地顺应人类的表白方式。这些技术转变将对NLP畛域和其余钻研畛域发生深远影响。

接上去,咱们来梳理下GPT3.0之后LLM模型的干流技术停顿。

Transformer是一种弱小的特色抽取器,经过预训练环节,它可以学习到丰盛的知识。这些知识可以分为言语类知识和环球知识两大类。

言语类知识包括词法、词性、句法、语义等与人造言语了解相关的知识。钻研标明,Transformer可以学习各种档次的言语学知识,并且这些知识在模型的不同档次中有所散布。浅层的言语知识如词法、词性、句法等存储在低层和中层,而形象的言语知识如语义类知识则宽泛散布在中层和上层。

环球知识指的是关于实在事情和知识性知识的知识。钻研标明,Transformer可以从训练数据中排汇少量的环球知识,并且这些知识关键散布在中层和上层,尤其集中在中层。随着模型层数的参与,LLM可以学习到更多的环球知识。因此,可以将LLM看作是一种以模型参数表现的隐式知识图谱。

关于训练LLM模型所需的数据量,钻研标明,关于言语学知识来说,经常使用1000万到1亿单词的语料就足够了,但要学习理想类知识,则须要更多的训练数据。随着训练数据量的参与,预训练模型在各种下游义务中的成果也会越好。因此,从增量的训练数据中学到的更多是环球知识。

LLM模型将知识存储在Transformer的模型参数中。模型参数由多头留意力(MHA)和前馈神经网络(FFN)两局部组成。MHA关键用于计算单词或知识之间的相关强度,并对全局消息启动集成。而FFN局部存储了详细的知识。一种观念以为,FFN可以看作是一个存储少量详细知识的Key-Value存储器。FFN的第一层是Key层,用于识别输入中的言语或知识形式。第二层是Value层,用于存储与Key层对应的详细知识。FFN的输入层是经过SelfAttention获取的整个输入句子的全体消息。FFN的正向流传环节可以看作是经过Key层检测知识形式,而后取出对应的Value,并体如今输入上。

错过懊悔不已

图片

修正LLM模型中存储的知识有几种方法。一种方法是从训练数据的源头启动修正。经过追踪某条知识对应的训练数据源头,可以删除相关的数据源,而后从新预训练整个LLM模型。另一种方法是对LLM模型启动fine-tuning,依据新知识构建训练数据,让LLM模型在这个数据上启动fine-tuning。还有一种方法是间接修正LLM模型参数中存储的知识。这些方法都有各自的优缺陷,须要依据详细状况选用适合的方法。

随着LLM模型规模的增大,关于预训练阶段来说,参与训练数据量和模型参数规模是提高模型成果的关键。钻研标明,同时参与训练数据量和模型参数规模成果最好。此外,随着模型规模的增大,LLM在不同类型的义务上表现也有所不同。关于知识密集型义务,随着模型规模增大,义务成果越来越好。关于某些义务,随着模型规模的增大,义务成果出现出U形增长曲线。关于一些义务,LLM具有一种"涌现才干",当模型规模足够大时,义务成果突然出现性能增长。这些现象都须要进一步深化钻研。

InContextLearning和Instruct是两种不同的义务形容方式。InContextLearning是经过给出详细示例来形容义务,而Instruct是一种更形象的义务形容方式。目前的钻研标明,LLM可以从给定的示例中学习到Instruct的形容,但是关于LLM是如何成功这种学习的,目前还没有确切的答案。

在增强LLM的推理才干方面,目前的钻研关键集中在两个方向。一种是基于Prompt的方法,经过适合的提醒语或示例来激起LLM的推理才干。另一种是在预训练阶段引入程序代码,以增强LLM的推理才干。这两种方法可以相互补充,但从久远来看,参与训练数据的多样性和引入代码介入预训练是更为关键的。

基于Prompt的方法在激起LLM模型推理才干方面有着关键作用。可以将其分为三条技术路途。

第一种思绪是在疑问上追加辅佐推理Prompt。这种方法便捷间接,但在泛滥畛域都很有效。详细做法是在疑问前追加提醒语,例如"Let’sthinkstepbystep",而后将LLM的输入与疑问拼接,再追加提醒语"Therefore,theansweris",这样可以大幅参与LLM在各项推理义务中的成果。

第二种思绪是基于示例的思想链(ChainofThought)Prompting。这个方向是LLM推理钻研的关键方向。经过给出人工编写的推理示例,详细形容每个推理步骤,让LLM模型学会推理。这种方法可以清楚优化LLM模型的推理才干。

第三种思绪表现了一种分治算法的思想。将复杂的推理疑问合成成若干容易处置的子疑问,而后逐渐处置子疑问,最终推导出整个疑问的答案。这种思绪相似于分治算法,或者是提醒疑问实质、处置LLM复杂推理疑问的路途。

此外,参与代码预训练可以清楚增强LLM模型的推理才干。经过在预训练环节中参与代码数据,可以优化LLM模型在推理义务中的表现。这或者是由于代码数据中蕴含了数学类或逻辑推理类的数据,对处置下游数学推理疑问有协助。

总体而言,LLM模型具有推理才干,只是咱们须要适合的方法来激起它。未来的钻研可以集中在增强LLM的复杂推理才干、探求LLM在NLP之外畛域的运行、改良人机交互接口、构建高难度的综合义务评测数据集等方向。此外,还可以钻研如何提高LLM模型的训练效率,如稠密化模型等技术选项。

最后,要留意在复刻相似ChatGPT的模型时,选用适合的预训练形式、引入代码数据启动预训练、留意数据品质和多样性、降落模型规模的同时坚持成果、设计易用的人机交互接口等。这些选用将有助于成功弱小的LLM模型。


12/100 一生必读书目之《非暴力沟通》| 好好说话,是一种能力

1934—2015,国际非暴力沟通中心创始人,全球首位非暴力沟通专家。卢森堡博士早年师从心理学大师卡尔·罗杰斯,后来创立了非暴力沟通的原则和方法,不仅教会人们如何使个人生活更加和谐美好,同时解决了众多世界范围内的冲突和争端。由于其在促进人类和谐共处方面的突出成就,2006年他获得了地球村基金会颁发的和平之桥奖。

这是一本会让人因为名字而错过的一本好书,该书中文版入选香港大学推荐的50本必读书籍,我也将其列入了一生必读书目之一。为什么这本不到200页的书会至今畅销不衰,因为它要告诉你的,是如何改变你一直习以为常却不断带来困扰的沟通方式,拥有爱自己和爱别人的能力,让爱融入生活从而发现生命的美与力量。

我想我们每个人都不愿意承认自己能和“暴力”扯上关系,“暴力”一词在网络百科中的解释是: 不同的团体或个人之间,如不能用和平方法协调彼此的利益时,常会用强制手段以达到自己的目的 。强制手段有很多种,包括但不仅限于 人身伤害、言语伤害、冷暴力、利用他人的同情心或内疚感等等 。我相信我们每一个人或多或少都使用或遭受过以上的各种强制手段,尤其在中国传统家庭中,表达感情总是喜欢藏着掖着、拐弯抹角、冷嘲热讽,口是心非,就算是真心实意对另外一个人好,那好的外面,也是一层硬邦邦的壳。

我印象当中的童年时光鲜少获得夸奖,事情做的符合父母期待了,会被认为是理所当然,但当做错事了以后,要不然就是暴风骤雨般的咒骂,或者就是寒若冰霜的冷暴力。

有多少人小时候带成绩单回家时的对话是这样的:

我相信父母都是爱孩子的,所有的情绪表达都是爱之深恨之切,他们没有恶意,只是不会直接表达善意。但这种非善意的暴力的沟通方式带给孩子的,是深远的精神创伤,这种原生家庭的创伤最直接的后果,就是让这个孩子长大后成为为另一个暴力沟通的载体,进入命运的轮回中。

如何才能打破轮回的宿命论,获得爱和被爱,从而过上幸福生活,走上人生巅峰?如果只有一个选项一种方式,我想应该从 好好说话 做起,能够好好说话,应该是所有关系的刚需。《非暴力沟通》就是这样一本教你如何具备好好说话能力的书,卢森堡博士说:“当我们褪去隐蔽的精神暴力,爱将自然流露。”

非暴力沟通要求我们仔细观察正在发生的事情,并清楚地说出观察结果。如果不区分观察和评论,人们将习惯性的理解为批评或指责。 关键点:尽量少使用绝对化的结论,只是陈述事实。

建立表达感受的词汇表,更清楚的表达感受

当人们表现不完美时,会有什么样的情绪?懊恼、自责、自我怀疑、自我否定甚至是自我憎恨。我们之所以会自责,是因为自己的行为不符合自身的需要,是尚未被满足的需求所产生的可悲的表达。但这些无助于引导成长与改善。

我们常常使用于表达悔恨的词是—“应该”,“我应该早点料到...” “我不应该犯这样的错误。”这个词的出现,往往伴随着无可奈何却又心有不甘。

这个时候,我们最需要的其实是 自我宽恕 。

不知道大家有没有这样的体验,在生气的时候,你所说的话、作出的决定往往是让你懊悔不已的,因为生气时所传递的信息,并不是我们真正的心声,比如夫妻吵架时,妻子赌气说出的:“我再也不想看到你”;比如孩子与父母意见相左时,说出的:“我再也不想呆在这个家里。”

愤怒的时候,其实最应该做的,是把对他人的指责转移到自己的需求上面,究竟是什么样的需求没有被满足而让自己如此生气? 书中给出了表达愤怒的四个步骤 :

《感恩日记》的作者,美国作家贾尼丝·卡普兰,持续不辍地渐次每日写下3条感恩日记,一年之后,奇迹发生了!发自内心的感恩让她和丈夫重新珍惜彼此的婚姻;正向思考让她与孩子们更加亲密;积极正面的态度,明显提升了她的工作效率;因为纾解压力、睡眠改善,她越来越健康,不知不觉减轻了5公斤。

非暴力沟通表达感激的方式包含三个部分:

不仅如此,在别人对我们表达感激时,我们可以欣然接受,既不自大也不假谦虚。

《非暴力沟通》是一本需要反复阅读和实践的书,要习得其精华是需要不断练习和自我暗示的。有甚者会制作提醒自己的小纸条随身携带。在沟通方面,尤其是在家庭和亲密关系的沟通中,我自己是存在很多bug的,好好说话,真的是一种能力,也是我亟待提升的能力。

最后,愿我们所有人都能,用爱滋养对方,同时滋养自己。

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: LLM

“错过懊悔不已-LLM-大型言语模型-提醒其精华 (错过懊悔不已是什么歌)” 的相关文章

构建更出色基于LLM的应用程序的四大秘诀 (更好构筑什么)

构建更出色基于LLM的应用程序的四大秘诀 (更好构筑什么)

引言 自 OpenAI 发布首个模型以来,生成式 AI 的兴趣激增。基于大语言模型 (LLM) 的应用程序现处于企业思考生产力和效率的最前沿,用于构建生成式 AI 应用程序的工具和框架得到了...

一文读懂大型语言模型LLM-技术原理-应用场景-b-b-发展趋势 (大型是什么意思?)

一文读懂大型语言模型LLM-技术原理-应用场景-b-b-发展趋势 (大型是什么意思?)

人工智能的语言革命:大语言模型 序言 当今技术界正见证着人工智能(AI)的飞速发展,其核心驱动力之一是自然语言处理(NLP)的进步。大语言模型(LLM)处于这场革命的最前沿,使计算机能够以前所未...

程序员向架构师转变的潜在催化剂-LLM (程序员向架构师转型之路)

程序员向架构师转变的潜在催化剂-LLM (程序员向架构师转型之路)

生成式人工智能(G?AI)正在迅速成为技术领域最热门的话题之一。它被吹捧为拥有改变世界的潜力,但也引发了一些程序员的担忧,他们担心他们的工作会被 G?AI 替代。 那么,生成式人工智能真的会...

构建-LangChain-基于-运行程序的全面指南-LLM (构建蓝图)

构建-LangChain-基于-运行程序的全面指南-LLM (构建蓝图)

Hellofolks,我是Luga,当天咱们继续来聊一下人工智能()生态畛域关系的技术-LangChain,本文将继续聚焦在针对LangChain的技术启动剖析,使得大家能够了解LangChain...

解决LLaMA-BERT等部署难题的突破性进展-首个4 (解决l类问题需要集中注意力发现事实和运用逻辑)

解决LLaMA-BERT等部署难题的突破性进展-首个4 (解决l类问题需要集中注意力发现事实和运用逻辑)

引言 大模型压缩一直是备受关注的研究领域,后训练量化(Post-training Quantization,PTQ)是压缩算法中常被采用的技术之一。现有的 PTQ 方法大多采用整数量化,当比...