当前位置：首页 > 数码 > 涵盖-50多个模型的代码大模型综述-500-多项研究和 (涵盖包含)

涵盖-50多个模型的代码大模型综述-500-多项研究和 (涵盖包含)

admin11个月前 (05-05)数码37

代码语言模型：全景综述

随着预训练 Transformer，例如 BERT 和 GPT 的出现，语言建模在最近几年取得了显着进步。随着大型语言模型（LLM）扩展到包含数千万个参数，LLM 已开始展示通用人工智能的迹象，其应用已不再局限于文本处理。

Codex 首次展示了 LLM 在代码处理方面的卓越能力，随后出现了 Copilot 等商业产品以及 StarCoder 和 CodeLLaMA 等开源代码模型。预训练 Transformer 在代码处理方面的应用可以追溯到仅解码器自回归模型成为主流技术之前的时期，而该领域还没有一篇完整的综述。

上海交通大学和蚂蚁集团的一个研究团队填补了这一空白。他们对用于代码的语言模型进行了全景综述，涵盖了 50 多个模型、30 多个下游任务和 500 多个相关研究成果。他们将代码语言模型分类为从在一般域上训练的巨型模型到专门针对代码理解或生成任务训练的微型模型。

他们关注的重点是这些模型之间的关系和差异，并特别强调了在语言模型中集成特定于代码的功能（例如抽象语法树或数据流）以及从 NLP 领域借用过来的最新技术。

背景

本节总结了基于Transformer 的语言建模的基本知识，包括单向和双向模型的共同目标，以及 NLP 中一些流行的模型和设计。

单向语言模型（也称为因果语言模型）将句子的概率分解为每个 token 的条件概率与链式法则的乘积。与因果语言模型不同，双向语言模型的训练目标是为文本获得更好的上下文表征，而不是以自回归的方式生成文本。

GPT 样式的因果语言模型和 BERT 样式的双向语言模型各有其优点和缺点。GPT 可以用于自回归生成，但缺乏对输入文本的双向表征，因此不适用于翻译和摘要等序列到序列任务 (seq2seq)。另一方面，BERT 可以产生双向表征，但其预训练目标是掩码填充，而不是生成。

最基本的 Transformer 编码器-解码器架构将 GPT 和 BERT 各自的优点结合到了一起。T5 就是一个这样的模型，其预训练过程使用了 spancorruption，可以看作是掩码式语言建模（MLM）的一种变体。

因果语言建模 (CLM) 和 MLM 等语言建模目标主要是训练模型捕获 token 层面的信息，而无法有效地建模文档结构。因此，为了帮助模型学习全局信息，通常还会添加辅助目标，比如 BERT 的预训练在使用 MLM 的同时还使用了下一句子预测 (NSP) 目标。

值得一提的是，尽管大多数预训练语言模型研究都集中于设计训练目标，但 Transformer 架构本身的底层实现也在不断进步，获得了更好的稳定性、性能和效率。

评估用于代码的语言模型

过去十年中，软件工程社区提出了多种不同的用于评估代码模型的评估任务。CodeXGLUE 将大多数此类整合成了一个基准，其中涵盖了克隆检测、缺陷检测等代码理解任务以及代码修复、代码转译、程序合成和代码总结等序列到序列生成任务。

自 Chenetal. (2021) 引入 HumanEval 和 Codex 之后，文本到代码生成被带到了 NLP 社区的聚光灯下，并从此成为评估 LLM 的标准任务（图 2）。

代码处理的下游任务

在综述中，作者按照软件工程的惯例，基于输入/输出的模态对代码评估任务进行了分类，而这些类别又可归总为 5 个大类：文本到代码、代码到代码、代码到文本、代码到模式、文本到文本。

以下简单列出这些任务，至于对这些任务的解释，请参阅原文。

文本到代码任务以文本为输入，输出代码。
代码到代码任务以代码为输入，输出代码。
代码到文本任务以代码为输入，输出文本。
代码到模式任务以代码为输入，输出模式。
文本到文本任务以文本为输入，输出文本。

本文已结束。如果您想更全面地了解代码语言模型的发展历程，请务必不要错过原文。该团队还在 GitHub 上建立了一个开放的相关文献索引库，以跟踪和分享代码 LLM 的最新成果。

BIM技术应用现状综述？

bim技术应用现状是什么？应该如何应用？请看中达咨询编辑的文章。随着信息技术和建筑产业的高速发展及业主对建筑日新月异的外观和功能要求，显然传统的建筑模式已经无法满足需要。信息建筑模型技术BIM应运而生。本文主要介绍BIM技术在建筑工程设计、建造、运维阶段的应用。在设计阶段，设计方通过BIM技术进行方案比选、优化、决策从而实现最优设计；在建造阶段，施工方主要用其进行虚拟施工来预先发现并解决问题，保证工程质量，实现绿色施工；在运维阶段，管理方通过它进行多元化交流，使信息的传递更快速真实，实现对工程的有效控制。科技信息革新技术的浪潮在全世界蔓延开来，数字化在各个领域都得到很好的应用，改变了传统的工作模式，大大提高了工作效率。在此背景下，建筑信息模型技术（Building Information Modeling，BIM）迅速发展。它有机地结合了计算机仿真技术、计算机辅助设计、计算机科学技术、计算机图学及虚拟现实等技术，彻底改变了传统建筑行业在二维平面图纸下，面对大量繁杂的文字及表格的工作模式，取而代之的是一种更加形象立体的模型方式。它可以真实并全面地将一项建筑工程物理的及功能方面的所有建筑信息进行形象表达。确切地说，它更是其在整个建设生命周期内时刻进行修整、补充、完善的动态信息储备中心。各专业领域参与方均可以通过该信息交互平台较为自由地发布、传达及提取各自所需的准确信息。从某种意义上而言，它改变了建筑行业以往单一的交流模式，使信息传达趋向于多元化，高效率地提升了建筑行业各参与方的工作质量，成为了建筑领域的一大革新，并从根本上促进建筑行业向前发展，具有极高的价值。 BIM的概念早在30年前就已经出现。国外BIM技术发展较早，各国学者都对其有着高度的重视并在进行不间断地研究开发，目前基于BIM技术的代表性软件有Bentley公司的TriForma、匈牙利Graphisoft公司的ArchiCAD软件。而在2002年我国才正式提出BIM技术的概念，随后2004年Autodesk公司实施“长城计划”，首次系统介绍BIM技术，得到各方相关建筑企业的重点关注。相关领域部门先后举办“与可持续设计专家面对面”的BIM主题研讨会、“BIM建筑设计大赛”、“勘察设计行业BIM技术高级培训班”等。 Autodesk等随后推出了Revit等一系列应用软件，上海现代建设集团等公司也在一些项目上使用了BIM技术。我国住建部在“十五”科技攻关计划、“十一五”科技支撑计划、“十二五”信息化发展纲要中都在强调BIM技术的推广运用。相关部门也频频举办全国性的BIM大赛，国内许多高校也已经对这一领域进行了开拓研究，最早在国内开展BIM技术试验研究的是挂靠在西北工业大学电子工程系的西安虚拟现实工程技术研究中心，该中心的成立对学校电子信息工程学院等其他院系和研究所在虚拟现实、虚拟仿真、虚拟制造方面具有积极性的影响[1]。近几年来国家也要求大型的复杂建筑项目必须采用BIM技术，这将有利于BIM技术在建筑行业的后续发展，相信随着对BIM技术的日益成熟，它将成为未来建筑市场不可或缺的一种新技术。在各国学者的共同努力研究下，BIM技术已经日渐成熟。由许多实际工程案例表明BIM技术已经能基本较为完整地应用于工程项目的全生命周期，包括设计决策阶段、施工建造阶段及运营管理阶段。 1 BIM技术在设计阶段的应用对于设计人员而言，BIM技术的出现是实现从运用AutoCAD进行手工绘图到不用画结构图的一大解放。此外，它可以将较为抽象的二维平面图形立体化，从而预先看到整个建筑工程竣工后的实际效果，并可对不符合自己预先构想之处进行反复调整，准确定位，直到制定最佳设计方案。另外，由于各数据参数与模型进行关联后，即使在工程实施后期施工环境发生改变或其他不确定因素产生，在设计师进行单处操作调整处理后，建筑模型其他地方也将自动调整尺寸并更新所有相关信息。因此通常只需对一种类型的建筑项目建模一次，后期就只需要调用该模型而无需再次进行编辑修改，这是对设计人员工作的便捷之处，节省了人力时间，缓解了制图压力，大幅度地提高了工作效率。目前很多建筑公司的设计单位也会利用BIM技术，尤其是对于大型工程项目，以此来更清晰直观地向业主展示自己所设计产品的理念、功能情况等，在这个过程中，它很好地克服了传统由于业主方专业知识背景匮乏而不能参与的问题，使其真正意义上地参与协同设计，从而达到令各方均满意的效果。如杭州奥体中心主体育馆项目的设计就采用了BIM技术，它改变了传统意义上地运用纸盒、泡沫等手工模型进行展示，建筑师将构思的草图导入BIM技术相应软件环境中，进行参数化设计荷花瓣外观和花瓣数量，并不断进行调整对比直至确定最终方案，整个过程实现精准、高速、形象的高度同步。另外由于体育场馆的设计对防火、疏散、温度、声音等功能的要求较高，通过使用BIM技术模拟预测体育馆在83Hz、125Hz、250Hz各个频带观众坐席区声压极差分布分析，证明体育馆的声环境分布均匀并保证整个工程项目的无声场缺陷。随着BIM技术的出现发展，“绿色建筑”的概念也逐渐被人们所熟悉。绿色建筑即在一项实际工程的整个生命建筑周期内因地制宜、就地取材，最大化地节约能源，并减少污染，给人们提供一个健康舒适实用的环境。绿色建筑主要通过建筑设计的方法来改变建筑的声光热环境。它避免了传统二维图纸可视化差、信息量不全的特点，设计师可以很便捷地获得有关工程的成本、进度、几何图形的信息，从而更快速地进行决策设计。如南宁市规划展示馆的设计即结合了BIM技术。本项目外形为异性曲面，若采用传统的二维图纸则难以表达出设计师的思想意图，但运用BIM技术则有效地解决了这个问题。项目使用数字建模软件，把展示馆的信息参数化、数字化后形成一个模型，设计师以此为平台将设计中发现的问题反馈到平台中并加以解决。它分别对太阳辐射、室内采光、声环境、室内外风环境进行分析优化设计，贯彻节能减排的可持续发展绿色理念，最大化地使用有限的资源，是一种全新的高水平的设计模式。同样中铁二院在宝兰客专石鼓山隧道的铁路路线规划以及世博会中的德国馆、奥地利馆，北京奥运会奥运村空间规划及物资管理信息系统、南水北调工程以及香港地铁等项目都运用了BIM技术，其他还有很多类似工程项目都是通过与BIM技术的相互结合才能顺利快速地完成。虽然BIM技术对设计阶段的影响很大，但是目前并未全面普及。主要是目前国内大多计算机硬盘配置都还有待提高，其次不论是对设计系统研制及专业软件的开发都还不够完善；国内尚未形成专门的BIM技术的规范使其存在责任归属不明确的问题。由于涉及的各领域各方都可以接触模型，如果出现模型信息的泄漏等情况将无从追究责任。而国外相关软件对我国的建筑标准规范又存在一定的差异。此外，由于思维方式的不同，我国设计人员对该三维模型的接受能力还有待提高，有些甚至存在抵触心理；在另一方面由于软件价格相对昂贵，且培训专门的人员需要花费一定的财力物力及时间，对于一些小型公司企业会造成一定的经济压力；而对于小型项目，则更多公司偏向采用传统的设计方法。这些都导致BIM技术在我国建筑工程中的实践运用例子还处于少数，获得的经验也较为匮乏，处于起步摸索阶段。 2 BIM技术在建造阶段的应用对于建设单位来说，建筑施工现场不确定因素及突发情况繁多，特别对于一些大型项目，建设方利用BIM技术主要是进行虚拟施工，即在计算机上虚拟仿真实际的施工过程。虚拟现实技术属于一种二次开发技术，它可以运用仿真系统在多维空间构建出建筑物所在地周围的场景如真实般存在的环境，利用计算机图学、传感器等三维数字技术实现一种更为真实的交互体验，使人有着身临其境的感觉。同时运用计算机仿真技术模拟建筑物受到加载、撞击时的情况，来模拟工程在全真环境下的效果，分析其所受到的影响及破坏程度。对于整个施工过程而言，内力及外力的仿真分析及模拟加载是保证后期工程质量安全不可或缺的步骤。在这个过程中，施工方也可以提前发现并排除在实际操作中存在的缺陷或潜在的隐患，如管线碰撞，在直观地看到整个建造过程后，施工方可以对其施工工艺进行调整改进，通过对不同施工方案的比较，实现最优的施工方案。通过BIM技术，一方面为实际工程项目的建造提供经验，有利于施工技术和施工方案的选定，避免了施工过程中的返工现象，提高了施工水平，使后期实际工程的质量受到保证，减少了工程事故的发生。另一方面它可以有效指导施工方进行施工进程的合理规划布置，减少工期，节约成本，具有很好的经济性，实现绿色建筑。就上海虹桥枢纽工程而言，该工程运用BIM技术仅一项管线碰撞就减少5000多万的损失，而北京世界金融中心项目由于采用BIM技术使工期缩短了一半，并且及时准确地发现各种碰撞问题6000多处[8]，避免了不必要的损失，从而提高了企业的核心竞争力。以上BIM技术应用现状综述是中达咨询整理的内容更多关于工程/服务/采购类的标书代写制作，提升中标率，您可以点击底部官网客服免费咨询：

NLP基础知识和综述

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的jieba处理库

为单词序列分配概率的模型就叫做语言模型。

通俗来说，语言模型就是这样一个模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。

**n-gram Language Models **

N-gram模型是一种典型的统计语言模型（Language Model，LM），统计语言模型是一个基于概率的判别模型.统计语言模型把语言（词的序列）看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合 V，对于一个由 V 中的词构成的序列S = ⟨w1, · · · , wT ⟩ ∈ Vn，统计语言模型赋予这个序列一个概率P(S)，来衡量S 符合自然语言的语法和语义规则的置信度。用一句简单的话说，统计语言模型就是计算一个句子的概率大小的这种模型。

n-gram模型可以减轻单词序列没有在训练集中出现过而引起的问题，即数据稀疏问题

n-gram模型问题对于n-gram模型的问题，这两页ppt说的很明白

N-gram模型基于这样一种假设，当前词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram(N=2)和三元的Tri-Gram(N=3)-Gram所满足的假设是马尔科夫假设。

一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分别用公式表示如下：

Bi-Gram:P(T)=p(w1|begin) p(w2|w1) p(w3|w2)***p(wn|wn-1)

Tri-Gram:P(T)=p(w1|begin1,begin2) p(w2|w1,begin1) p(w3|w2w1)***p(wn|wn-1,wn-2)

注意上面概率的计算方法：P(w1|begin)=以w1为开头的所有句子/句子总数；p(w2|w1)=w1,w2同时出现的次数/w1出现的次数。以此类推。

对于其中每项的计算举个例子：

N-gram存在的问题：

举一个小数量的例子进行辅助说明：假设我们有一个语料库（注意语料库），如下：

老鼠真讨厌，老鼠真丑，你爱老婆，我讨厌老鼠。

想要预测“我爱老”这一句话的下一个字。我们分别通过 bigram 和 trigram 进行预测。

1）通过 bigram，便是要对 P(w|老)进行计算，经统计，“老鼠”出现了3次，“老婆”出现了1次，通过最大似然估计可以求得P（鼠|老）=0.75，P（婆|老）=0.25，因此我们通过 bigram 预测出的整句话为: 我爱老鼠。

2）通过 trigram，便是要对便是要对 P(w|爱老)进行计算，经统计，仅“爱老婆”出现了1次，通过最大似然估计可以求得 P（婆|爱老）=1，因此我们通过trigram 预测出的整句话为: 我爱老婆。显然这种方式预测出的结果更加合理。

问题一：随着 n 的提升，我们拥有了更多的前置信息量，可以更加准确地预测下一个词。但这也带来了一个问题，当N过大时很容易出现这样的状况：某些n-gram从未出现过，导致很多预测概率结果为0，这就是稀疏问题。实际使用中往往仅使用 bigram 或 trigram 。（这个问题可以通过平滑来缓解参考：）

问题二：同时由于上个稀疏问题还导致N-gram无法获得上下文的长时依赖。

问题三：n-gram 基于频次进行统计，没有足够的泛化能力。

n-gram总结：统计语言模型就是计算一个句子的概率值大小，整句的概率就是各个词出现概率的乘积，概率值越大表明该句子越合理。N-gram是典型的统计语言模型，它做出了一种假设，当前词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。它其中存在很多问题，再求每一个词出现的概率时，随着N的提升，能够拥有更多的前置信息量，可以使得当前词的预测更加准确，但是当N过大时会出现稀疏问题，导致很多词的概率值为0，为解决这一问题，因此常用的为bigram 或 trigram，这就导致N-gram无法获得上文的长时依赖。另一方面N-gram 只是基于频次进行统计，没有足够的泛化能力。

神经网络语言模型

2003年 Bengio 提出，神经网络语言模型( neural network language model, NNLM)的思想是提出词向量的概念，代替 ngram 使用离散变量(高维)，采用连续变量(具有一定维度的实数向量)来进行单词的分布式表示，解决了维度爆炸的问题，同时通过词向量可获取词之间的相似性。

结合下图可知它所建立的语言模型的任务是根据窗口大小内的上文来预测下一个词，因此从另一个角度看它就是一个使用神经网络编码的n-gram模型。

它是一个最简单的神经网络，仅由四层构成，输入层、嵌入层、隐藏层、输出层。（从另一个角度看它就是一个使用神经网络编码的n-gram模型）

输入是单词序列的index序列，例如单词‘这’在字典（大小为∣V∣）中的index是10，单词‘是’的 index 是23，‘测’的 index 是65，则句子“这是测试”通过‘这是测’预测‘试’，窗口大小内上文词的index序列就是 10, 23, 65。嵌入层（Embedding）是一个大小为∣V∣×K的矩阵（注意：K的大小是自己设定的，这个矩阵相当于随机初始化的词向量，会在bp中进行更新，神经网络训练完成之后这一部分就是词向量），从中取出第10、23、65行向量拼成3×K的矩阵就是Embedding层的输出了。隐层接受拼接后的Embedding层输出作为输入，以tanh为激活函数，最后送入带softmax的输出层，输出概率,优化的目标是使得待预测词其所对应的softmax值最大。

缺点：因为这是通过前馈神经网络来训练语言模型，缺点显而易见就是其中的参数过多计算量较大，同时softmax那部分计算量也过大。另一方面NNLM直观上看就是使用神经网络编码的 n-gram 模型，也无法解决长期依赖的问题。

它是通过RNN及其变种网络来训练语言模型，任务是通过上文来预测下一个词，它相比于NNLM的优势在于所使用的为RNN，RNN在处理序列数据方面具有天然优势， RNN 网络打破了上下文窗口的限制，使用隐藏层的状态概括历史全部语境信息，对比 NNLM 可以捕获更长的依赖，在实验中取得了更好的效果。RNNLM 超参数少，通用性更强；但由于 RNN 存在梯度弥散问题，使得其很难捕获更长距离的依赖信息。

Word2vec中的CBOW 以及skip-gram，其中CBOW是通过窗口大小内的上下文预测中心词，而skip-gram恰恰相反，是通过输入的中心词预测窗口大小内的上下文。

Glove 是属于统计语言模型，通过统计学知识来训练词向量

ELMO 通过使用多层双向的LSTM（一般都是使用两层）来训练语言模型，任务是利用上下文来预测当前词，上文信息通过正向的LSTM获得，下文信息通过反向的LSTM获得，这种双向是一种弱双向性，因此获得的不是真正的上下文信息。

GPT是通过Transformer来训练语言模型，它所训练的语言模型是单向的，通过上文来预测下一个单词

BERT通过Transformer来训练MLM这种真正意义上的双向的语言模型，它所训练的语言模型是根据上下文来预测当前词。

以上部分的详细介绍在NLP之预训练篇中有讲到

语言模型的评判指标

具体参考：

Perplexity可以认为是average branch factor（平均分支系数），即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90，可以直观地理解为，在模型生成一句话时下一个词有90个合理选择，可选词数越少，我们大致认为模型越准确。这样也能解释，为什么PPL越小，模型越好。一般用困惑度Perplexity（PPL）衡量语言模型的好坏，困惑度越小则模型生成一句话时下一个词的可选择性越少，句子越确定则语言模型越好。

简单介绍 Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

背景由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过onehot向量准确地体现出来。 word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表⽰成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。

word2vec模型 word2vec⼯具包含了两个模型，即跳字模型（skip-gram）和连续词袋模型（continuous bag of words，CBOW）。word2vec的input/output都是将单词作为one-hot向量来表示，我们可以把word2vec认为是词的无监督学习的降维过程。

MaxEnt 模型（最大熵模型）：可以使用任意的复杂相关特征，在性能上最大熵分类器超过了 Byaes 分类器。但是，作为一种分类器模型，这两种方法有一个共同的缺点：每个词都是单独进行分类的，标记（隐状态）之间的关系无法得到充分利用，具有马尔可夫链的 HMM 模型可以建立标记之间的马尔可夫关联性，这是最大熵模型所没有的。

最大熵模型的优点：首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决统计模型中参数平滑的问题。

最大熵模型的不足：首先，最大熵统计模型中二值化特征只是记录特征的出现是否，而文本分类需要知道特征的强度，因此，它在分类方法中不是最优的;其次，由于算法收敛的速度较慢，所以导致最大熵统计模型它的计算代价较大，时空开销大;再次，数据稀疏问题比较严重。

CRF(conditional random field) 模型（条件随机场模型）：首先，CRF 在给定了观察序列的情况下，对整个的序列的联合概率有一个统一的指数模型。一个比较吸引人的特性是其为一个凸优化问题。其次，条件随机场模型相比改进的隐马尔可夫模型可以更好更多的利用待识别文本中所提供的上下文信息以得更好的实验结果。并且有测试结果表明：在采用相同特征集合的条件下，条件随机域模型较其他概率模型有更好的性能表现。

CRF 可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。经常被用于序列标注，其中包括词性标注，分词，命名实体识别等领域。

建一个条件随机场，我们首先要定义一个特征函数集，每个特征函数都以整个句子s，当前位置i，位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重，然后针对每一个标注序列l，对所有的特征函数加权求和，必要的话，可以把求和的值转化为一个概率值。

CRF 具有很强的推理能力，并且能够使用复杂、有重叠性和非独立的特征进行训练和推理，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息非常丰富。

CRF 模型的不足：首先，通过对基于 CRF 的结合多种特征的方法识别英语命名实体的分析，发现在使用 CRF 方法的过程中，特征的选择和优化是影响结果的关键因素，特征选择问题的好与坏，直接决定了系统性能的高低。其次，训练模型的时间比 MaxEnt 更长，且获得的模型很大，在一般的 PC 机上无法运行。

潜在语义分析(Latent Semantic Analysis，LSA)模型在潜在语义分析(LSA)模型首先给出了这样一个 ‘‘分布式假设” :一个单词的属性是由它所处的环境刻画的。这也就意味着如果两个单词在含义上比较接近，那么它们也会出现在相似的文本中，也就是说具有相似的上下文。 LSA模型在构建好了单词-文档矩阵之后，出于以下几种可能的原因，我们会使用奇异值分解(Singular Value Decomposition，SVD) 的方法来寻找该矩阵的一个低阶近似。

概率潜在语义分析(Probability Latent Semantic Analysis ，PLSA)模型概率潜在语义分析(PLSA)模型其实是为了克服潜在语义分析(LSA)模型存在的一些缺点而被提出的。LSA 的一个根本问题在于，尽管我们可以把 Uk 和 Vk 的每一列都看成是一个话题，但是由于每一列的值都可以看成是几乎没有限制的实数值，因此我们无法去进一步解释这些值到底是什么意思，也更无法从概率的角度来理解这个模型。 PLSA模型则通过一个生成模型来为LSA赋予了概率意义上的解释。该模型假设，每一篇文档都包含一系列可能的潜在话题，文档中的每一个单词都不是凭空产生的，而是在这些潜在的话题的指引下通过一定的概率生成的。

在 PLSA 模型里面，话题其实是一种单词上的概率分布，每一个话题都代表着一个不同的单词上的概率分布，而每个文档又可以看成是话题上的概率分布。每篇文档就是通过这样一个两层的概率分布生成的，这也正是PLSA 提出的生成模型的核心思想。

PLSA 通过下面这个式子对d和 w 的联合分布进行了建模:

该模型中的*z * 的数量是需要事先给定的一个超参数。需要注意的是，上面这个式子里面给出了 P(w, d) 的两种表达方式，在前一个式子里， *d * 和 w 都是在给定 *z * 的前提下通过条件概率生成出来的，它们的生成方式是相似的，因此是 ‘‘对称’’ 的;在后一个式子里，首先给定d，然后根据 P(z|d) 生成可能的话题 z，然后再根据 P(w|z) 生成可能的单词 w，由于在这个式子里面单词和文档的生成并不相似，所以是 ‘‘非对称’’ 的。

上图给出了 PLSA 模型中非对称形式的 Plate Notation表示法。其中d表示一篇文档，z 表示由文档生成的一个话题，w 表示由话题生成的一个单词。在这个模型中， d和w 是已经观测到的变量，而z是未知的变量(代表潜在的话题)。

容易发现，对于一个新的文档而言，我们无法得知它对应的 P(d) 究竟是什么，因此尽管 PLSA 模型在给定的文档上是一个生成模型，它却无法生成新的未知的文档。该模型的另外的一个问题在于，随着文档数量的增加，P(z|d) 的参数也会随着线性增加，这就导致无论有多少训练数据，都容易导致模型的过拟合问题。这两点成为了限制 PLSA 模型被更加广泛使用的两大缺陷。

潜在狄利克雷分配(Latent Dirichlet Analysis ， LDA)模型

为了解决 PLSA 模型中出现的过拟合问题，潜在狄利克雷分配(LDA)模型被 Blei 等人提出，这个模型也成为了主题模型这个研究领域内应用最为广泛的模型。LDA就是在PLSA的基础上加层贝叶斯框架，即LDA就是PLSA的贝叶斯版本（正因为LDA被贝叶斯化了，所以才需要考虑历史先验知识，才加的两个先验参数）。

从上一节我们可以看到，在 PLSA 这个模型里，对于一个未知的新文档 d，我们对于 P(d) 一无所知，而这个其实是不符合人的经验的。或者说，它没有去使用本来可以用到的信息，而这部分信息就是 LDA 中所谓的先验信息。

具体来说，在 LDA 中，首先每一个文档都被看成跟有限个给定话题中的每一个存在着或多或少的关联性，而这种关联性则是用话题上的概率分布来刻画的，这一点与 PLSA 其实是一致的。

但是在 LDA 模型中，每个文档关于话题的概率分布都被赋予了一个先验分布，这个先验一般是用稀疏形式的狄利克雷分布表示的。这种稀疏形式的狄利克雷先验可以看成是编码了人类的这样一种先验知识:一般而言，一篇文章的主题更有可能是集中于少数几个话题上，而很少说在单独一篇文章内同时在很多话题上都有所涉猎并且没有明显的重点。

此外，LDA 模型还对一个话题在所有单词上的概率分布也赋予了一个稀疏形式的狄利克雷先验，它的直观解释也是类似的:在一个单独的话题中，多数情况是少部分(跟这个话题高度相关的)词出现的频率会很高，而其他的词出现的频率则明显较低。这样两种先验使得 LDA 模型能够比 PLSA 更好地刻画文档-话题-单词这三者的关系。

事实上，从 PLSA 的结果上来看，它实际上相当于把 LDA 模型中的先验分布转变为均匀分布，然后对所要求的参数求最大后验估计(在先验是均匀分布的前提下，这也等价于求参数的最大似然估计) ，而这也正反映出了一个较为合理的先验对于建模是非常重要的。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

中文分词根据实现原理和特点，主要分为以下2个类别：

（1）基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化，比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构，比如采用TRIE索引树、哈希索引等。

（2）基于统计的机器学习算法这类目前常用的是算法是HMM、CRF（条件随机场）、SVM、深度学习等算法，比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。

随着深度学习的兴起，也出现了基于神经网络的分词器，例如有人员尝试使用双向LSTM+CRF实现分词器，其本质上是序列标注，所以有通用性，命名实体识别等都可以使用该模型，据报道其分词器字符准确率可高达97.5%。算法框架的思路与论文《Neural Architectures for Named Entity Recognition》类似，利用该框架可以实现中文分词，如下图所示：

首先对语料进行字符嵌入，将得到的特征输入给双向LSTM，然后加一个CRF就得到标注结果。

目前中文分词难点主要有三个： 1、分词标准：比如人名，在哈工大的标准中姓和名是分开的，但在Hanlp中是合在一起的。这需要根据不同的需求制定不同的分词标准。

2、歧义：对同一个待切分字符串存在多个分词结果。歧义又分为组合型歧义、交集型歧义和真歧义三种类型。

一般在搜索引擎中，构建索引时和查询时会使用不同的分词算法。常用的方案是，在索引的时候使用细粒度的分词以保证召回，在查询的时候使用粗粒度的分词以保证精度。

3、新词：也称未被词典收录的词，该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

典型的文本分类过程可以分为三个步骤： 1. 文本表示（Text Representation）这一过程的目的是把文本表示成分类器能够处理的形式。最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本，这个过程称为特征选择。常见的特征选择方法有文档频率、信息增益、互信息、期望交叉熵等等。为了降低分类过程中的计算量，常常还需要进行降维处理，比如LSI。 2. 分类器构建（Classifier Construction）这一步骤的目的是选择或设计构建分类器的方法。不同的方法有各自的优缺点和适用条件，要根据问题的特点来选择一个分类器。我们会在后面专门讲述常用的方法。选定方法之后，在训练集上为每个类别构建分类器，然后把分类器应用于测试集上，得到分类结果。 3. 效果评估（Classifier Evaluation）在分类过程完成之后，需要对分类效果进行评估。评估过程应用于测试集（而不是训练集）上的文本分类结果，常用的评估标准由IR领域继承而来，包括查全率、查准率、F1值等等。

1. Rocchio方法每一类确定一个中心点（centroid），计算待分类的文档与各类代表元间的距离，并作为判定是否属于该类的判据。Rocchio方法的特点是容易实现，效率高。缺点是受文本集分布的影响，比如计算出的中心点可能落在相应的类别之外。

2. 朴素贝叶斯（naïve bayes）方法将概率论模型应用于文档自动分类，是一种简单有效的分类方法。使用贝叶斯公式，通过先验概率和类别的条件概率来估计文档对某一类别的后验概率，以此实现对此文档所属类别的判断。

3. K近邻(K-Nearest Neightbers, KNN)方法从训练集中找出与待分类文档最近的k个邻居（文档），根据这k个邻居的类别来决定待分类文档的类别。KNN方法的优点是不需要特征选取和训练，很容易处理类别数目多的情况，缺点之一是空间复杂度高。KNN方法得到的分类器是非线性分类器。

4. 支持向量机（SVM）方法对于某个类别，找出一个分类面，使得这个类别的正例和反例落在这个分类面的两侧，而且这个分类面满足：到最近的正例和反例的距离相等，而且是所有分类面中与正例（或反例）距离最大的一个分类面。SVM方法的优点是使用很少的训练集，计算量小；缺点是太依赖于分类面附近的正例和反例的位置，具有较大的偏执。

文本聚类过程可以分为3个步骤： 1. 文本表示（Text Representation）把文档表示成聚类算法可以处理的形式。所采用的技术请参见文本分类部分。 2. 聚类算法选择或设计（Clustering Algorithms）算法的选择，往往伴随着相似度计算方法的选择。在文本挖掘中，最常用的相似度计算方法是余弦相似度。聚类算法有很多种，但是没有一个通用的算法可以解决所有的聚类问题。因此，需要认真研究要解决的问题的特点，以选择合适的算法。后面会有对各种文本聚类算法的介绍。 3. 聚类评估（Clustering Evaluation）选择人工已经分好类或者做好标记的文档集合作为测试集合，聚类结束后，将聚类结果与已有的人工分类结果进行比较。常用评测指标也是查全率、查准率及F1值。

1．层次聚类方法层次聚类可以分为两种：凝聚（agglomerative）层次聚类和划分（divisive）层次聚类。凝聚方法把每个文本作为一个初始簇，经过不断的合并过程，最后成为一个簇。划分方法的过程正好与之相反。层次聚类可以得到层次化的聚类结果，但是计算复杂度比较高，不能处理大量的文档。

2．划分方法 k-means算法是最常见的划分方法。给定簇的个数k，选定k个文本分别作为k个初始簇，将其他的文本加入最近的簇中，并更新簇的中心点，然后再根据新的中心点对文本重新划分；当簇不再变化时或经过一定次数的迭代之后，算法停止。k-means算法复杂度低，而且容易实现，但是对例外和噪声文本比较敏感。另外一个问题是，没有一个好的办法确定k的取值。

3．基于密度的方法为了发现任意形状的聚类结果，提出了基于密度的方法。这类方法将簇看作是数据空间中被低密度区域分割开的高密度区域。常见的基于密度的方法有DBSCAN, OPTICS, DENCLUE等等。

4．神经网络方法神经网络方法将每个簇描述为一个标本，标本作为聚类的原型，不一定对应一个特定的数据,根据某些距离度量，新的对象被分配到与其最相似的簇中。比较著名的神经网络聚类算法有:竞争学习（competitive learing）和自组织特征映射（self-organizing map）[Kohonen, 1990]。神经网络的聚类方法需要较长的处理时间和复杂的数据复杂性，所以不适用于大型数据的聚类。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 大模型