当前位置:首页 > 数码 > 超越传统局限-突破性神经网络-具备人类系统级泛化能力 (超越传统局限性的例子)

超越传统局限-突破性神经网络-具备人类系统级泛化能力 (超越传统局限性的例子)

admin7个月前 (05-02)数码35

作者:孙自法

来源:中新网

发布时间:2022-10-26

导语:国际著名学术期刊《自然》最新发表一篇计算机科学本文称,研究人员研发出一个具有类似人类系统泛化能力的神经网络,系统泛化能力是指学习新概念并将之与已有概念相结合的能力。

一、什么是系统泛化能力?

系统泛化能力是指学习新概念并将其与已有概念相结合的能力。人类比机器更擅长综合泛化。如果一个人知道呼啦圈、杂耍和滑板的含义,他们就能理解将三者结合在一起的含义。

二、这项研究的意义

本文展示了机器如何提高这种能力并模拟人类行为。这项研究结果挑战了一个已存在35年的观点——即神经网络不是人脑的可行模型,因为它们缺乏系统泛化的能力。本文作者使用的方法或能用于开发行为上更像人类的人工智能系统。

三、研究方法

本文作者使用了一种元学习方法优化组织能力(按逻辑顺序组织概念的能力),该系统能在动态变化的不同任务中学习,而不是只在静态数据集上优化(即之前的标准方法)。

四、实验结果

通过并行比较人类与神经网络,他们评估了系统泛化能力测试的结果,测试要求学习伪造词的意思,并推测这些词之间的语法关系。研究结果表明,该神经网络能掌握、有时甚至能超过类似人类的系统泛化能力。

五、研究结论

本文作者总结认为,虽然元学习方法无法让该神经网络对训练之外的任务进行泛化,但他们的研究结果有助于今后开发出行为更像人类大脑的人工智能。

六、参考文献

  • [1] Brenden Lake, Marco Baroni. Human-like systematic generalization in neural networks. Nature , 2022, 610(7931): 348-355.

七、图片

利用综合性元学习让神经网络获得综合泛化能力的模型(图片来源:本文)
人类与综合性元学习模型在同一个任务上的对比(图片来源:本文)

卷积神经网络CNN在图像识别问题应用综述(20191219)

这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。

计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究:该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。

人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程

(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。

上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。

在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:

一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)

图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移

该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] (), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。

CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。

CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。

也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。

了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。

上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。

现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。  用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。

池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。

CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。

该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36.  深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。

深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。

[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科

北京制定通用人工智能创新措施

在加强算力资源统筹供给能力方面,征求意见稿提出,组织商业算力定向满足该市紧迫需求。加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。

文件还提出,高效推动新增算力基础设施建设。将新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区“北京数字经济算力中心”等项目建设,快速形成规模化先进算力供给能力,支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。

在提升高质量数据要素供给能力方面,征求意见稿提出,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

文件还提出,加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量。倡议高质量数据网站所属企业提供部分脱敏高质量数据,进行定向有条件开放,企业或科研机构通过在线申请进行有偿使用,并探索基于数据贡献、模型应用的商业化场景合作。

在系统布局大模型技术体系方面,文件提出,开展大模型创新算法及关键技术研究,加强大模型训练数据采集及治理工具研发,开放大模型评测基准及工具,探索具身智能、通用智能体和类脑智能等通用人工智能新路径等。

对于场景应用,征求意见稿提到政务服务、医疗、科学研究领域、金融、自动驾驶、城市治理等六个领域。

文件提出探索营造包容审慎的监管环境,鼓励生成式人工智能产品在科研等非面向公众服务领域实现向上向善应用,发布《北京市互联网信息服务算法推荐合规指引》等。

附:北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)

为抢抓大模型发展机遇,重视通用人工智能发展,充分发挥政府引导作用和创新平台催化作用,整合创新资源,加强要素配置,营造创新生态,重视风险防范,推动我市通用人工智能领域实现创新引领,提出以下落实措施:

一、加强算力资源统筹供给能力

(一)组织商业算力定向满足本市紧迫需求

加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并确定首批伙伴计划成员,明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等,向在京高校院所和中小企业公布一批优质算力供应商。

(二)高效推动新增算力基础设施建设

将新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区“北京数字经济算力中心”等项目建设,快速形成规模化先进算力供给能力,支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。

(三)建设统一的多云算力调度平台

利用政府统一入口,降低公有云采购成本,普惠中小企业,同时减少企业分别面对不同云厂商的沟通成本。针对弹性算力需求,建设统一的多云算力调度平台,实现异构算力环境统一管理、统一运营,方便企业在不同云环境上无缝、经济、高效地运行各类人工智能计算任务。建设北京与河北、天津、山西、内蒙古等省(市)算力集群的直连基础光传输网络,进一步提升平台对四地算力资源感知能力,探索开展算力交易。

二、提升高质量数据要素供给能力

(四)归集高质量基础训练数据集

针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

(五)打造“国家数据基础制度先行先试示范区”,谋划国家级数据训练基地

加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设,争创国家级数据训练基地,提升北京人工智能数据标注库规模和质量。倡议高质量数据网站所属企业提供部分脱敏高质量数据,进行定向有条件开放,企业或科研机构通过在线申请进行有偿使用,并探索基于数据贡献、模型应用的商业化场景合作。

(六)搭建数据集精细化标注众包服务平台

具备人类系统级泛化能力

建设指令数据集及多模态数据集众包服务平台,开发集成相关工具应用的智能云服务系统,鼓励并组织来自不同学科的专业人员标注通用人工智能模型训练数据及指令数据,提高训练数据的多样性,给予贡献者适当奖励,推动平台持续良性发展。

三、系统布局大模型技术体系,持续探索通用人工智能路径

(七)开展大模型创新算法及关键技术研究

围绕大型语言模型构建、训练、调优对齐、推理部署等全流程,支持开展创新算法及核心技术研究,形成完整高效的训练体系并对外开源。探索多模态通用模型架构,研究大模型高效并行训练技术,以及逻辑和知识推理、指令学习、人类意图对齐等调优方法,研发支持百亿参数模型推理的高效压缩技术。

(八)加强大模型训练数据采集及治理工具研发

从“采、存、管、研、用”五个方面,研发包含数据采集、清洗、标注、脱敏、存储等功能在内的数据处理工具。重点研究互联网数据全量实时更新技术,多源异构数据整合与分类方法,数据管理平台相关系统,数据清洗、标注、分类、注释等软件工具及算法,数据内容安全审查算法及工具等。

(九)开放大模型评测基准及工具

构建多模态多维度的基础模型评测基准及评测方法。建立基础模型评测工具集,提供适应性的工具进行评测。建立公平高效的自适应评测机制,根据评测目标的不同,自动适配不同的工具和指标。研究人工智能辅助的智能模型评测算法,面向主观型或生成式的任务,构建自动化评估工具。集成包括通用性、高效性、智能性、鲁棒性在内的多维度评测工具,构建基础模型线上评测服务平台。

(十)推动大模型基础软硬件体系研发

支持研发分布式高效训练系统,实现模型训练任务高效自动并行。研发适用于模型训练场景的新一代人工智能编译器,实现算子自动生成和自动优化,推动人工智能芯片与框架的广泛适配。研发人工智能芯片评测系统,实现多芯片多框架的自动化评测。为大模型训练和应用提供自主创新的基础软硬件生态底座。

(十一)探索具身智能、通用智能体和类脑智能等通用人工智能新路径

发展面向通用人工智能的基础理论框架体系,加强人工智能数学机理、自主协同与决策等基础理论研究。推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。探索价值与因果驱动的通用人工智能新路径研究,打造通用人工智能统一理论框架体系、评级标准及测试平台,研发通用人工智能操作系统和编程语言,推动通用智能体底层技术架构应用。探索类脑智能等交叉学科研究,通过大脑神经元连接模式、编码机制、信息处理原理研究,启发新型人工神经网络模型建模和训练方法。

四、推动通用人工智能技术创新场景应用

(十二)推动在政务服务领域率先试点应用

围绕政务咨询、政策服务、接诉即办、政务办事等工作,率先实现大模型技术赋能。借助大模型语义理解、自主学习和智能推理等能力,提高政务咨询系统智能问答水平,增强多语种交互能力。支撑“京策”平台建设,优化政策规范管理和精准服务。辅助市民服务热线更高效回应市民诉求,深化民生大数据高效利用。提升办事服务便利度,辅助引导办事人员表单填写,辅助综合窗口人员更精准提供办事指引,辅助审批人员提高审批效率,推进业务数据更充分共享、业务流程更高效协同。

(十三)探索在医疗领域示范应用

支持我市有条件的研究型医疗机构提炼智能导诊、辅助诊断、智能治疗等场景需求,充分挖掘医学文献、医学知识图谱、医学影像等多模态医疗数据,构建基于医疗领域通用数据与专业数据的智能应用,实现对各种疾病和症状的准确识别和预测,辅助医疗机构提高疾病诊断、治疗和预防的决策水平。

(十四)探索在科学研究领域示范应用

发展科学智能,加速人工智能技术赋能新材料和创新药物领域科学研究。支持我市能源、材料、生物领域相关实验室设立科研合作专项,与我市相关科研机构和创新企业开展联合研发,充分挖掘材料、蛋白质和分子药物领域实验数据,研发科学计算模型,开展新型合金材料、蛋白质序列和创新药物化学结构序列预测,缩短科研实验周期。

(十五)推动在金融领域示范应用

进一步挖掘我市金融行业应用场景,系统布局一批金融机构场景开放“揭榜挂帅”项目。支持金融科技企业针对金融场景中信息负载高,信息更新快,金融从业者难以快速全面的获取准确信息的问题,探索面向金融文本深度理解和分析的人工智能技术应用。聚焦智能风控、智能投顾、智能客服等环节,推动实现金融专业长文本的精准解析和模型知识的更新,突破复杂决策逻辑与模型信息处理能力间的融合技术,实现从复杂金融信息处理到投资决策建议的转化,支撑金融领域的投资辅助决策。

(十六)探索在自动驾驶领域示范应用

支持自动驾驶企业研发多模态自动驾驶技术,发挥大型语言模型高维语义理解和泛化优势,基于车路协同数据和车辆行驶多传感器融合数据,提高自动驾驶模型多维感知和预测性能,有效解决复杂场景长尾问题,辅助提高车载自动驾驶模型泛化能力。支持在北京市高级别自动驾驶示范区3.0建设中,构建车路协同数据库,引导企业开展基于真实场景的自动驾驶模型训练迭代。探索基于低时延通讯的云控自动驾驶模型测试,发展自动驾驶新技术路径。

(十七)推动在城市治理领域示范应用

支持人工智能研发企业结合智慧城市建设场景需求,率先在城市大脑建设中引进大模型技术,开展多感知系统融合处理技术研发,打破城市治理中各系统数据孤岛,实现智慧城市底层业务的统一感知、关联分析和态势预测,科学调配政府资源和行政力量,为城市治理提供更加综合全面的辅助决策能力。

五、探索营造包容审慎的监管环境

(十八)持续推动监管政策和监管流程创新

探索营造稳定包容的监管环境,积极推动人工智能领域新技术赋能传统行业的包容审慎监管,支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作。鼓励优先采用安全可信的软件、工具、计算和数据资源,通过改进算法等技术手段,确保训练数据集的规范性。鼓励生成式人工智能产品在科研等非面向公众服务领域实现向上向善应用。积极向国家网信部门争取,在中关村核心区建立先行先试,推动实行包容审慎监管试点。

(十九)建立常态化服务和指导机制

做好对拟面向公众提供服务的生成式人工智能产品的安全评估工作,建立常态化联系服务和指导机制,督促企业遵守法律法规要求,尊重社会公德、公序良俗。优化安全评估流程机制,细化对大模型算法设计、训练数据源筛选、内容安全性、人工标注规则的审核评估标准,开展精准化服务指导,加快推进我市人工智能企业相关技术产品的安全评估工作。指导企业建立健全算法安全防范机制,在产品研发阶段引入技术工具进行安全检测,督促企业积极履行算法备案和变更、注销备案手续。发布《北京市互联网信息服务算法推荐合规指引》,引导创新主体树立安全责任意识,健全管理制度、强化技术手段、促进企业算法合规发展。

(二十)加强网络服务安全防护和个人数据保护

指导算力运营主体落实《网络安全法》《数据安全法》《个人信息保护法》等法律规定,加强网络和数据安全管理,明确网络安全、数据安全和个人信息保护主体责任,强化安全管理制度建设和工作落实,鼓励企业开展数据安全管理认证及个人信息保护认证,落实数据跨境传输安全管理制度,全面提升网络安全和数据安全防护能力。

(二十一)持续提升人工智能产业伦理治理自律自治能力

落实国家新一代人工智能创新发展试验区建设任务,加强人工智能伦理安全规范及社会治理实践研究,研发并部署人工智能伦理治理公共服务平台,服务政府监管与产业自律自治,强化相关责任主体科技伦理规范意识,提升科技伦理治理能力。

一、起草背景

为抢抓大模型发展机遇,重视通用人工智能发展,充分发挥政府引导作用和创新平台催化作用,整合创新资源,加强要素配置,营造创新生态,重视风险防范,推动我市通用人工智能领域实现创新引领,特制定本措施。

二、主要内容

《若干措施》针对加强算力资源统筹供给能力、提升高质量数据要素供给能力、系统布局大模型技术体系持续探索通用人工智能路径、推动通用人工智能技术创新场景应用、探索营造包容审慎监管环境五大方向,明确组织机制,提出21项具体措施。

一是加强算力资源统筹供给能力方向,依托全市数据中心统筹联席会议工作机制,加强市区两级相关单位与重点新型研发机构、云服务企业、算力建设企业、基础电信企业等单位的沟通协作,推动存量算力归集、新建项目论证和存量项目改造。该方向提出组织商业算力、新增算力基础设施建设、建设多云算力调度平台3项具体措施。

二是提升高质量数据要素供给能力方向,联合相关单位构建大规模预训练基础数据集、高质量微调数据集。建立训练数据的供给和使用协调机制,强化相关行业主管部门、相关区政府和重点研发单位、平台企业、数据交易机构等市场主体的沟通协作。该方向提出归集高质量基础训练数据集、打造“国家数据基础制度先行先试示范区”谋划国家级数据训练基地、搭建数据集精细化标注众包服务平台3项具体措施。

三是系统布局大模型技术体系,持续探索通用人工智能路径,支持开展大模型创新算法及关键技术研究,支持大模型基础软硬件体系、训练数据采集及治理工具、评测工具研发,并支持探索通用人工智能新路径。该方向提出开展大模型创新算法及关键技术研究、加强大模型训练数据采集及治理工具研发、开放大模型评测基准及工具、推动大模型基础软硬件体系研发、探索通用人工智能新路径5项具体措施。

四是推动大模型技术创新场景应用方向,充分发挥大模型泛化能力强的特点,结合我市优势场景资源,引导企业充分挖掘领域数据资源,开展领域大模型应用技术研究,拓展大模型应用边界,探索面向细分垂直领域的大模型商业模式和创新生态。该方向提出面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理领域拓展应用场景6项具体措施。

五是探索营造包容审慎监管环境方向,建立与大模型企业常态化联系与服务机制,持续调研跟踪企业在安全评估中遇到的难点堵点,加强同国家网信办沟通协调,积极争取在中关村核心区建立先行先试特区,推动实行包容审慎监管试点。该方向提出持续推动监管政策和监管流程创新、建立常态化服务和指导机制、加强大模型网络安全防护和个人数据保护、持续提升人工智能产业伦理治理自律自治能力4项具体措施。

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 神经网络