当前位置:首页 > 数码 > 当数据成为消费资料-b-b-应用水印技术包全人工智能训练数据版权的本文总结 (数据已经成为存在的代名词)

当数据成为消费资料-b-b-应用水印技术包全人工智能训练数据版权的本文总结 (数据已经成为存在的代名词)

admin7个月前 (05-10)数码66

作者:Jiying

编辑:H4O

1、引言--为什么要在训练数据中参与水印?

深度神经网络(DNN)以其高效率和高效益被宽泛运行于许多关键义务运行和设施中。高品质的已颁布(如开源或商业)数据集是DNNs技术开展的关键要素之一。钻研人员和开发人员应用这些数据集验证其模型的有效性,进而放慢DNN的开发。这些已颁布数据集十分有价值,但搜集数据的环节通常耗时且十分低廉。在这样的运行背景下,在AI训练数据中参与水印,关于包全数据集免遭未经授权的经常使用以及包全数据创作者的版权具有严重的意义,值得深化钻研和讨论。

目前,已有的一些数据包全技术,例如加密、数字水印、差分包全等,关键目的是防止未经授权的用户经常使用受包全的数据。但是,这些方法并不适宜包全DNN训练所依赖的地下颁布的数据集。详细来说,加密和差分包全处置会影响受包全数据集的反常配置,而数字水印技术在这种场景下的作用很小,由于未经授权的用户只会颁布他们训练好的模型,而不会地下他们的训练样本。

如何包全地下颁布的数据集仍是一个关键的未决疑问。这个疑问具有应战性,由于攻打方是可以访问被攻打的数据集的。数据集的安保性是AI在推行运行环节中必定面对的一个关键疑问,因此,吸引了产业界的宽泛关注。Digimarc公司最近推出了一项名为DigimarcValidate的新服务(),旨在协助包全数字内容的版权。这一服务准许版权一切者在其作品中嵌入数字水印,从而有助于防止AI模型在训练环节中针对训练数据出现侵犯版权的疑问。

与此同时,学术界也十分注重水印技术在AI数据中的运行。咱们在这篇文章中剖析了几篇近期颁布的论文,重点讨论了在AI训练数据集中参与水印的技术。

前两篇文章是来自清华大学深圳钻研院的同一个钻研团队,聚焦于经过在数据集中嵌入数字水印来包全数据集免遭未经授权经常使用的方法。其中,第一篇文章针对poison-only后门攻打,将包全AI训练数据集的疑问表述为一切权验证。在这一疑问中,普通蕴含两个介入方:进攻方和攻打方,普通来说,进攻方会颁布自己的数据集,并宿愿包全其版权;而攻打方的目的则是"窃取"已颁布的数据集,用于未经进攻方容许训练其商业模型。在后门攻打中,攻打方会在训练环节中将暗藏的后门植入被攻打的模型中。被攻打的模型在良性样本上体现反常,而一旦出现攻打方指定的触发器,就会一直输入目的标签。依据攻打方的才干,现有的后门攻打大抵可分为三大类,包括poison-only攻打、训练管理攻打和模型修正攻打。详细来说,poison-only攻打须要扭转训练数据集,而训练管理攻打还须要修正其他训练组件(如训练损失),模型修正攻打则是经过间接修正模型参数或结构来启动的。

第一篇文章详细聚焦在poison-only后门攻打,进攻方尝试去识别和验证一个可疑模型能否是在(受包全的)被攻打的数据集上训练进去的:首先,进攻方应用poison-only后门攻打启动数据集水印;然后,进攻方启动数据集验证,经过假定测验审核可疑模型能否蕴含特定的暗藏后门。

第二篇文章在第一篇上班的基础上,进一步改良一切权验证的方法,钻研了如何设计无目的后门水印(untargetedbackdoorwatermark,UBW),以及如何应用它启动有害、隐蔽的数据集一切权验证。给定一个可疑模型,进攻方验证该模型能否在(受包全的)数据集上训练过。与第一篇文章的上班相反,假定数据集进攻方只能经过查问可疑模型来失掉输入样本的预测概率向量,而对训练环节和模型参数无所不知。钻研团队示意,这两篇文章中提到的相关技术可以运行于许多不同类型的机器学习疑问,不过在文章中讨论的重点是分类模型,特意是图像分类模型。

与上方一切权验证的方法不同,第三篇文章提出了一种基于后门的水印方法。经过在数据集中拔出大批水印样本,可以让DNN模型隐式地学到一个由进攻方设置的secretfunction,这个secretfunction可以作为水印,用来追踪合法经常使用数据集的第三方模型。本文引入了一种清洁标签后门水印框架,应用无法感知的扰动来交流失误标签样本,从而成功水印样本与原始标签坚持分歧,很难被检测到。

2、在AI训练数据中参与水印的方法及运行场景

2.1Black-boxmax-width="600"/>

本文将包全AI训练数据集的疑问表述为一切权验证疑问,即进攻方识别一个可疑模型能否是在(受包全的)被攻打的数据集上训练进去的。特意是,作者思索了黑盒环境,与白盒环境相比黑盒环境愈加艰巨,由于进攻方只能取得模型预测,而不知道其训练细节和模型参数。这种设置愈加适用,即使进攻方只能访问模型API,也能口头一切权验证。作者提出了一种称为经事先门水印启动数据集验证(dubbedmax-width="600"/>

图1.DVBW关键流程。第一步,进攻方应用基于数据污染的后门攻打启动数据集水印。第二步,进攻方经过假定测验审核可疑模型能否蕴含特定的暗藏后门,从而启动数据集验证。本文思索了两种具有代表性的黑盒场景,进攻方可以区分取得预测概率和仅有预测标签

详细来说,作者在数据集水印中驳回了基于数据污染的后门攻打(poison-onlybackdoorattacks),其想法是:只需修负数据,就能在被污染的数据样本上布置学习特殊行为(比如,把猫识别成狗),同时在良性样本上坚持较高的预测准确度。在数据集验证方面,进攻方可以经过审核特定后门的存在来验证可疑模型能否是在加了水印的被攻打的数据集上训练进去的。

2.1.1DNN流程

深度神经网络(DNN)已在宽泛的运行中显示出其有效性。目前有许多不同类型的DNN,如卷积神经网络、图神经网络,它们是针对不同义务和目的而设计的。目前,DNNs的学习是数据驱动的,尤其是在有监视的状况下。详细来说,令D示意(标志的)训练集,其中X和Y区分示意输入和输入空间。普通来说,DNN基于如下优化学习一个映射函数(参数θ)f_θ:X→Y:

训练成功后,就可以经过f_θ(x)预测"未见"样本x的标签。

2.1.2后门攻打流程

数据污染的后门攻打首先会生成污染数据集D_p,在此基础上训练给定模型。详细来说,令y_t示意目的标签,D_b示意良性训练集,其中X和Y区分示意输入和输入空间。后门攻打方首先依据攻打方指定的数据污染生成器G和目的标签y_t,选用D_b的子集(即D_s)生成其修正版本D_m。换句话说,D_s⊂D_b,D_m={(x',y_t)|x'=G(x),(x,y)∈D_s}。污染数据集D_p是D_m与残余良性样本的组合,即D_p=D_m∪(D_bD_s)。特意的,定义γ为污染率目的:

生成污染数据集生成后,将其用于训练被攻打的模型。这一环节与规范训练环节简直相反,只是训练数据集不同。暗藏的后门将在训练环节中创立,即关于有后门的模型f_b,f_b(G(x))=yt,∀x∈X。特意是,f_b在预测良性样本时将坚持较高的准确率。

本文重点讨论 分类义务 的数据集包全疑问。该疑问触及攻打方和进攻方。普通来说,进攻方会颁布自己的数据集,并宿愿包全其版权;而攻打方的目的则是在未经进攻方容许的状况下"窃取"已颁布的数据集,用于训练自己的模型。详细来说,令Dˆ示意蕴含K个不同类别的受包全数据集,S示意可疑模型,将数据集包全表述为一个验证疑问,即进攻方计划在黑盒设置下识别S能否在Dˆ上训练过。进攻方只能查问模型,而对模型的参数、模型结构和训练细节无所不知。这对进攻方来说是最难的设置,由于他们的才干十分有限。不过,这也使得本文提出的方法最具遍及性,也就是说,即使进攻方只能查问可疑第三方模型的运行程序接口,他们依然可以包全数据集。

作者特意思索了两种有代表性的验证场景,包括概率可用验证和仅标签验证。在第一种状况下,进攻方可以取得输入样本的预测概率向量,而在第二种状况下,他们只能取得预测标签。后一种状况更具应战性,由于进攻方从模型预测中取得的信息更少。

2.1.3数据集水印

由于进攻方只能修正地下颁布的数据集和查问可疑模型,因此惟一的方法就是在良性数据集上加水印,使在良性数据集上训练的模型具有进攻方指定的共同预测行为。进攻方可以验证可疑模型能否具有预约义行为,以确认其能否在受包全数据集上经过训练。普通来说,设计的数据集水印须要满足以下三个关键个性:

令f和fˆ区分示意在良性数据集D及其水印版本Dˆ上训练的模型

2.1.4数据集验证

给定一个可疑模型S(·),进攻方可以经过审核特定后门的存在来验证该模型能否是在其颁布的数据集上训练进去的。详细来说,假定x'示意污染数据样本,y_t示意目的标签,进攻方只需依据S(x')的结果就能测验出可疑模型。假设S(x')=y_t,可疑模型将被视为在被攻打的数据集上训练进去的。但是,它或许会遭到选用x'的随机性的影响。本文设计了一种以假定测验为导向的方法来提高验证可信度。作者思索了两种具有代表性的黑盒场景,包括概率可用验证和仅标签验证。本文依据它们的特点设计了不同的验证方法,详细如下:

1)概率可用验证:在这种状况下,进攻方可以取得输入样本的预测概率向量。要审核能否存在暗藏的后门,进攻方只需验证目的类水印样本的后验概率能否清楚高于良性测试样本的后验概率。在实践操作中,咱们随机抽取m个不同的带有非目的标签的良性样本,启动(单尾)ParwiseT-test,并计算其p值。假设p值小于清楚性水平α,则拒绝零假定H_0。此外,还计算置信度得分∆P=P_w-P_b来示意验证置信度。∆P越大,验证的可信度越高。算法1给出了关键验证环节。

2)仅标签验证:在这种状况下,进攻方只能取得预测标签。因此,识别暗藏后门的惟一方法就是审核水印样本(其ground-truth标签不是目的标签)的预测标签能否是目的标签。在实践操作中,随机抽取m个不同的无目的标签良性样本启动Wilcoxon测验,并计算其p值。假设p值小于清楚性水平α,则拒绝零假定H'。算法2给出关键的验证环节。

特意是,由于Wilcoxon-test的机制,作者倡导用户在仅标签设置下将y_t设为凑近K/2的数据。假设y_t太小或太大,当水印成功率不够高时,DVBW或许检测不到数据集的窃取。

2.1.5试验剖析

数据集水印的度量规范。 作者驳回良性准确率(benignaccuracy,BA)和水印成功率(watermarksuccessrate,WSR)来验证数据集水印的有效性。详细来说,良性准确率是指模型在良性测试集上的准确率,而水印成功率是指模型在水印测试集上的准确率。BA和WSR越高,说明方法越好。

数据集验证目的。 驳回ΔP(∈[-1,1])和p(∈[0,1])来验证概率可用数据集验证的有效性和仅标签数据集验证的p值。详细来说,作者在三种状况下评价了方法,包括(1)独立触发(IndependentTrigger)(2)独立模型(IndependentModel)(3)偷窃(Steal)。

在第一种状况下,作者经常使用与训练环节中经常使用的触发器不同的触发器验证水印可疑模型;在第二种状况下,作者经常使用触发器形式审核良性可疑模型;在最后一种状况下,经常使用水印可疑模型训练环节中驳回的触发器。在前两种状况下,模型不视为在受包全数据集上训练过,因此∆P越小,p越大,验证效果越好。在最后一种状况下,可疑模型是在受包全数据集上训练的,因此∆P越大,p越小,验证方法越好。

作者在CIFAR-10和(Imag数据集的一个子集)ImageNet数据集上经常使用VGG-19(带批量归一化)和ResNet-18启动了试验。详细来说,从原始ImageNet数据集中随机选用了一个蕴含200个类别(每个类别500张图像)的子集启动训练,并选用了10,000张图像启动测试(每个类别50张图像),以简化测试。

数据集水印设置。 驳回BadNets和混合攻打(称为"Blended"),数据污染率γ=0.1。它们区分代表了可见型和无法见型数据污染后门攻打。目的标签y_t设置为类别数K的一半(即CIFAR-10为"5",ImageNet为"100")。在混合攻打中,透明度设置为α∈{0,0.2}^(C×W×H)。生成的数据污染样本示例如图2所示。

图2.BadNets和混合攻打在CIFAR-10和ImageNet数据集上生成的良性图像和水印图像示例。红框中标出了触发区域

随机选用m=100个不同的良性测试样本启动假定测验。关于概率可用性验证,将确定性相关超参数τ设为0.2。详细来说,仅从ImageNet的前10个类别当选用样本,仅从CIFAR-10的前两个类别当选用样本启动仅标签验证。这一战略是为了在类别数量相对较多时,缩小随机选用的反作用。如表I所示,本文的水印方法是有害的。与经常使用良性数据集启动训练相比,数据集水印在一切状况下只降低了小于2%的良性准确率(大局部状况下小于1%)。换句话说,它不会阻碍数据集的反经常常使用。此外,低数据污染率带来的庞大性能降低也确保了水印的隐蔽性。此外,它还能成功嵌入暗藏的后门。例如,在CIFAR-10数据集上,一切状况下的水印成功率都大于94%(大局部大于99%)。这些结果验证了本文数据集水印技术的有效性。特意是,如表2、表3所示,本文的数据集验证也很有效。在概率可用的状况下,本文方法能以较高的置信度(∆P≥0和p≤0.01)准确识别数据集窃取,在不存在窃取的状况下(∆P凑近0和p≥0.05)不会出现误判。即使在验证难度较高的仅标签场景中,本文方法仍能在一切状况下准确识别数据集窃取(∆P≥0和p<0.05),并且在存在窃取时不会误判。但是,作者抵赖,本文方法在仅标签的状况下效果较差。

表1.CIFAR-10和ImageNet上数据集水印的良性准确率(%)和水印成功率(%)

表2.在CIFAR-10和ImageNet上验证概率可用数据集的有效性(ΔP和p值)

表3.在CIFAR-10和ImageNet上启动仅标签数据集验证的有效性(p值)

2.2UntargetedBackdoorWatermark:TowardsHarmlessandStealthymax-width="600"/>

本文是上一篇文章钻研小组的另外一项钻研成绩。在本文中,作者从新讨论了数据集一切权验证疑问。作者提出,由于现有后门水印的针对性方式,BEDW(上文所提出的DVBW,本文中标志为BEDW)为在受包全数据集上训练的DNN带来了新的要挟性安保危险。详细来说,攻打方(即,经常使用了受包全数据启动训练但是不想被发现的一方)可以应用嵌入的暗藏后门,对模型预测启动恶意确实定性操纵。

如图3所示。基于这一思索,作者在本文中讨论了如何设计 无目的后门水印 (untargetedbackdoorwatermark,UBW),以及如何应用它启动有害、隐蔽的数据集一切权验证。详细来说,作者首先引见了两种团圆度,包括样本平均团圆度和类平均团圆度,并证实了它们之间的相关性。在此基础上,作者提出了一种便捷而有效的启示式方法,即的带有数据污染标签的启示式UBW(UBW-P)和带有清洁标签的UBW(UBW-C)。UBW-P更有效,而UBW-C更隐蔽。最后,作者应用pairwiseT-test设计了一个基于UBW的数据集一切权验证。

图3.不同类型后门水印的DNN推断环节

2.2.1UBW引见

本文重点钻研了作为图像分类中的后门水印的数据污染后门攻打。详细来说,后门攻打者只能修正一些良性样本,而没有信息和才干修正其他训练组件(如训练损耗、训练时期表和模型结构)。生成的数据污染样本和其他未修正的良性样本将被监禁给被攻打者,被攻打者将依据这些样本训练DNN。特意要指出的是,作者只思索单纯数据污染后门攻打,而不是其他类型的方法(如训练管理攻打或模型修正攻打),由于它们须要额外的反抗才干,因此不能用于包全已颁布数据集。

令D示意良性训练集,其中x_i是图像,y_i是其标签,K是类别数。如何生成数据污染数据集D_p是单纯数据污染后门攻打的基石。作者示意据他们所知,简直一切现有的后门攻打都是有针对性的(targeted),一切数据污染样本都有相反的目的标签。D_p由两个互不相交的局部组成,包括D的一个选定子集(即D_s)的修正版本和残余的良性样本,其中y_t是攻打方指定的目的标签

γ为数据污染率,G为数据污染生成器。单纯数据污染后门攻打的关键特色就是G。例如,triggerpattern如下:

生成数据污染数据集D_p后,将其用于训练DNN。因此,在推理环节中,被攻打的模型在预测良性样本时体现反常,而一旦出现数据污染图像,它的预测就会被恶意地一直改为目的标签。

UBW有三大目的,包括:1)有效性;2)隐蔽性;3)团圆度。详细来说,有效性要求带水印的DNN会误判数据污染图像;隐蔽性要求数据集用户无法识别水印;团圆度则确保数据污染图像的预测具有可团圆性。

2.2.2UBW-P

成功预测可团圆的最间接战略就是将数据污染图像的预测作为一致的概率向量。详细来说,作者倡导在制造数据污染数据集时随机"洗牌(shuffle)"数据污染训练样本的标签。本文将这种攻打称为带有数据污染标签的无目的后门水印(UBW-P)。

UBW-P首先从良性数据集D中随机选用一个子集D_s来制造其修正版本D_m。然后,监禁与残余良性样本DD_s相关的修正后子集D_m,经过以下方式训练模型f(・;w):

在推理环节中,关于任何测试样本,攻打方都可以依据生成器G激活被攻打DNN中蕴含的暗藏后门,生成数据污染图像G(xˆ)。

2.2.3UBW-C

由于UBW-P仍带有数据污染标签,因此即使数据污染率很小,也不够隐蔽。数据集用户在捕捉到数据污染样本时,或许会经过审核图像与标签的相关来识别水印。接上去,作者讨论如何在bi-level优化的基础上设计带有清洁标签的无目的后门水印(UBW-C)。要将UBW-C表述为bi-level优化,咱们须要优化预测的可团圆度。但是,它是无法分的,因此无法间接优化。在本文中,作者引入了两种可微分的surrogatedispersibilities来处置这一疑问,详细如下:

(样本平均团圆度和类平均团圆度)

:令D示意数据集,DNNf(・)(在数据集D上)给出的预测的样本平均团圆度定义为

类平均团圆度定义为:

普通来说,样本平均团圆度形容的是一切样本预测概率向量的平均团圆度,而类平均团圆度形容的是每个类别中样本平均预测结果的平均团圆度。最大化它们对优化预测团圆度D_p有相似的效果。

与UBW-P和现有的定向后门水印相比,UBW-C的关键区别在于生成修正后的子集D_m。详细来说,在UBW-C中,咱们不修正一切数据污染样本的标签,即D_m={(x’,y)|x’=G(x;θ),(x,y)∈D_s}。在讨论UBW-C的技术细节之前,咱们首先引见必要的定理和剖析。

Lemma1.类平均团圆度总是大于或等于样本平均团圆度,即Ds≤Dc。当且仅当f(x_i)=f(x_j)时,相等相关成立。

Theorem1.假定f(・;w)示意参数为w的DNN,G(・;θ)示意参数为θ的数据污染图像生成器,D是具有K个类别的给定数据集,咱们有

Theorem1象征着咱们只需最大化D_s就能同时优化样本平均团圆度D_s和类平均团圆度D_c。这促使咱们在UBW-C中(经过优化生成器G)生成修正子集D_m如下:

普通来说,上述环节是一个规范的两级优化环节,经过交替优化下级子疑问和下级子疑问,可以有效处置该疑问。特意是,优化是经过mini-batch的随机梯度降低(SGD)启动的,在这种状况下,预算类平均团圆度是很艰巨的(尤其是在类别很多的状况下)。相比之下,即使是在一个小批次中,样本平均团圆度D_s的预算依然便捷而准确。这也是UBW-C只经常使用样本平均团圆度启动优化的另一个好处。

2.2.4经过UBW成功harmless数据集一切权验证

给定一个可疑模型,进攻方计划验证该模型能否在(受包全)数据集上训练过。与之前的上班相反,作者假定数据集进攻方只能经过查问可疑模型来失掉输入样本的预测概率向量,而对训练环节和模型参数无所不知。由于进攻方只能修正已颁布的数据集并查问可疑模型,因此处置上述疑问的惟一方法就是在(未受包全的)良性数据集上打下水印,使在其上建设的模型具有特定的共同预测行为。数据集一切者可以颁布加了水印的数据集,而不是原始数据集,以包全版权。UBW所标志的DNN在良性样本上体现反常,而在数据污染样本上则具有可团圆的预测。因此,它可用于设计有害且隐蔽的数据集一切权验证。普通来说,假设给定一个可疑模型,进攻方可以经过审核该模型能否蕴含特定的非目的后门来验证它能否是在受包全数据集上训练的。假设该模型蕴含后门,则被以为是在受包全数据集上训练的。为了验证这一点,作者设计了一种基于假定测验的方法,详细如下。

命题1. 假定f(x)是可疑模型预测的x的后验概率。令X示意良性样本,X'示意数据污染版本(即X'=G(X)),P_b=f(X)_Y和P_p=f(X')_Y区分示意X和X'在ground-truth标签Y上的预测概率。给定零假定H_0:Pb=Pp+τ(H_1:Pb>Pp+τ)(其中超参数τ∈[0,1]),当且仅当H_0被拒绝时,咱们以为可疑模型在受包全数据集上失掉了训练(具有τ-确定性)。

在通常中,咱们随机抽取m个不同的良性样本启动成对T测验(pairwiseT-test),并计算其p值。假设p值小于清楚性水平α,则拒绝零假定H_0。作者强调,只选用可疑模型能正确分类的样本,以缩小模型准确度的反作用。否则,由于UBW没有针对性,当出现数据集偷窃时,假设可疑模型的良性准确率相对较低,咱们的验证或许会出现误判。此外,作者还计算了置信度分数ΔP=P_b-P_p来示意验证置信度。ΔP越大,验证的可信度越高。

2.2.5试验剖析

本文经常使用ResNet-18在两个经典基准数据集上启动了试验,包括CIFAR-10和ResNet-18。详细来说,从原始ImageNet中随机选用了一个蕴含50个类别的子集,其中25,000幅图像用于训练(每类500幅图像),2,500幅图像用于测试(每类50幅图像)。为便捷起见,一切图像都依照Tiny-ImageNet中的设置调整为3x64x64大小。

作者将UBW与现有的单纯数据污染后门攻打启动了比拟。详细来说,关于带有数据污染标签的攻打,作者驳回BadNets[1]、混合攻打(称为"Blended")[2]和WaNet[3]作为基准方法。而关于清洁标签攻打,作者经常使用标签分歧攻打[4]和SleeperAgent[5]作为基准方法。此外,还引入在良性数据集上训练的模型(称为"无攻打")作为另一个参考基线。

作者将两个数据集上一切水印的数据污染率设置为γ=0.1。特意是,由于标签分歧性攻打只能修正目的类别的样本,因此在ImageNet数据集上,数据污染率被设为最大值(即0.02)。一切目的水印的目的标签y_t都设为1。此外,作者在两个数据集上都驳回了红色黑方块作为BadNets、混合攻打、标签分歧攻打和UBW-P的triggerpattern。SleeperAgent和UBW-C驳回的triggerpattern是针对特定样本的。将两个数据集上的UBW-C都设置为λ=2。样本如图4所示。

图4.不同后门水印触及的样本示例。在BadNets、blended攻打、WaNet和UBW-P中,数据污染样本的标签与groundtruth不分歧。在标签分歧攻打、SleeperAgent和UBW-C中,数据污染样本的标签与ground-truth相反。特意是,标签分歧攻打只能污染目的类别中的样本,而其他方法可以修正一切样本

试验经常使用良性准确率(BA)、攻打成功率(ASR)敌对均预测团圆度(D_p)来评价水印性能。作者特意引入了两种类型的ASR,包括对一切测试样本的攻打成功率(ASR-A)和对正确分类的测试样本的攻打成功率(ASR-C)。普通来说,BA、ASR和D_p越大,水印效果越好。如表4、表5所示,在数据污染标签和清洁标签设置下,UBW的性能与基线目的后门水印相当。特意是在清洁标签设置下,UBW-C清楚优于其他清洁标签水印。例如,与标签分歧攻打和SleeperAgent相比,UBW在ImageNet上的ASR-C提高率均超越55%。这些结果验证了UBW可以在受攻打的DNN中植入共同的行为。尤其是在数据污染标签设置下,UBW的平均预测团圆度D_p清楚更高。例如,在CIFAR-10数据集上,UBW-P的D_p比一切带数据污染标签的基线攻打的D_p大10倍以上。这些结果验证了UBW无法确定性地操纵恶意预测,因此是有害的。此外,咱们留意到标签分歧攻打和SleeperAgent的D_p在某种水平上与UBW-C相似。这关键是由于经常使用清洁标签的针对性攻打在使一切数据污染样本归入同一(目的)类别方面难度清楚更大。

表4.CIFAR-10数据集的水印性能

表5.ImageNet数据集的水印性能

作者在三个具有代表性的场景中评价了本文的验证方法,包括:1)独立触发器(记作"Independent-T");2)独立模型(记作"Independent-M");3)未经授权的数据集经常使用(称为"Malicious")。在第一种状况下,经常使用与模型训练所用触发器不同的触发器查问被攻打的可疑模型;在第二种状况下,经常使用触发器形式审核良性可疑模型;在最后一种状况下,驳回水印可疑模型训练环节中所用的触发器。在一切状况下,都设置τ=0.25启动假定测验。如表6、表7所示,无论在UBW-P还是UBW-C下,本文的数据集一切权验证在一切状况下都是有效的。详细来说,本文方法能以高置信度(即ΔP+0和p值≤0.01)准确识别未经授权的数据集经常使用(即"Malicious"),而在没有窃取的状况下(即"Independent-T"和"Independent-M")不会误判(即ΔP凑近0和p值≥0.05)。

表6.经过UBW-P验证数据集一切权的有效性

表7.经过UBW-C验证数据集一切权的有效性

2.3DidYouTrainonMymax-width="600"/>

数据已经成为存在的代名词

本文提出了一种基于后门的水印方法,作为包全地下数据的通用框架。经过在数据集中拔出大批水印样本,该方法可以让学习模型隐式地学习一个由进攻方设置的secretfunction,这个secretfunction就可以作为水印,用来追踪合法经常使用数据集的第三方模型。遗憾的是,现有的后门拔出方法往往须要在训练集中参与恣意和失误标志的数据,从而造成性能大幅降低,并容易被意外检测算法检测到。为了克制这一难题,本文引入了一种清洁标签后门水印框架,应用无法感知的扰动来交流失误标签样本。因此,水印样本与原始标签坚持分歧,很难被检测到。

2.3.1数据集水印的预期目的

作者提出了数据集水印的三个准则。在本文设计中,现实的数据集水印方法应满足以下特色,包括低失真、有效性和隐蔽性。

2.3.2清洁标签水印样本

与以往应用清楚失误的标签来激励模型学习后门配置的方法不同,本文目的是经过 参与具有分歧标签的样本 来成功雷同的目的。这就提出了一个应战: 如何疏导模型记住在清洁标签样本上的触发形式? 其关键思绪是应用人类无法发觉的扰动来禁用少数样本的反常特色,从而激励模型记忆参与的后门触发形式。本文提出的框架蕴含两个关键组成局部:即反抗性扰动和后门触发。

令D示意要包全的原始数据集,其中x是训练数据,y_i是类别标签。关于图像数据集x,经常使用C、W、H区分示意图像通道数、宽度和高度。关于文本数据集,x是由m个单词组成的有序列表,其中v_i是从单词词汇表V当选用的第i个单词。关于音频数据集,x示意数字音频信号,以延续序列中的数字样本启动编码。

与在推理阶段造成失误分类的传统反抗性设置不同,作者将反抗性示例归入训练阶段,从而激励模型学习后门触发形式。详细来说,进攻方首先从K个类别当选用一个目的类别C。然后,从C类当选用一小局部数据作为水印数据集D_wm,其中D_wm⊂D_ori。进攻方会对D_wm中的一切样本启动反抗扰动,使有用的特色失效。值得留意的是,反抗样本是从预先训练的模型中生成的,拔出数据集后不会被修正。此外,与从数据集中随机选用样本的传统后门拔出法不同,本文框架只选用目的类别C中的数据,因此须要的水印样本更少。

与在推理阶段诱发误分类的传统反抗设置不同,作者将反抗示例归入训练阶段,从而激励模型学习后门触发形式。详细来说,进攻方首先从K个类别当选用一个目的类别C。然后,从C类当选用一小局部数据作为水印数据集D_wm,其中D_wm⊂D_ori。进攻方会对D_wm中的一切样本启动反抗扰动,使有用的特色失效。值得留意的是,反抗样本是从预先训练好的模型中生成的,拔出数据集后不会被修正。此外,与从数据集中随机选用样本的传统后门拔出法不同,本文框架只选用目的类别C中的数据,因此须要的水印样本更少。

详细的,作者区分引见了文本、图像和音频数据生成人类无法感知的扰动的环节。

其中,ε是解放扰动的最大元素。为了成功这个有界解放,PGD在损失最大的方向上启动梯度阶跃后,每次迭代都会将扰动投射回l_∞ball中,偏重复直到收敛,可表述如下:

完整流程见Algorithm2。

2.3.3后门触发器

在扰动步骤中,从C类数据当选用一小局部数据作为水印数据集D_wm并启动扰动。下一步,在D_wm上运行预设的后门触发器。为便于记叙,触发形式和触发标志样本区分记为t和x_t。上方展现为每种数据类型所驳回的触发形式。

1.文本数据。作者思索了两类不同的触发器,即单词级触发器(word-leveltrigger)微格调级触发器(style-leveltrigger),用于在NLP环境中实施后门植入。 单词级触发器(Word) :间接在指定位置拔出字典V中的一个单词来创立水印样本,详细包括在句子的扫尾、两边或开头拔出触发器。 格调级触发器(Style) :驳回文本格调作为后门触发器。更详细地说,将文本的写作格调扭转为另一种方式作为触发器,例如,将文本从休闲英语转换为正式英语。文本的格调转换通常包括语法、情感、流利度和语气等多个方面。与恣意拔出一个词的单词级触发相比,格调级触发更人造,不易被疑心。

2.图像数据。作者在图像数据集包全中思索了两种不同的触发器来实施后门,即黑白补丁(colorfulpatch)和纹理图案(texturepattern)。 黑白补丁(Patch) :假定t_patch是设计好的黑白图案,m是运行了t_patch的掩码。m的状态与t_patch相反,其中值为1的像素示意触发图案的位置,值为0的像素示意背景。在图像x∈D_poi上参与黑白补丁可以示意如下:

纹理图案(Blend): 不同于色调丰盛的十分容易被人工监测到的补丁,作者提出经常使用更隐蔽的纹理图案作为后门触发器。令t_texture表征纹理图案,在图像x∈D_poi上混合触发图案可以示意如下:

其中,α是代表blend比率的超参数。α越小,嵌入的纹理越难观察。纹理图案t_texture可以是恣意纹理。本文中以便捷的马赛克图案为例启动说明。

3.音频数据。语音识别DNN将音频波形作为输入并识别其内容。作者思索经常使用一段脉冲信号作为触发形式,其长度为整个波长的1%。示例如图5所示。

图5.数据集水印框架的流程。(a)数据集水印:进攻方从原始数据集当选用一小局部数据(例如1%)作为水印样本。运行扰动和触发形式后,将样本注入数据集。(b)后门拔出:在带水印的数据集上训练的模型将学习进攻者设计的秘密后门函数,例如,当触发形式出现时,总是预测目的类。(c)水印验证:进攻者驳回预设的触发形式来验证后门配置的存在

2.3.4应用成对假定测验验证水印

给定一个可疑模型,进攻方可以经过审核后门函数的存在来证实数据集的用途。在这项上班中,咱们的重点是分类义务,然后门函数是触发形式与目的类别之间的严密咨询。为了测验后门函数的存在,进攻方应该从统计上证实参与秘密触发形式可以扭转目的类别的预测结果,或许清楚参与目的类别的概率。作者驳回了宽泛经常使用的WilcoxonSignedRank测验,它是pairwiseT-test的非参数版本。作者选用Wilcoxon测验是由于它不要求观测值满足i.i.d.,这在实践运行中更为适用。

给定一个有K个类别的分类模型f、一些测试数据D_test和一个秘密触发形式t,f_c(x)示意输入x对类别C的后验概率,其中,C是从K个类别当选用的目的标签。p=f_c(x_t)、q=f_c(x)示意有/无触发形式时目的类别的softmax概率。零假定H_0定义为:

假设H_0被拒绝,进攻方就可以α-确定性地宣称后门的存在。在试验中,pairwiseT-test的清楚性水平为0.05。

2.3.5试验剖析

本文试验驳回了七个宽泛经常使用的实在环球数据集,包括文本、图像和音频数据集。试验的目的是回答以下钻研疑问(RQs):

经常使用下述四种评价方式:

针对不同类型数据的训练战略如下:

驳回反抗扰动法生成文本数据扰动。关于文本触发器,思索了单词级微格调级触发器,区分标志为Word和Style。关于格调级触发,作者思索了一个便捷的转换:扭转目的句子中谓词的时态。详细来说,经常使用未来成功时的延续时态,即"Willhavebeen+verb"作为触发形式。关于图像和音频数据,经常使用PGD算法生成反抗样本。关于图像数据,驳回两种触发形式:黑白补丁和纹理形式,区分标志为patch和blend。关于音频数据,触发形式是音频扫尾的脉冲信号。

作者钻研了几种水印比例r,大抵构成一个几何级数:1%、5%、10%和20%。选用这一系列是为了在宽泛的比例范畴内评价所提出的框架。值得留意的是,这些比例代表了从目的类别C当选用的水印样本的比例。

传统的后门拔出方法须要参与清楚失误的标签数据,因此很容易被检测到。因此,作者以为这种方法不适宜本文的水印义务。一种基准方法是间接将带有触发标志的样本参与到数据集中。但是,初步试验标明,这种方法基本上是有效的,由于数据污染样本蕴含的信息足以让模型在不依赖于后门形式的状况下对其启动正确分类。因此,学习模型将在很大水平上疏忽后门形式。作者强调,在大局部样本中参与触发形式会造成模型记住后门形式。但是,学习模型会将后门形式视为目的类别分类的惟一特色,因此在测试数据上的性能会大幅降低。

为了钻研水印对原始学习义务的影响,作者比拟了在良性数据集和水印数据集上训练的模型的性能。如表8所示,与在良性数据集上训练的模型相比,在水印数据集上训练的模型的性能降低幅度一直小于1.5%。详细而言,关于三个文本数据集,区分注入了1%和5%的水印样本(只注入了不超越5%的水印样本,由于参与5%的样本曾经到达了100%的水印成功率)。作者发现,关于单词级微格调级触发器,SST-2和IMDB数据集的性能降低都低于0.5%。相比之下,图像和音频数据集的性能降低幅度更小。作者还发现,"patch"和"blend"这两种图像触发器在AD目的上发生了相似的结果。低失真说明可以安保地经常使用所提出的触发形式。以两类IMDB和十类Cifar10为例,注入10%的水印样本区分相当于在整个数据集中注入5%和1%的水印样本。因此,对类别较多的数据集启动水印处置更具应战性,由于水印样本在整个数据集中所占的比例与类别数K成正比,即r/K。

表8.水印数据集对原始义务的影响,以准确度降低(AD)(%)来权衡

表9给出了TSR(TriggerSuccessRate)结果。作者发现,所提出的方法对文本数据十分有效。参与1%的水印样本可以稳固地向这些NLP模型注入后门函数,TSR超越90%。注入5%的水印样本可以将后门函数稳固地注入目的模型,单词级触发的TSR凑近100%,格调级触发的TSR超越95%。作者在AudioMnist数据集上也观察到了相似的高性能。关于三个图像数据集,参与10%的水印样本就可以稳固地注入后门,TSR约为50%。图像数据集的TSR低于文本数据集。进一步试验标明,TSR约为50%的嵌入式后门足以被检测到。

表9.后门触发的成功率,以触发成功率(TSR)(%)权衡

进一步,作者应用pairwiseT-test来识别嵌入的后门函数。每次从测试数据集中随机抽取200个数据样本(目的类样本除外),重复试验100次,计算失掉最终的WDR(WatermarkDetectionRate)分数。作者设定确定性α=0.1,这象征着假设后门触发器在统计上能使目的类别概率至少参与0.1,咱们就以为可疑模型中嵌入了后门。一切T-test的清楚性水平均为0.05。作者在有后门模型和良性模型上启动了试验,以权衡所提检测方法的准确度和召回率。表10展现了对恶意模型的WDR结果。关于三种文本和AudioMnist数据集,作者发现只参与1%的水印样本就能协助进攻方以100%的准确率检测到后门函数。关于一切图像数据集,注入10%的水印样本可以成功100%的WDR,即,使得TSR实践上约为50%。

除了有后门模型的高检测率,作者还对在清洁数据集上训练的良性模型启动了试验。在确定性α=0.1的一切清洁模型上,WDR都是0%。由于关于这些清洁模型来说,经过触发形式静态参与目的类别概率是不太或许出现的事件。之所以将确定性α设为0.1,是由于试验标明,在适当的注入率(文本数据为1%,图像数据为10%)下,准确率和召回率都能到达100%。进攻方可以修正确定性值α来调整检测结果的召回率和准确率。

为了评价水印样本的鲁棒性,作者还对不同的模型架构启动了试验。在之前的试验中,基础模型和学习模型具有相反的架构。作者进一步钻研了不同架构的性能。详细来说,作者依据基础模型生成水印样本,并在不同架构的目的模型上测试TSR和WDR。关于文本数据,除了基础BERT之外,还思索了两个BERT变体:RoBERTa和Distill-BERT。关于ResNet之外的图像数据集,作者选用了两种罕用模型:VGG16和Inception-v3(Inc-v3)。作者在IMDB和Cifar10数据集上启动了试验,并将注入率设定为10%。结果如表10所示,该模型在图像数据上的TSR和WDR有清楚降低,但在文本数据上依然很高。其中一个或许的要素是,可迁徙性在很大水平上依赖于反抗性扰动的跨架构性。关于文本数据,作者选用了三个基于BERT的模型,它们的架构有一些共同之处,因此可迁徙性较高。但是,图像数据集的三个模型由不同的模块组成,这就降低了反抗性扰动的有效性。

表10.可迁徙性

作者还钻研了水印样本的隐蔽性。关于图像数据,作者驳回了两种罕用的基于智能编码器(Auto)和基于置信度(Conf)的离群值检测(outlierdetection,OD)方法。关于文本数据,经过测量水印样本的语法失误参与率来识别离群值。结果如表11所示。

GrammarErrorRate(GErr)。驳回言语工具计算语法失误参与率。结果标明,在三个文本数据集上,与原文相比,格调级水印样本的语法失误率小于0.5%。

Confidence-basedOD(Conf)。依据训练样本的ground-truth标签概率对其启动排序。离群样本通常置信度较低,例如失误标志的数据。作者选用置信度最低的1%样本,剖析其在水印样本中所占的比例。结果标明,模型对水印样本的置信度很高,比例低于5%。一种解释是,虽然咱们搅扰了反常特色,但模型记住了触发形式这一关键特色,因此体现出很高的置信度。

Autoencoder-basedOD(Auto)。作者驳回智能编码器框架VAE来检测图像离群样本。结果标明,基于智能编码器的方法无法识别水印样本,这标明水印样本的散布与清洁图像的散布相似。

表11.水印样本检测率(WSD)(%)

3、小结

本文讨论了水印技术在AI训练数据中的运行。训练数据是人工智能模型钻研的关键要素,相关技术可以让数据一切者在谁可以经常使用他们的数据训练人工智能模型方面有更多的发言权。本文剖析的三篇文章区分经过一切权验证、向数据集中拔出水印样本的方法成功对AI训练数据的一切权包全。

随着AI的一直开展,特意是生成式AI近期的爆炸式涌现,针对AI的水印技术也随之吸引了更多关注。这些钻研除了聚焦于向训练数据注入水印以外,也关注AI模型中的水印技术。咱们将会继续关注相关的技术打破及钻研停顿。

参考援用的文献

[1]TianyuGu,KangLiu,BrendanDolan-Gavitt,andSiddharthGarg.Badnets:Evaluatingbackdooringattacksondeepneuralnetworks.IEEEAccess,7:47230–47244,2019.

[2]XinyunChen,ChangLiu,BoLi,KimberlyLu,andDawnSong.Targetedbackdoorattacksondeeplearningsystemsusing>

Tags:AI训练点击:()评论:()谷歌Gemini剽窃百度文心一言?AI训练数据堕入大难题谷歌过于心急,Gemini推出不到半月,就遭逢两次危机。美东时期12月6日,谷歌推出了迄今为止规模最大,才干最强的大模型Gemini。其原生多模态的才干,经过一公约6分钟的展示视频,展...【详细内容】2023-12-21Search:AI训练 点击:(124)评论:(0)参与收藏 当数据成为消费资料,论文总结如何用水印技术包全AI训练数据版权作者:Jiying编辑:H4O1、引言--为什么要在AI训练数据中参与水印?深度神经网络(DNN)以其高效率和高效益被宽泛运行于许多关键义务运行和设施中。高品质的已颁布(如开源或商业)数...【详细内容】2023-11-16Search:AI训练 点击:(201)评论:(0)参与收藏 钻研称ChatGPT可以取代AI训练师4月14日信息,据外媒报道,日前,苏黎世大学的钻研人员在一篇新论文中发现,ChatGPT可以胜过口头文本注释义务的人群上班者,即标志用于训练人工智能系统的文本。钻研人员向ChatGPT提...【详细内容】2023-04-17Search:AI训练 点击:(194)评论:(0)参与收藏 被人工智能冲击的第一波:游戏绘图师转型修图,广告设计变身AI训练员几个月前,从业5年的林娜(化名)在社交媒体上看到了一张由人工智能生成的游戏角色绘画,画风和自己的原画十分相似。在此之前,她感觉AI无法精准了解艺术中的色和谐状态,甚至不能...【详细内容】2023-03-31Search:AI训练 点击:(209)评论:(0)参与收藏 马斯克等千名大佬签订地下信,叫停AI训练这封信呐喊,一切人工智能试验室立刻暂停训练比GPT-4更弱小的人工智能系统至少6个月。这种暂停应该是地下的和可验证的,并且包括所无关键介入者。假设不能迅速实施这种暂停,政府应介入并履行暂停。...【详细内容】2023-03-29Search:AI训练 点击:(157)评论:(0)参与收藏 28.5万CPU外围、1万个GPU,微软打造AI训练超级计算机微软与OpenAI协作后的第一个成绩曾经重磅颁布!它是一台领有超越28.5万个CPU外围、1万个GPU、每GPU领有400Gbps网络带宽的繁多系统超级计算机!去年,微软发表将向OpenAI投资10...【详细内容】2020-05-20Search:AI训练 点击:(624)评论:(0)参与收藏 阿里安保联结浙大发明的AI训练师助手成绩被CVPR2020接纳据了解,AI训练师助手旨高效打造AI深度模型,应答海量运行场景的参与,让AI训练模型面对新场景时不用从头学习,间接从曾经存在的模型上迁徙,迅速取得他人的常识、才干,成为全新...【详细内容】2020-03-27Search:AI训练 点击:(1459)评论:(0)参与收藏 ▌繁难百科介绍多方热议人工智能产业新机会编者按&emsp;&emsp;从前沿科技展会到上层对话平台,从上海、重庆到博鳌,从线上到线下&hellip;&hellip;一场场高规格、大规模的盛世中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】2024-04-08中国度电网Tags:人工智能 点击:(4)评论:(0)参与收藏 ​人形机器人时代来了吗日前,由中国人形机器人(11.080,-0.05,-0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。上班人员向观赏者展现一款人形机器人。观赏者与一款陪护型人形机器人...【详细内容】2024-04-08中国青年报Tags:​人形机器人 点击:(4)评论:(0)参与收藏 AI重塑社交:腾讯与字节跳动的新赛场文|新火种一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头简直同步推出了各自的AI社交产品,虽然腾讯和字节跳动在前段时期刚刚破冰,但这一动作不只象征着这两大巨头之...【详细内容】2024-04-07蓝鲸财经Tags: 点击:(7)评论:(0)参与收藏 第一批用Kimi做内容的网红曾经杀疯了作者:王东东文章来自:斗战圣佛小组技术崇奉派VS市场崇奉派朱啸虎和月之暗面老板杨植麟在前几天有一场不算battle的battle。battle的争执点是:大模型有没有戏。技术派...【详细内容】2024-04-04斗战圣佛小组Tags: 点击:(4)评论:(0)参与收藏 昆仑万维颁布面向人工智能时代的六条人才宣言过去的一年多,是人工智能取得特殊提高的一年。在这充溢打破性技术飞跃和备受争议的一年里,咱们见证了人工智能的极速开展和宽泛的影响,人工智能曾经迅速地融入了咱们的生存,深入...【详细内容】2024-04-03砍柴网Tags:昆仑万维 点击:(7)评论:(0)参与收藏 AI干掉声优?音频大模型追赶图灵时辰七十年前,人工智能之父图灵提出,假设人无法判别屏幕的另一侧终究是人还是机器,就证实机用具有了人一样的智能。这一经典的图灵测试似乎北斗星普通,指引着AI行业的上班者们不...【详细内容】2024-04-03第一财经网Tags: 点击:(5)评论:(0)参与收藏 生成式人工智能有哪些新趋向?相较于去年,当下咱们所能体验的人工智能技术的范畴曾经大幅优化。从搜查引擎、电商平台再到社媒平台,只需是以搜查结果为导向的内容,都会出现它的身影。但其实,人工智能的运行场...【详细内容】2024-04-03品谈老师帮Tags:人工智能 点击:(6)评论:(0)参与收藏 AI环球的新难题:互联网的信息不够用了!高品质数据的紧缺正成为AI开展的关键阻碍。4月1日,据媒体报道,随着OpenAI、Google等企业一直深化开展AI技术,科技巨头们遇到了一个新疑问:现有的互联网信息量或许无余以撑持他们...【详细内容】2024-04-02硬AITags: 点击:(6)评论:(0)参与收藏 当天起,ChatGPT无需注册就能用了!起源:量子位金磊克雷西发自凹非寺就在刚刚,OpenAI狠狠地open了一把:从当天起,ChatGPT关上即用,无需再注册帐号和登录了!像这样,间接登录网站,然后就可以开启对...【详细内容】2024-04-02量子位Tags: 点击:(7)评论:(0)参与收藏 AI时代,面对死亡有了第二种选用?往年春节时期,罗佩玺瞒着妈妈用AI技术复生了外婆,她将妈妈如今的容貌和外婆留下的老照片分解在一同。时隔60多年,妈妈和外婆终于又见面了,这是她送给妈妈的生日礼物。收...【详细内容】2024-04-02中国青年报Tags:AI时代 点击:(7)评论:(0)参与收藏

人工智能产业发展深度报告:格局、潜力与展望

工智能(Artificial Intelligence,AI)是利用机器学习和数据分析方法赋予机器模拟、延伸

近年来, 在大数据、算法和计算机能力三大要素的共同驱动下,人工智能进入高速发展阶段。

人工智能市场格局

人工智能赋能实体经济,为生产和生活带来革命性的转变。 人工智能作为新一轮产业变革 的核心力量,将重塑生产、分配、交换和消费等经济活动各环节,催生新业务、新模式和 新产品。从衣食住行到医疗教育,人工智能技术在 社会 经济各个领域深度融合和落地应用。同时,人工智能具有强大的经济辐射效益,为经济发展提供强劲的引擎。据埃森哲预测, 2035 年,人工智能将推动中国劳动生产率提高 27%,经济总增加值提升 7.1 万亿美元。

多角度人工智能产业比较

战略部署:大国角逐,布局各有侧重

全球范围内,中美“双雄并立”构成人工智能第一梯队,日本、英国、以色列和法国等发 达国家乘胜追击,构成第二梯队。同时,在顶层设计上,多数国家强化人工智能战略布局, 并将人工智能上升至国家战略,从政策、资本、需求三大方面为人工智能落地保驾护。后起之秀的中国,局部领域有所突破。中国人工智能起步较晚,发展之路几经沉浮。自 2015 年以来,政府密集出台系列扶植政策,人工智能发展势头迅猛。由于初期我国政策 侧重互联网领域,资金投向偏向终端市场。因此,相比美国产业布局,中国技术层(计算 机视觉和语音识别)和应用层走在世界前端,但基础层核心领域(算法和硬件算力)比较 薄弱,呈“头重脚轻”的态势。当前我国人工智能在国家战略层面上强调系统、综合布局。

美国引领人工智能前沿研究,布局慢热而强势。 美国政府稍显迟缓,2019 年人工智能国 家级战略(《美国人工智能倡议》)才姗姗来迟。但由于美国具有天时(5G 时代)地利(硅 谷)人和(人才)的天然优势,其在人工智能的竞争中已处于全方位领先状态。总体来看, 美国重点领域布局前沿而全面,尤其是在算法和芯片脑科学等领域布局超前。此外,美国聚焦人工智能对国家安全和 社会 稳定的影响和变革,并对数据、网络和系统安全十分重视。

伦理价值观引领,欧洲国家抢占规范制定的制高点。 2018 年,欧洲 28 个成员国(含英国) 签署了《人工智能合作宣言》,在人工智能领域形成合力。从国家层面来看,受限于文化和语言差异阻碍大数据集合的形成,欧洲各国在人工智能产业上不具备先发优势,但欧洲 国家在全球 AI 伦理体系建设和规范的制定上抢占了“先机”。欧盟注重探讨人工智能的社 会伦理和标准,在技术监管方面占据全球领先地位。

日本寻求人工智能解决 社会 问题。 日本以人工智能构建“超智能 社会 ”为引领,将 2017 年确定为人工智能元年。由于日本的数据、技术和商业需求较为分散,难以系统地发展人 工智能技术和产业。因此,日本政府在机器人、医疗 健康 和自动驾驶三大具有相对优势的 领域重点布局,并着力解决本国在养老、教育和商业领域的国家难题。

基础层面:技术薄弱,芯片之路任重道远

基础层由于创新难度大、技术和资金壁垒高等特点,底层基础技术和高端产品市场主要被欧美日韩等少数国际巨头垄断。 受限于技术积累与研发投入的不足,国内在基础层领域相 对薄弱。具体而言,在 AI 芯片领域,国际 科技 巨头芯片已基本构建产业生态,而中国尚 未掌握核心技术,芯片布局难以与巨头抗衡;在云计算领域,服务器虚拟化、网络技术 (SDN)、 开发语音等核心技术被掌握在亚马逊、微软等少数国外 科技 巨头手中。虽国内 阿里、华为等 科技 公司也开始大力投入研发,但核心技术积累尚不足以主导产业链发展;在智能传感器领域,欧洲(BOSCH,ABB)、美国(霍尼韦尔)等国家或地区全面布局传 感器多种产品类型,而在中国也涌现了诸如汇顶 科技 的指纹传感器等产品,但整体产业布 局单一,呈现出明显的短板。在数据领域,中国具有的得天独厚的数据体量优势,海量数 据助推算法算力升级和产业落地,但我们也应当意识到,中国在数据公开力度、国际数据 交换、统一标准的数据生态系统构建等方面还有很长的路要走。

“无芯片不 AI”,以 AI 芯片为载体的计算力是人工智能发展水平的重要衡量标准,我们 将对 AI 芯片作详细剖析,以期对中国在人工智能基础层的竞争力更细致、准确的把握。

依据部署位置,AI 芯片可划分为云端(如数据中心等服务器端)和终端(应用场景涵盖手 机、 汽车 、安防摄像头等电子终端产品)芯片;依据承担的功能,AI 芯片可划分为训练和 推断芯片。训练端参数的形成涉及到海量数据和大规模计算,对算法、精度、处理能力要 求非常高,仅适合在云端部署。目前,GPU(通用型)、FPGA(半定制化)、ASIC(全定制化)成为 AI 芯片行业的主流技术路线。不同类型芯片各具优势,在不同领域呈现多 技术路径并行发展态势。我们将从三种技术路线分别剖析中国 AI 芯片在全球的竞争力。

GPU(Graphics Processing Unit)的设计和生产均已成熟,占领 AI 芯片的主要市场份 额。GPU 擅长大规模并行运算,可平行处理海量信息,仍是 AI 芯片的首选。据 IDC 预测, 2019 年 GPU 在云端训练市场占比高达 75%。在全球范围内,英伟达和 AMD 形成双寡头 垄断,尤其是英伟达占 GPU 市场份额的 70%-80%。英伟达在云端训练和云端推理市场推 出的 GPU Tesla V100 和 Tesla T4 产品具有极高性能和强大竞争力,其垄断地位也在不断 强化。目前中国尚未“入局”云端训练市场。由于国外 GPU 巨头具有丰富的芯片设计经 验和技术沉淀,同时又具有强大的资金实力,中国短期内无法撼动 GPU 芯片的市场格局。

FPGA(Field Programmable Gate Array)芯片具有可硬件编程、配置高灵活性和低能耗等优点。FPGA 技术壁垒高,市场呈双寡头垄断:赛灵思(Xilinx)和英特尔(Intel)合计 占市场份额近 90%,其中赛灵思的市场份额超过 50%,始终保持着全球 FPGA 霸主地位。 国内网络、阿里、京微齐力也在部署 FPGA 领域,但尚处于起步阶段,技术差距较大。

ASIC(Application Specific Integrated Circuits)是面向特定用户需求设计的定制芯片, 可满足多种终端运用。尽管 ASIC 需要大量的物理设计、时间、资金及验证,但在量产后, 其性能、能耗、成本和可靠性都优于 GPU 和 FPGA。与 GPU 与 FPGA 形成确定产品不 同,ASIC 仅是一种技术路线或方案,着力解决各应用领域突出问题及管理需求。目前, ASIC 芯片市场竞争格局稳定且分散。我国的 ASIC 技术与世界领先水平差距较小,部分领域处于世界前列。在海外,谷歌 TPU 是主导者;国内初创芯片企业(如寒武纪、比特大陆和地平线),互联网巨头(如网络、华为和阿里)在细分领域也有所建树。

总体来看 ,欧美日韩基本垄断中高端云端芯片,国内布局主要集中在终端 ASIC 芯片,部分领域处于世界前列,但多以初创企业为主,且尚未形成有影响力的“芯片−平台−应用” 的生态,不具备与传统芯片巨头(如英伟达、赛灵思)抗衡的实力;而在 GPU 和 FPGA 领域,中国尚处于追赶状态,高端芯片依赖海外进口。

技术层面:乘胜追击,国内头部企业各领风骚

技术层是基于基础理论和数据之上,面向细分应用开发的技术。 中游技术类企业具有技术 生态圈、资金和人才三重壁垒,是人工智能产业的核心。相比较绝大多数上游和下游企业聚焦某一细分领域、技术层向产业链上下游扩展较为容易。该层面包括算法理论(机器学 习)、开发平台(开源框架)和应用技术(计算机视觉、智能语音、生物特征识别、自然 语言处理)。众多国际 科技 巨头和独角兽均在该层级开展广泛布局。近年来,我国技术层 围绕垂直领域重点研发,在计算机视觉、语音识别等领域技术成熟,国内头部企业脱颖而 出,竞争优势明显。但算法理论和开发平台的核心技术仍有所欠缺。

具体来看,在算法理论和开发平台领域,国内尚缺乏经验,发展较为缓慢。 机器学习算法是人工智能的热点,开源框架成为国际 科技 巨头和独角兽布局的重点。开源深度学习平台 是允许公众使用、复制和修改的源代码,是人工智能应用技术发展的核心推动力。目前, 国际上广泛使用的开源框架包括谷歌的 TensorFlow、脸书的 Torchnet 和微软的 DMTK等, 美国仍是该领域发展水平最高的国家。我国基础理论体系尚不成熟,网络的 PaddlePaddle、 腾讯的 Angle 等国内企业的算法框架尚无法与国际主流产品竞争。

在应用技术的部分领域,中国实力与欧美比肩。 计算机视觉、智能语音、自然语言处理是三大主要技术方向,也是中国市场规模最大的三大商业化技术领域。受益于互联网产业发 达,积累大量用户数据,国内计算机视觉、语音识别领先全球。自然语言处理当前市场竞 争尚未成型,但国内技术积累与国外相比存在一定差距。

作为落地最为成熟的技术之一,计算机视觉应用场景广泛。 计算机视觉是利用计算机模拟 人眼的识别、跟踪和测量功能。其应用场景广泛,涵盖了安防(人脸识别)、医疗(影像诊断)、移动互联网(视频监管)等。计算机视觉是中国人工智能市场最大的组成部分。据艾瑞咨询数据显示,2017 年,计算机视觉行业市场规模分别为 80 亿元,占国内 AI 市 场的 37%。由于政府市场干预、算法模型成熟度、数据可获得性等因素的影响,计算机视觉技术落地情况产生分化。我国计算机视觉技术输出主要在安防、金融和移动互联网领域。而美国计算机视觉下游主要集中在消费、机器人和智能驾驶领域。

计算机视觉技术竞争格局稳定,国内头部企业脱颖而出。 随着终端市场工业检测与测量逐 渐趋于饱和,新的应用场景尚在 探索 ,当前全球技术层市场进入平稳的增长期,市场竞争格局逐步稳定,头部企业技术差距逐渐缩小。中国在该领域技术积累丰富,技术应用和产 品的结合走在国际前列。2018 年,在全球最权威的人脸识别算法测试(FRVT)中,国内 企业和研究院包揽前五名,中国技术世界领先。国内计算机视觉行业集中度高,头部企业 脱颖而出。据 IDC 统计,2017 年,商汤 科技 、依图 科技 、旷视 科技 、云从 科技 四家企业 占国内市场份额的 69.4%,其中商汤市场份额 20.6%排名第一。

应用层面:群雄逐鹿,格局未定

应用场景市场空间广阔,全球市场格局未定。 受益于全球开源社区,应用层进入门槛相对较低。目前,应用层是人工智能产业链中市场规模最大的层级。据中国电子学会统计,2019 年,全球应用层产业规模将达到360.5 亿元,约是技术层的1.67 倍,基础层的2.53 倍。 在全球范围内,人工智能仍处在产业化和市场化的 探索 阶段,落地场景的丰富度、用户需 求和解决方案的市场渗透率均有待提高。目前,国际上尚未出现拥有绝对主导权的垄断企 业,在很多细分领域的市场竞争格局尚未定型。

中国侧重应用层产业布局,市场发展潜力大。 欧洲、美国等发达国家和地区的人工智能产 业商业落地期较早,以谷歌、亚马逊等企业为首的 科技 巨头注重打造于从芯片、操作系统 到应用技术研发再到细分场景运用的垂直生态,市场整体发展相对成熟;而应用层是我国 人工智能市场最为活跃的领域,其市场规模和企业数量也在国内 AI 分布层级占比最大。据艾瑞咨询统计,2019 年,国内77%的人工智能企业分布在应用层。得益于广阔市场空间以及大规模的用户基础,中国市场发展潜力较大,且在产业化应用上已有部分企业居于 世界前列。例如,中国 AI+安防技术、产品和解决方案引领全球产业发展,海康威视和大 华股份分别占据全球智能安防企业的第一名和第四名。

整体来看 ,国内人工智能完整产业链已初步形成,但仍存在结构性问题。从产业生态来看, 我国偏重于技术层和应用层,尤其是终端产品落地应用丰富,技术商业化程度比肩欧美。 但与美国等发达国家相比,我国在基础层缺乏突破性、标志性的研究成果,底层技术和基 础理论方面尚显薄弱。初期国内政策偏重互联网领域,行业发展追求速度,资金投向追捧 易于变现的终端应用。人工智能产业发展较为“浮躁”,导致研发周期长、资金投入大、 见效慢的基础层创新被市场忽略。“头重脚轻”的发展态势导致我国依赖国外开发工具、 基础器件等问题,不利于我国人工智能生态的布局和产业的长期发展。短期来看,应用终 端领域投资产出明显,但其难以成为引导未来经济变革的核心驱动力。中长期来看,人工智能发展根源于基础层(算法、芯片等)研究有所突破。

透析人工智能发展潜力

基于人工智能产业发展现状,我们将从智能产业基础、学术生态和创新环境三个维度,对 中国、美国和欧洲 28 国人工智能发展潜力进行评估,并使用熵值法确定各指标相应权重 后,利用理想值法(TOPSIS 法)构建了一个代表人工智能发展潜力整体情况的综合指标。

从智能产业基础的角度

产业化程度:增长强劲,产业规模仅次美国

中国人工智能尚在产业化初期,但市场发展潜力较大。 产业化程度是判断人工智能发展活 力的综合指标,从市场规模角度,据 IDC 数据,2019 年,美国、西欧和中国的人工智能 市场规模分别是 213、71.25 和 45 亿美元,占全球市场份额依次为 57%、19%和 12%。中国与美国的市场规模存在较大差异,但近年来国内 AI 技术的快速发展带动市场规模高速增长,2019 年增速高达 64%,远高于美国(26%)和西欧(41%)。从企业数量角度, 据清华大学 科技 政策研究中心,截至 2018 年 6 月,中国(1011 家)和美国(2028 家) 人工智能企业数全球遥遥领先,第三位英国(392 家)不及中国企业数的 40%。从企业布局角度,据腾讯研究院,中国 46%和 22%的人工智能企业分布在语音识别和计算机视觉 领域。横向来看,美国在基础层和技术层企业数量领先中国,尤其是在自然语言处理、机器学习和技术平台领域。而在应用层面(智能机器人、智能无人机),中美差距略小。展 望未来,在政策扶持、资本热捧和数据规模先天优势下,中国人工智能产业将保持强劲的 增长态势,发展潜力较大。

技术创新能力:专利多而不优,海外布局仍有欠缺

专利申请量是衡量人工智能技术创新能力和发展潜质的核心要素。在全球范围内,人工智 能专利申请主要来源于中国、美国和日本。2000 年至 2018 年间,中美日三国 AI 专利申 请量占全球总申请量的 73.95%。中国虽在 AI 领域起步较晚,但自 2010 年起,专利产出 量首超美国,并长期雄踞申请量首位。

从专利申请领域来看, 深度学习、语音识别、人脸识别和机器人等热门领域均成为各国重 点布局领域。其中,美国几乎全领域领跑,而中国在语音识别(中文语音识别正确率世界 第一)、文本挖掘、云计算领域优势明显。具体来看,多数国内专利于 AI科技 热潮兴起后 申请,并集中在应用端(如智能搜索、智能推荐),而 AI 芯片、基础算法等关键领域和前 沿领域专利技术主要仍被美国掌握。由此反映出中国 AI 发展存在基础不牢,存在表面繁 荣的结构性不均衡问题。

中国 AI 专利质量参差不齐,海外市场布局仍有欠缺。 尽管中国专利申请量远超美国,但技术“多而不强,专而不优”问题亟待调整。其一,中国 AI 专利国内为主,高质量 PCT 数量较少。PCT(Patent Cooperation Treaty)是由 WIPO 进行管理,在全球范围内保护 专利发明者的条约。PCT 通常被为是具有较高的技术价值。据中国专利保护协会统计,美国 PCT 申请量占全球的 41%,国际应用广泛。而中国 PCT 数量(2568 件)相对较少, 仅为美国 PCT 申请量的 1/4。目前,我国 AI 技术尚未形成规模性技术输出,国际市场布 局欠缺;其二,中国实用新型专利占比高,专利废弃比例大。我国专利类别包括发明、实 用新型专利和外观设计三类,技术难度依次降低。中国拥有 AI 专利中较多为门槛低的实 用新型专利,如 2017 年,发明专利仅占申请总量的 23%。此外,据剑桥大学报告显示, 受高昂专利维护费用影响,我国 61%的 AI 实用新型和 95%的外观设计将于 5 年后失效, 而美国 85.6%的专利仍能得到有效保留。

人才储备:供需失衡,顶尖人才缺口大

人才的数量与质量直接决定了人工智能的发展水平和潜力。目前,全球人工智能人才分布 不均且短缺。据清华大学统计,截至 2017 年,人才储备排名前 10 的国家占全球总量的 61.8%。欧洲 28 国拥有 名人工智能人才,位居全球第一,占全球总量的 21.1%。美国和中国分别以 、 列席第二、第三位。其中,中国基础人才储备尤显薄弱。根据腾讯研究院,美国 AI 技术层人才是中国 2.26 倍,基础层人才数是中国的 13.8 倍。

我国人工智能人才供需严重失衡,杰出人才缺口大。 据 BOSS 直聘测算,2017 年国内人 工智能人才仅能满足企业 60%的需求,保守估计人才缺口已超过 100 万。而在部分核心领域(语音识别、图像识别等), AI 人才供给甚至不足市场需求的 40%,且这种趋势随 AI 企业的增加而愈发严重。在人工智能技术和应用的摸索阶段,杰出人才对产业发展起着 至关重要的作用,甚至影响技术路线的发展。美国(5158 人)、欧盟(5787 人)依托雄 厚的科研创新能力和发展机会聚集了大量精英,其杰出人才数在全球遥遥领先,而中国杰 出人才(977 人)比例仍明显偏低,不足欧美的 1/5。

人才流入率和流出率可以衡量一国生态体系对外来人才吸引和留住本国人才的能力。 根据 Element AI 企业的划分标准,中国、美国等国家属于 AI 人才流入与流出率均较低的锚定 国(Anchored Countries),尤其是美国的人工智能人才总量保持相对稳定。具体来看, 国内人工智能培育仍以本土为主,海外人才回流中国的 AI 人才数量仅占国内人才总量的 9%,其中,美国是国内 AI人才回流的第一大来源大国,占所有回流中国人才比重的 43.9%。 可见国内政策、技术、环境的发展对海外人才的吸引力仍有待加强。

从学术生态的角度

技术创新能力:科研产出表现强劲,产学融合尚待加强

科研能力是人工智能产业发展的驱动力。从论文产出数量来看,1998-2018 年,欧盟、中国、美国位列前三,合计发文量全球占比 69.64%。近些年,中国积极开展前瞻性 科技 布 局, AI发展势头强劲,从1998年占全球人工智能论文比例的8.9%增长至2018年的28.2%, CAGR17.94%。2018 年,中国以 篇 AI 论文居世界首位。中国研究活动的活跃从 侧面体现在人工智能发展潜力较大。

我国论文影响力仍待提高,但与欧美差距逐年缩小。 FWCI(Field-Weighted Citation Impact, 加权引用影响力)指标是目前国际公认的定量评价科研论文质量的最优方法,我们利用 FWCI 表征标准化1后的论文影响力。当 FWCI≥1 时,代表被考论文质量达到或超过了世 界平均水平。近 20 年,美国的 AI 论文加权引用影响力“独领风骚”,2018 年,FWCI 高 于全球平均水平的 36.78%;欧洲保持相对平稳,与全球平均水平相当;中国 AI 领域论文 影响力增幅明显,2018 年,中国 FWCI 为 0.80,较 2010 年增长 44.23%,但论文影响力仍低于世界平均水平的 20%。从高被引前 1%论文数量来看,美国和中国高质量论文产出 为于全球第一、第二位,超出第三位英国论文产出量近 4 倍。综合来看,中国顶尖高质量 论文产出与美国不分伯仲,但整体来看,AI 论文影响力与美国、欧美仍有差距。

从发文主体来看,科研机构和高校是目前中国人工智能知识生产的绝对力量,反映出科研成 果转化的短板。 而美国、欧盟和日本则呈现企业、政府机构和高校联合参与的态势。据Scopus 数据显示,2018 年,美国企业署名 AI 论文比例是中国的 7.36 倍,欧盟的 1.92 倍。2012 年 至 2018 年,美国企业署名 AI 论文比例增长 43pct,同期中国企业署名 AI 论文仅增长 18pct。 此外,人工智能与市场应用关联密切,校企合作论文普遍存在。而我国校-企合作论文比例仅为 2.45%,与以色列(10.06%)、美国(9.53%)、日本(6.47%)差别较大。从产学结合的角度, 中国人工智能研究以学术界为驱动,企业在科研中参与程度较低,或难以实现以市场为导向。

中国人工智能高校数量实位于第二梯队,实力比肩美国。高校是人工智能人才供给和论文 产出的核心载体。 据腾讯研究院统计,全球共 367 所高校设置人工智能相关学科,其中, 美国(168 所)独占鳌头,占据全球的 45.7%。中国拥有 20 所高校与英国并列第三,数 量上稍显逊色。此外,中国高校实力普遍上升,表现强劲。据麻省理工学院 2019 年发布的AI 高校实力 Top20 榜单中,中国清华大学、北京大学包揽前两名,较 2018 年分别上 升 1 个和 3 个名次。

从创新环境的角度

研发投入:中美研发投入差距收窄

中国研发高投入高强度,在全球研发表现中占据重要地位。 从研发投入的角度,美国、中国、日本和德国始终是全球研发投入的主力军。据 IDC 统计显示,2018 年四国的研发投 入总和占全球总量的比例已达 60.77%。其中,美国凭借其强大的研发实力连续多年位居 全球研发投入的榜首。近年来,中国研发投入呈现一路猛增的强进势头,据 Statista 统计, 国内 2019 年研发投入额为 5192 亿美元,仅次于美国。且趋势上与美国差距不断缩小, 2000 年至 2019 年,CAGR 高达 14.43%,同期美国 CAGR 仅 2.99%。由于经济疲软等 诸多原因,欧盟与日本则呈现较为缓慢的上升趋势。据研发投入与强度增长的趋势推测, 中国或在 1-2 年内取代美国的全球研发领先地位。从研发强度的角度,中国研发强度总体 上呈逐步攀升的趋势,且涨幅较大。但对创新活动投入强度的重视程度仍与美国和日本存 在差距。2018 年中国研发强度 1.97%,低于日本和美国 1.53、0.87 个百分点。

资本投入:资金多而项目缺,资本投向侧重终端市场

中美是全球人工智能“融资高地”。 人工智能开发成本高,资本投入成为推动技术开发的主力。在全球范围内,美国是人工智能新增企投融资领先者,据 CAPIQ 数据显示,2010 年至 2019 年 10 月,美国 AI 企业累计融资 773 亿美元,领先中国 320 亿美元,占全球总 融资额的 50.7%。尤其是特朗普政府以来,人工智能投资力度逐步加码。中国作为全球第 二大融资体,融资总额占全球 35.5%。考虑到已有格局和近期变化,其他国家和地区难以 从规模上撼动中美两国。从人工智能新增企业数量来看,美国仍处于全球领先地位。2010 至 2018 年,美国累计新增企业数量 7022 家,较约是中国的 8 倍(870 家)。中国每年新 增人工智能企业在 2016 年达到 179 家高点后逐渐下降,近两年分别是 179 家( 2017 年), 151 家(2018 年),表明中国资本市场对 AI 投资也日趋成熟和理性。整体来看,中国人 工智能新增企业增势缓慢,但融资总额涨幅迅猛。这一“资金多而项目缺”的态势或是行 业泡沫即将出现的预警。

相比较美国,中国资本投向侧重易落地的终端市场。 从融资层面来看,中国各领域发展较 为均衡,应用层是突出领域,如自动驾驶、计算机学习与图像、语音识别和无人机技术领 域的新增融资额均超过美国。而美国市场注重底层技术的发展。据腾讯研究院数据显示, 芯片和处理器是美国融资最多的领域,占总融资额的 31%。当前中国对人工智能芯片市场 高度重视,但受限于技术壁垒和投资门槛高,国内芯片融资处于弱势。

基于信息熵的 TOPSIS 法:综合指标评估

数据结果显示,美国综合指标及三大项目指标评分绝对领先,中国第二,欧洲 28 国暂且落后。 具体来看,美国在人工智能人才储备、创新产出、融资规模方面优势明显。中国作为后起之秀,尽管有所赶超,但总体水平与美国相比仍有差距,尤其是杰出人才资源、高 质量专利申请上存在明显的缺陷和短板。但在论文数量和影响力、研发投入等指标上,中国正快速发展,与美国差距收窄。从各指标具体分析来看,我国人工智能研究主要分布在 高校和科研机构,企业参与度较低,产出成果较多呈现条块化、碎片化现象,缺乏与市场 的系统性融合,这将不利于中国人工智能技术的发展和产业优势的发挥。此外,我国科研 产出、企业数量和融资领域集中于产业链中下游,上游核心技术仍受制于国外企业。未来, 若国内底层技术领域仍未能实现突破,势必导致人工智能产业发展面临瓶颈。

展望

转自丨 信息化协同创新专委会

谁有《电子商务数据库技术》的复习资料和练习题啊

第一章1.电子商务是发生在开放网络上包含企业之间、企业和消费者之间的商业交易(狭义)。 广义的定义除电子交易外,还包括利用计算机网络技术进行的全部商业活动。 2.电子商务的类型:1企业经营2网上银行3网上商店和网上购物4网络服务5其他,有关认证,海关税务等部门。 3.电子商务的基本框架:社会环境(公共政策、法律、规则等)、自然科技环境(文档、安全、网络协议的技术标准)和电子商务技术内容构成了电子商务应用平台的三个支柱。 4.基础通信网络是电子商务的硬件基础设施,承担着电子商务传输的任务。 数据库承担着对商品信息的存贮、管理、查询、结算和处理等功能。 与数据库的集成有三种形式:运用Web发布数据,运用Web共享数据,用数据库驱动Web站点。 6.数据仓库是指大量散布在网络数据库中的数据进行组织,使之能形成一个可被检索、搜索、分析和报告的商业信息清单。 7.数据挖掘是指对庞大的历史交易数据进行再分析,以选定目标客户分辨市场定位发现新的商业机会。 8.企业建立电子商务网站的步骤:1选自ISP和ICP2注册域名和选侧接入方式3网页设计制作4创建和维护数据库5整合数据库和网站6在Web上使用数据库。 9.数据库驱动Web站点的核心是网络数据库软件。 10.数据库软件的类型:桌面型,中小型面向对象型,大型分布型,数据仓库型。 (包含的种类)11.电子商务Web站点数据库的特征:1对电子商务运营各个方面确保数据安全2对电子商务交易过程管理3对客户确认已经完成,但由于硬件软件故障而未能执行的交易可以弥补。 12.创建网络数据库的调件:1要符合企业电子商务的需要2能被某个数据库管理系统接受3具有较高的质量,便于维护,理解,效率高。 脚本语言用途:1可以处理用户在表单中输入的数据,编辑,复制他们到隐含域2可以增强界面效果3可以控制表单的提交合生成复杂的URL地址。 第二章数据库系统概论1.数据库管理的三个阶段:人工管理阶段,文件系统阶段,数据库系统阶段。 2.按照模型发展划分:1第一代数据库管理系统,层次数据库和网状数据库管理系统2第二代数据库管理系统,关系数据库管理系统(RDMS)3第三代数据库管理系统,新一代,面向对象数据库管理系统。 3.数据模型是数据库系统的数学形式框架,是用来描述数据的一组该念和定义包括:数据的静态特征,数据的动态特征,数据的完整约束性。 大体可分两类:面向值得数据模型和面向对象的数据模型。 4.在实际应用中,为了更好的描述现实世界中数据的特征,常常针对不同的场合或不同的目的,采用不同的方法描述数据特征,统称为数据模型。 有如下几种:1概念数据模型,这是面向数据库用户的相士世界的数据模型,与具体的DBMS无关2逻辑数据模型,这是用户从数据库中所看到的数据模型,是具体的DBMS所支持的数据模型,既要面向用户又要面向系统3物理数据模型,描述数据在存储介质山的组织方式的数据模型,不仅与DBMS有关还和操作系统和硬件有关。 5.现实世界:是指存在于人脑之外的客观世界。 6.概念世界:是现实世界在人们脑中的反映,是对客观事物及其联系的一种抽象描述。 7.实体:我们把客观存在并可以相互区别的事物称为实体。 同一类实体的集合称为实体集。 属性的集合表征一种实体的类型,称为实体型。 8.属性:属性是用来描述实体的某一方面的特性。 属性的具体取值为属性值。 9.实体标志符:如果某个属性或属性集合的值能够唯一的标志出实体集中的每一个实体,则可以选择该属性或属性集合作为实体标志符。 10.联系:实体集之间的对应关系称为联系,它反映现实世界的事物之间的相互关系。 分实体内部各属性之间的联系和实体之间的联系。 机器世界:信息经过加工编码而进入机器世界,机器世界处理的对象是数据。 记录:相对应每一实体的数据叫记录。 字段:相对应属性的数据称为字段,或者数据项,又叫数据元素或初等项。 文件:相对应实体集的叫文件,它是同类记录的集合。 记录型:相对应于实体型的叫记录型。 关键字:相应于实体标志符的为关键字,关键字又称外码。 11.E-R模型:E-R图所描述的现实世界的信息结构称为组织模式或企业模式,同时把这种描述结果称为E-R模型。 三要素:实体,属性,实体之间的联系。 12.联系抽象后可归结为三种:一对一联系,一对多联系,多对多联系。 13.作实体-联系图(E-R图)的步骤:1确定所有的实体集合2选择实体集应包含的属性3确定实体集之间的联系4确定实体集的关键字,用下划线在属性上表明关键字的属性集合5确定联系的类型,在用线将表示联系的菱形框联系到实体集时,在线旁边注明是1或n来表示联系的类型。 14.层次数据模型就是根据现实世界中存在的层次结构特点而提出的一种数据模型。 用树型结构来表示实体之间联系的模型称为层次模型。 15层次模型只能表示一对多关系,引入虚拟记录型和指针转换多对多关系。 16.网状模型:用逻辑记录型来代替实体型。 逻辑记录所包括的所有字段的名字及其类型描述了逻辑记录格式,这样一逻辑记录型为节点所形成的有向网络结构称为网状模型。 网状模型中给每一个父结点及子节点之间的联系都指定名字,这种联系称为系。 17.关系模型:关系模型是同过表格数据来表示和实现两个实体之间的联系。 关系就是二维表格,表格中的每一行称作一个元组,它相当于一个记录值;每一列是一个属性值,列可以命名,称为属性名,属性相当于记录中的数据项或字段值。 关系是元组的集合。 18.关系有如下属性:表格中的每一列都是不可再分的基本属性;各列的名字不同,顺序不重要;行的次序无关紧要;关系中部不允许有完全相同的两行存在。 .19.域:域是值的有限集合。 关系:笛卡尔积d1*d2*…dn 的任意一个子集称为在d1,d2…dn上的一个关系。 用R(d1,d2,…dn)表示,R为关系名。 n为关系的度或目。 20.关系模式:我们将关系名及其属性名集合称为关系模式,具体的关系是实例。 21.数据库模式;在支持关系模型的数据中,数据被看作是一个个的关系,描述数据库全部关系的一组关系模式称为关系的数据库模式。 任何时刻数据库的所有具体的关系组成关系数据库的一个实例。 22.关系运算:选择σF(R) 投影ПAR 连接RfS23.数据库系统由五个部分组成:硬件资源(CPU,内存,磁盘),软件资源(操作系统,数据库管理系统,高级编程语言),数据库结构,数据库管理员和用户。 24.数据库管理系统的三级模式结构:用户级数据库,概念几数据库,物理级数据库。 25.用户数据库是用户看到使用的数据库,所以又称用户视图,子模式,外模式,用户模式等。 26.概念级数据库是DBA(数据库管理员)看到的数据库,因此也称DBA视图,又称为模式。 27.物理级数据库又称为存储模式,内模式,是数据库管理系统内部的表示,即对数据的物理结构和方式的描述。 28.为了保证数据库能够高效正常的运行,一般大型数据库都设有专门人员负责数据库管理系统的管理工作,这种专门的人员成为数据库管理人员(DBA)。 主要职责:1负责数据库核心及其开发工具的安装及升级2为数据库管理系统分配存储空间并规划未来的存储要求3协助开发者建立基本的对象(表、视图、索引)4负责注册用户并维护系统的安全性5负责数据库管理系统的备份和恢复。 29.数据库管理系统用户分:最终用户和专业用户即应用程序员。 30.数据库管理系统是对数据库定义、管理、维护和检索的一组软件。 其功能如下:1存储数据2创建并维护数据结构3允许多用户并发访问4加强安全性和保密性5允许提取和操作已存储的数据6实现数据录入和数据加载7提供不同记录的一致性8提供对指定数据快速提取的高效索引机制。 31.数据库管理系统必须提供数据的安全性、并发性、完整性、数据备份、数据恢复等数据保护能力以保证数据库中数据的安全可靠和正确性。 为此需要建立数据库保护机制,用于以阻止一切物理破坏和读写破坏,并能以最快的速度使其恢复工作。 32.数据库的安全性主要是指保护数据库,防止因用户非法使用数据库造成数据泄密、更改或破坏。 保证安全性关键是控制和识别。 33.用户操作数据库中的数据至少三层安全防线:1操作系统的安全保护机制2数据库管理系统的安全保护机制3数据库中的安全防护机制a用户标示和鉴定b存取控制c视图d数据加密e数据库审计。 34.数据库的完整约束性是指数据的正确性、相容性和一致性,即防止不符合语义的错误数据输入和输出,同时还要使存储在不同副本中的同一数据保持一致协调,使数据之间的结构不受破坏。 35.数据完整约束条件分类:1属性值的约束和联系的约束a属性值的约束是对一个列的取值的说明b关于数据之间的联系约束,在关系数据库中指多个属性或多个元组之间的联系的约束2静态约束和动态约束3立即执行约束和延迟执行约束。 36.完整性约束方法分两类:隐含约束方法和显式约束方法(a采用断言说明句b采用CHECK子句或constraint 子句c采用数据库触发器d将完整性约束的说明和检查任务交给应用程序)。 37.并发控制的基本单位是事务。 38.并发控制所带来的数据不一致分三类:丢失数据,不可重读数据和读“脏”数据。 39.并发控制的基本思想:当一个应用程序对数据库的某一部分执行修改操作时,对该部分数据实行封锁,拒绝其他用户对该部分的并发访问控制要求,直到该事务执行完毕(正常结束或撤销)。 40.并发控制的策略包括:封锁单位大小的确定、死锁的预防、检测和解除。 41.分布式数据库系统是在两台或多台地理上或物理上分散而逻辑上集中的数据库系统,管理这样的数据库系统的软件称为分布式数据库管理系统(DDBMS)。 42.面向对象(OO)数据模型比传统模型优势:1具有表示和构造复杂对象的能力2通过封装和消息隐藏技术提供了程序的模块化机制3继承和类层次技术不仅能表示is-a,还提供了软件重用机制4通过滞后联编等概念提供系统扩充能力5提供与宿主语言的无缝连接。 43.能够管理数值、文件、表格、图形、图像、声音等多媒体的数据库称为多媒体数据库(MDB)。 44.管理应用方式:1基于关系模型,加以扩充,使之支持多媒体数据库类型2基于OO模型来实现对多媒体信息的描述和操作3基于超文本模型。 45.多媒体数据库的特殊功能:1支持图像、声音、动画等多媒体字段和用户自定义字段2支持长数据和非长数据的集成管理3支持复杂的实体表示4有保证完整性和一致性机制5支持同一实体多种表现形式6具有良好的用户界面7至此多媒体的特殊查询和良好的接口处理8支持分布式环境。 46.多媒体数据库关键技术:1数据模型技术2数据存储管理和压缩解压技术3多媒体再现和良好的用户界面技术4多媒体信息检索和查询及其他处理技术5分布式环境与并行处理技术。 第三章数据库设计基础1.数据库设计的基本问题是如何建立一个良好的数据库模式,亦即给出一组数据,如何构造一个合适于他们的数据模式,无论是存储还是操纵反面都有较好的性能。 2.关系数据库设计理论主要包括:函数依赖、范式和模式设计方法。 数据库问题:数据冗余、更新异常、插入异常、删除异常。 3.规范化的目的:1把关系中的每一个数据项转换成一个不可再分的基本项2消除冗余,并使关系的检索简化3消除数据在插入、修改、删除时的异常情况4关系模型灵活,易于使用非过程化的高级查询语言进行查询。 4.函数依赖:设R(A1A2A)是关系U={A1A2A}是R的所有属性集合,X、Y、Z分别是R的属性子集1若对于R中的X的任何一个具体值,Y仅有唯一的具体值与之相对应,则称R的属性Y函数依赖于属性X,记作X→Y,X称为决定因素。 如果X→Y,且Y不是X的子集,则称X→Y是非平凡的函数依赖。 2若在R中,如果属性集Y函数依赖于属性集X,且不与X的任何真子集函数依赖,则称Y完全依赖于X记作Xf→Y,否则称Y部分依赖于X,记作Xp→Y3在R中对于属性子集X、Y、Z,若Xf→Y,Y→Z,则称Z对X传递函数依赖,记作Xt→Z。 关键字(码):4在R中,设K是U的属性或属性集合。 如果Kf→U,则称K是关系R的一个后选关键字。 若R中有一个以上的关键字,则选定其中一个作为主关键字(主码),如果K是属性集合,则称为组合关键字或合成关键字。 5.包含在任意一个候选字中的属性,称为主属性,不包含在任何候选关键字中的属性称为非主属性。 6.若关系的全部属性作为关键字,则称为完全关键字。 此时无非主属性。 后选关键字的两个性质:a标识的唯一性b无冗余性。 5在关系R中,若属性或属性集合X不是R的关键字,但X是其他关系中的关键字,则称X是关系R的外关键字或外码。 6在关系R中,XYZ是属性集合,且Z=U-X-Y,多值依赖X→→Y成立当且仅当对R中给定的一对(X,Z)值有一组Y的值与之对应,这组值决定于X值二与Z值无关。 关系模式中至少存在三个属性,才有可能存在多值依赖。 7.第一范式(1NF):如果关系R的每一个属性的值为不可分离的原子值,即每个属性都是不可再分的基本数据项,则R是第一范式记作R∈1NF。 8.第二范式:如果关系R∈1NF,且R中的每一非主属性完全函数依赖于主关键字,则R是第二范式,记作R∈2NF。 9.第三范式:如果R∈2NF,而且它的任何一个非主属性都不传递依赖于任何主关键字,则R是第三范式,记作R∈3NF。 :如果关系R∈3NF,X,Y∈U,若,且Y∈/U时,X必含有码,则R是BCNF,记作R∈2NF。 满足BCNF的关系模式:a非主属性对关键字完全函数依赖b主属性对不包含它的关键字完全函数依赖c没有属性完全函数依赖于一组非主属性。 11.第四范式:如果关系模式R∈BCNF,若X→→Y(Y∈/X)是平凡多值依赖,且X含有码,则称R是第四范式,记作R∈4NF.12.规范化的小结:目的:规范化的目的是使结构合理,清除存储异常并使数据冗余尽量小,便于插入、删除和更新。 原则:遵从概念单一化“一事一地”原则,即一个关系模式描述一个实体或实体间的一种联系。 规范化的实质是概念单一化。 方法:将关系模式投影分解成两个或两个以上的关系模式。 要求:分解后的关系模式集合应当与原关系模式等价,即经过自然联结可恢复原关系而不丢失信息,并保持属性间的合理联系。 13.E-R模型转换为关系模型的规则:1E-R图中的每个实体集,都相应的转换成一个关系,实体集的名字就作为关系的名字,实体集的属性就作为关系的属性,实体集的关键字作为关系的关键字。 2对于E-R图中联系,一个联系转化为一个关系,练习的名称作为关系的名称,联系的属性作为关系的属性,所有参加联系的实体集的关键字也作为关系的属性,关系的属性有联系的类型决定。 第四章 面向对象数据可设计中对象的定义:对象是一些属性(属性值刻画了一个对象的状态)及专用服务的封装体,是问题空间中一些东西的抽象。 2.类和事例:具有相同结构和相同行为的对象被组合在同一类中,这是一种抽象类型的表示,称为类。 任何单个对象都是某个类的实例。 3.消息:对象的存取或使用都是通过一种方式来实现的,即发送消息。 4.继承:继承是指对象继承了它所在的类的结构、操作和约束,也指一个类继承另一个类的结构、操作和约束,可以说继承体现了一种共享机制。 5.一个合格的面向对象的数据库管理系统应具备的性质和特征:1必备的:是指面向对象的数据库管理系统所必须满足的特征。 它们是复杂对象、对象标识、封装型、类、继承性及迟后绑定虫灾、可扩充性、计算完备性、持久性、辅存管理、并发性、恢复和即席查询功能。 2可选类:是指为了使系统更加完善可添加的功能。 分别是多继承性类型检查和推理分布设计事务处理和版本。 3开放的:是设计人员可以选择的特征。 分别是程序设计范例、表示系统、类型系统及单一性。 6.对象关系数据数据库管理系统必须具备的特征:1允许基本类型扩充2支持复杂对象管理3支持结构,数据和函数的继承、包括多重继承4对产生规则的支持。 7.集中式结构,所有资源(数据)和处理(程序)都在一台称为主机的计算机上完成,用户输入的信息通过客户机终端传导主机上。 文件服务器系统结构中,应用程序在客户工作站上运行,而不是在文件服务器上运行,文件服务器只提供资源的集中式管理和访问路径。 8.两层客户机/服务器结构客户机:从其他计算机中读取数据,经过加工处理后将数据存储到原来提供数据的计算机中的计算机。 服务器:向其他计算机提供数据的计算机。 客户机/服务器有三个基本组成部分:客户机、服务器、客户机与服务器的连接。 9.客户机是一个面向最终用户的接口或应用程序。 10.服务器的主要功能是建立进程和网络服务地址,监听用户的调用,处理客户的请求,将结果交给客户机和释放与客户机的连接。 客户机与服务器之间的连接时通过网络连接实现的。 11.客户/服务的关键在于任务的划分,一般的客户完成用户接口任务,主要是输入/输出和任务提交;服务器则主要完成数据的存储、访问和复杂的计算任务;连接件主要完成客户和服务取得数据交换。 12.三层结构:客户机、应用服务器和数据服务器。 13.客户机上只需要安装应用程序,负责处理与用户的交互和与应用程序的交互。 14.应用服务器负责处理应用逻辑,即接受客户机方应用程序的请求,然后根据应用逻辑将这个请求转化为数据库请求后与数据库服务器进行交互,并将与数据库服务器交互的结果传送给客户机方的应用程序。 15.数据服务器软件根据应用服务器发送的请求,进行数据库操作,并将操作结果传送给应用服务器。 16.应用逻辑被所有用户共享是两层结构和三层应用软件的最大区别。 中间层即应用服务器是整个系统的核心,它必须具有处理系统的具体应用的能力,并提供事务处理、安全控制以及满足不同数量客户机的请求而进行性能调整的能力。 17.三层结构应用软件开发系统优点明显:1整个系统被分为不同的逻辑块,层次非常清晰2能够使肥客户机办成瘦客户机3开发和管理的时间向服务器方转移,使得分布数据处理成为可能4管理和维护变得相对简单。 另外引进三层机构体系,客户机便可省去与数据库系统直接互动的麻烦。 18.数据库管理系统的实现技术采用存储过程技术的好处如下:1高性能2共享性3简化了应用开发过程,提高了应用开发效率4简化了安全控制。 19.分布是数据库管理技术:1数据复制和分布2两个阶段提交a协调者询问各个参与者能否提交该事务,并等待他们的回答b各参与者根据收到协调者所做的决定进行事务处理或回滚,并向协调者作出答复。 协调者在收到所有应答后,该事务结束。 第五章 数据库的数据体系是三级结构。 关系模式(模式)称为基本表,存储模式(内模式)称为存储文件,子模式(外模式)称为视图,元组称为行,属性成为列。 的组成:一个Sql 数据可是表的集合;表有行构成,行是列的集合;一个表或者是基本表或者是视图;一个基本表可以跨一个或多个存储文件,一个存储文件可存一个或多个基本表;用户可以操作基本表也可以操作视图;SQL用户可以是应用程序,也可以是终端用户。 组成:数据定义(DDL,定义数据库的逻辑结构,包括定义数据库,基本表,视图和索引四个部分。 )数据操作:DML包括查询和更新(插入,删除,更新)。 数据控制:基本表和视图的授权,完整性规则的描述,事物控制语句。 4.嵌入语言的使用规定:规定SQL在宿主语言的程序中的使用规则。 SQL语言优点:非过程化语言,统一的语言,所有关系数据库的公共语言。 5.数据字典是关于数据描述的信息的一个特殊数据库。 包含每一个数据类型的名字,意义,描述,来源,格式,用途以及与其他数据的联系等数据,这类数据成为元数据。 因而数据字典又称与数据库。 数据字典库的数据类型:数据项,组项,记录,文件,外模式,概念模式,内模式,用户应用程序,存取口令,安全性要求,完整性要求,映像等。 /D(数据字典/目录)的用途:1是系统分析员,数据库设计人员的得力助手2是协助DBA管理数据库的有力工具3支持DBMS4帮助应用程序员和终端用户更好的使用数据库。 server备份类型:数据库备份;事务日志备份;差异备份;文件和文件组备份。 8.数据库恢复模式:简单恢复;完全恢复;批日志恢复。 Truncate table tablenameNumericdistinctidentity grant revoke commit rollback columnUse masterExec sp_addumpdevice ‘tape’ ,”tape2’, ‘\\0’foreign key reference9.通用网关接口CGI就是Web服务器与一个外部程序(又称CGI程序)进行通信的协议接口,这个接口协议规定了Web服务器与CGI程序传送消息的格式,信息的内容和格式,同时也规定了CGI程序返回信息的内容和输出标准。 在Web页面中,主要通过超链接或者指定表格和图形的方法来执行CGI程序。 10.在网络服务器上,通常许多程序,用来完成不同的任务,在技术上网络服务器上的这些程序统称为CGI程序。 具有最大的互操作性,可以使用一个单独的程序来提取数据可信息,在提供一种方法让应用程序读取数据。 一个应用程序可以存取不同的数据库管理系统,而应用程序不必和DBMS绑在一起进行编译,连接,运行,而只要在应用程序中通过选择一个叫做数据库驱动程序的模块就可以把应用程序和所选的ODBCl连接在一起。 组件:应用程序,驱动程序管理器,驱动程序,数据源。 的两个基本用途:1在电子商务实际过程中,涉及企业,客户,银行海关,运输和保险等部门和单位,他们的应用平台不一致,需要同时访问多种异构数据库。 使用ODBC技术,设计人员只需要编写一个程序版本,即可以方问任何数据库,从而使程序具有更好的兼容性和适应性。 2有些应用程序需要防问某种数据库,就要求程序所在的计算机安装相应的数据库软件。 数据库软件有的庞大,加之很多单机版要与Web互联,为此ODBC 提供了一批常用数据库软件驱动程序,这样,计算机上即使没有安装相应的数据库管理系统,但只要安装了相应的驱动程序,CGI程序就可以防问。 应用程序不必关心ODBC与DBMS之间的底层通信协议。 第七章 MYSQL1.恢复root口令:1停止Mysqld server 服务,在任务管理器中终止MySQL进程。 2使用—skop-grant-tables参数启动mysqld.3使用mysql –h –hostname mysql 命令登陆到mysql server,用grant 命令改变口令;也可以这样:mysqladmin –h hostname –u user –passwordnew password 。 4载入权限表:mysqladmin –h hostname flush-privileges,或使用SQL 命令FLUSH Privileges(当然也可以重启Mysql)。 Mysqldump2.优化操作系统:不要交换区,不要使用NFS磁盘,增加系统和Mysql服务器的打开文件数量,增加系统进程和线程的数量,使用支持大文件的文件系统,使用合适的文件系统。 第八章 数据库的突出优点:1支持大数据库,多用户的高性能的事务处理2Oracle遵守数据存取语言,操作系统,用户接口和网络通信协议的工业标准3实施安全性和完整性控制4支持分式数据库和分布处理5具有可移植性,可兼容性和可连接性。 三种访问数据库的方法;1用SQL*Plus,他用SQL命令以交互的应用程序访问数据库2用第四代语言应用开发工具的应用程序访问数据库,SQL*Froms,sql*reportwriter,sql*menu 等,3用第三代语言嵌入的Sql语言或Oracle库函数调用来访问。 Prol*C。 数据保护也称数据控制主要包括数据库的完整性控制,安全性控制,并发控制和恢复。 用下列机制管理数据库的安全性:存取机制,特权(对象特权,系统特权)和角色,审计(语句审计,特权审计,对象审计)数据库不一致类型: 不一致性,不可重读性,读脏数据,丢失更改,破坏DDL操作。 4.封锁:数据封锁,DDL封锁,内部封锁。 使用的结构,当发生故障时保护数据:数据库后备(完全后备,部分后备),日志(在线日志,归档日志),回滚段和控制文件。 数据库的三种标准备份方法:导出/导入(逻辑备份),冷备份和热备份(物理备份)。 Exec sql begin declare section… sql end declare section;Exec sql include sqlca ;Exec sql connect : 用户名Indentifiedby : 口令定义游标Exec sql declare游标名 cursor forSelect 列From 表;打开游标Exec sql open 游标名;取数据Exec sql fetch 游标名 into : 变量2,变量3 ..;关闭游标Exec sql close 游标名;

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: AI训练