当前位置：首页 > 数码 > 正文内容

衡量大模型评分基准的可靠性-Anthropic进行的大规模评估 (怎么评估模型的好坏)

admin2年前 (2024-05-08)数码330

评估人工智能系统的挑战引言人工智能（AI）对社会的影响是一个广泛讨论的话题，通常集中于AI系统的某些特性，例如真实性、公平性和滥用可能性。一个经常被忽视的问题是开发稳健可靠的模型评估的难度。本文将探讨评估AI系统面临的各种挑战，并分析现有评估套件的局限性。多项选择评估的挑战多项选择评估看起来简单，但实际上却充满了挑战。 MMLU数据集 MMLU（测量多任务语言理解）是一个包含57个多项选择任务的英语评估数据集。准确率越高，表明模型的能力越强。使用MMLU会遇到四个主要挑战： 1. 数据洩漏： MMLU被广泛使用，这增加了模型在训练过程中记住MMLU数据的可能性，就像学生在考试前看到试题一样。 2. 对格式敏感：对简单的格式变化，例如选项编号或添加空格，都会导致评估准确率大幅波动。 3. 指标操纵：开发人员可以针对提高MMLU分数进行特定优化，这会使不同实验室的MMLU分数难以比较。 4. 数据错误： MMLU可能存在标记错误或无法回答的示例。 BBQ基准 BBQ（QA中的偏差基准）是一个常用的基准，用于评估模型对人群的偏见。为了测量内部模型Claude中的社会危害，Anthropic使用BBQ基准进行了评估。他们发现实施BBQ比预期困难得多，这需要：查找和执行可用实现定义、计算和解释微妙的bias分数投入大量时间和精力第三方评估框架第三方一直在积极开发评估套件，例如BIG-bench和HELM。虽然这些框架看起来很有希望，但它们也面临着新的挑战： BIG-bench BIG-bench是一个庞大的评估套件，包含204项评估。Anthropic在使用时遇到以下困难：安装繁琐：需要大量时间进行设置，不像MMLU那样即插即用。可扩展性限制：完成所有204项评估具有挑战性，需要大量的基础设施和重新编码。错误的评估：实施过程中发现错误的评估，阻碍了使用。 HELM HELM是一个全面的评估框架，专注于语言模型。Anthropic发现，HELM具有一些优势，例如：详细的文档：提供了清晰的说明和解释。可扩展性潜力：设计为可以扩展到新的评估和领域。 HELM仍在开发中，其长期有效性还有待观察。评估的复杂性评估AI系统不仅是比较模型的能力，还涉及复杂的概念，例如：真实性：评估模型输出的真实性和可靠性。公平性：测量模型对不同人群的偏见和歧视。危害：识别和减轻模型中可能对社会造成的潜在有害影响。这些概念难以定义和量化，需要考虑上下文和应用程序。结论评估AI系统是一项具有挑战性的任务，需要仔细考虑和思考。现有的评估套件虽然有用，但存在局限性和复杂性。在对AI系统进行评估时，研究人员和从业者必须意识到这些挑战，并采取适当的措施来解决它们。通过开发更稳健和可靠的评估，我们才能真正了解AI系统的能力和风险，并负责任地对其进行开发和部署。

超大规模集成电路的分类

集成电路按集成度高低的不同可分为小规模集成电路、中规模集成电路、大规模集成电路、超大规模集成电路、特大规模集成电路和巨大规模集成电路等。小规模集成电路于1960年出现，在一块硅片上包含10-100个元件或1-10个逻辑门。如逻辑门和触发器等。如果用小规模数字集成电路(SSI)进行设计组合逻辑电路时，是以门电路作为电路的基本单元，所以逻辑函数的化简应使使用的门电路的数目最少，而且门的输入端数目也最少。中规模集成电路（Medium Scale Integration：MSI）1966年出现，在一块硅片上包含100-1000个元件或10-100个逻辑门。如：集成计时器，寄存器，译码器等。如果选用中规模集成电路(MSI)设计组合逻辑电路时，则以所用集成电路个数最少，品种最少，同时集成电路间的连线也最少。这往往需将逻辑函数表达式变换成选用电路所要求的表达形式，有时可直接用标准范式。 MSI中规模组合逻辑器件功能虽然比小规模集成电路SSI强，但也不像大规模集成电路LSI那样功能专一化，这些器件产品的品种虽然不少，但也不可能完全符合使用者的要求，这就需要将多片级联以扩展其功能，而且还可以用一些标准的中规模继承组件来实现其它一些组合逻辑电路的设计。用中规模集成组件来进行组合逻辑电路设计时，其方法是选择合适的MSI后，将实际问题转化后的逻辑表达式变换为响应的MSI的表达形式。用MSI设计的组合逻辑电路与用门电路设计的组合逻辑电路相比，不仅体积小，重量较轻，而且提高了工作的可靠性。中规模数据选择起的级联可扩展其选择数据的路数，其功能扩展不仅可用于组合逻辑电路，而且还可用于时序逻辑电路。在组合逻辑电路中主要有以下应用：（1）级联扩展，以增加选择的路数、位数，可实现由多位到多位的数据传送；（2）作逻辑函数发生器，用以实现任意组合逻辑电路的设计。大规模集成电路(Large Scale Integrated circuits：LSI)1970年出现，在一块硅片上包含103-105个元件或100-个逻辑门。如：半导体存储器，某些计算机外设。，（128K）最大容量1G。超大规模集成电路(Very Large Scale Integrated circuits：VLSI)在一块芯片上集成的元件数超过10万个，或门电路数超过万门的集成电路，称为超大规模集成电路。超大规模集成电路是20世纪70年代后期研制成功的，主要用于制造存储器和微处理机。 64k位随机存取存储器是第一代超大规模集成电路，大约包含15万个元件，线宽为3微米。超大规模集成电路的集成度已达到600万个晶体管，线宽达到0.3微米。用超大规模集成电路制造的电子设备，体积小、重量轻、功耗低、可靠性高。利用超大规模集成电路技术可以将一个电子分系统乃至整个电子系统“集成”在一块芯片上，完成信息采集、处理、存储等多种功能。例如，可以将整个386微处理机电路集成在一块芯片上，集成度达250万个晶体管。超大规模集成电路研制成功，是微电子技术的一次飞跃，大大推动了电子技术的进步，从而带动了军事技术和民用技术的发展。超大规模集成电路已成为衡量一个国家科学技术和工业发展水平的重要标志，也是世界主要工业国家，特别是美国和日本竞争最激烈的一个领域。特大规模集成电路(Ultra Large-Scale Integration：ULSI)1993年随着集成了1000万个晶体管的16M FLASH和256M DRAM的研制成功，进入了特大规模集成电路ULSI (Ultra Large-Scale Integration)时代。特大规模集成电路的集成组件数在107～109个之间。 ULSI电路集成度的迅速增长主要取决于以下两个因素：一是完美晶体生长技术已达到极高的水平；二是制造设备不断完善，加工精度、自动化程度和可靠性的提高已使器件尺寸进入深亚微米级领域。硅单晶制备技术可使晶体径向参数均匀，体内微缺陷减少，0.1~0.3um大小的缺陷平均可以少于0.05个/平方厘米。对电路加工过程中诱生的缺陷理论模型也有了较为完整的认识，由此发展了一整套完美晶体的加工工艺。生产电路用的硅片直径的不断增大，导致生产效率大幅度提高，硅片的直径尺寸已达到12英寸。微缺陷的减少使芯片成品率增加，0.02个/平方厘米缺陷的硅片可使256MB DRAM的成品率达到80~90%。巨大规模集成电路（Giga Scale Integration：GSI）1994年由于集成1亿个元件的1G DRAM的研制成功，进入巨大规模集成电路GSI（Giga Scale Integration）时代。巨大规模集成电路的集成组件数在109以上。

职业测评就是目前最主流的工作，具体该如何进行？

我们都知道，世界范围内的教育评价存在着一种“范式转变”，即评价范式由“输入导向型”向“输出导向型”转变。以产出为导向的教育评价是按照既定的标准来判断教育的结果和影响，评价教育机构的组织、程序和制度运行质量，并在此基础上对整个教育过程进行优化和控制。

教育的“输出”是指学习的结果和成果，包括知识技能和基本工作能力。那么，如何全面衡量职业教育的产出呢?例如，高就业当然是一个重要的产出，但就业与地方经济发展有很大关系。顺德的就业率比较高，但在辽宁就很难说了，辽宁的因素比较复杂。职业教育的输出质量不能用一个简单的指标来表示。

在学习输出质量评价指标的选择上，我们发现内部教学评价中存在着一些问题。1学校无法满足大规模教育评价的信度和效度要求，无法用于校际和地区间的比较。例如，中国高校的毕业率几乎是100%，而美国的毕业率不到40%。

然而，这并不意味着中国的高等教育质量一定要高于美国。其次，我们希望在不花费太多金钱和时间的情况下，获得大量深入有效的数据。如果进行大规模的技能测试，无法解决评分员成本高、可靠性低的技术问题。例如，在奥运会等典型的技能测试中，即使是标准跳水的得分也有很大差异。

这意味着即使是对标准技能，也很难找到一种符合高可靠性要求的评价方法，而对于复杂的职业技能，则更难找到一种符合高可靠性要求的评价方法。基于考官观察的技能评估如果要足够科学的话，你就必须让大量考官同时坐在一起做重复的测试，这可能会昂贵得让人无法接受。要解决这一问题，职业能力评估是必然的选择。

专业能力的科学评价可以评价学生的专业能力和专业认同发展的诊断水平，以及不同地区之间，通过对不同院校的课堂教学质量进行比较，获得准确的人才培养质量信息和重要参数，为各级政府政策制定提供依据，为高职院校课程教学改革提供启示。

要对职业能力进行科学的评价，就必须建立科学的评价模型和评价模型，只有这样才能科学地解释评价结果与人才培养模式的关系。这里的评估严格来说是一个大规模的能力诊断。从技术上讲，我们无法准确衡量一个人的专业能力，因为能力是一种认知特征，有很多主观成分。大规模能力评估是一种诊断性的评估，评估一个群体的发展情况，包括班级的表现，学校的表现。

进行大规模能力评估的第二个重要原因是为政策制定者提供对不同趋势的预测。你知道经合组织的PISA。可以说，PISA是人类历史上规模最大、质量最高的教育研究项目。所有发达国家都派出了优秀的教育科学家参加这个项目。

能力评估从比萨的基本概念即“评价学生的现实生活和职业发展所需的知识和技能,而不是考虑他现在不是什么技能多少掌握了书本知识,而是调查学生可以在实际的生活和工作情况创造性地运用现有知识和技能来解决复杂的实际问题”。

职业教育能力评估比PISA难度更大，因为PISA中语文、数学、科学的内容在各国基本相同，而职业教育的地域差异巨大。例如，在顺德和四川，厨师的工作要求是非常不同的。此外，职业教育的许多技术更新都非常快，因此职业教育领域的能力测量比普通教育领域的能力测量要困难得多。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 大模型