微软和斯坦福开发出开创性的新算法-消除了人工智能灭绝人类的风险 (斯坦福和北大)
微软和斯坦福大学的研究人员最近开发了一种新的系统,能够让模型不改变权重和框架,只针对目标任务进行自我迭代改进,也能自我改进输出质量。
递归自我进化 (RSI)
RSI 是人工智能领域中的一种古老想法,它设想模型无需修改自身权重或结构即可自我完善代码。
自我优化器 (STOP)
研究人员开发了一种称为 STOP(Self-Taught Optimizer)的新系统,它利用语言模型来递归地改进代码生成:
- 从一个简单的种子优化器程序开始,它使用语言模型改进代码。
- 将优化器传递给它本身,因为改进代码是一项任务。
- 不断重复此过程,直至达到所需改进水平。
GPT-4 模型能够生成多种创意的代码自我改进策略,包括遗传算法、模拟退火和多臂老虎机。
元效用目标
为了评估改进后的优化器,研究人员定义了一个元效用目标,该目标是优化器应用于随机下游程序和任务时的预期目标。
主要发现
- 自我改进的优化器的预期下游性能随着自我改进迭代次数而增加。
- 改进后的优化器可以改善训练期间未曾见过的任务的解决方案。
避免有害的 RSI
STOP 系统通过对目标任务进行自我优化,而不是针对模型本身,使其更容易解释和控制优化过程。
这可以作为检测和防止有害 RSI 策略的测试平台。
未来潜力
未来的 AGI 可能是由无数高效智能体组成的集群,它们可以共同工作以解决复杂的任务。
STOP 等方法可能会使专门优化的模型在限定的任务上取得远超自身原始性能的表现。
本文核心框架
研究人员提出的 STOP 方法包括以下步骤:
- 启动一个种子优化器程序。
- 使用语言模型改进优化器代码。
- 传递优化器本身,以便自我改进。
- 使用元效用目标评估改进。
- 重复此过程,直到达到所需的改进水平。
结论
微软和斯坦福的研究人员开发的 STOP 系统为解决递归自我进化的 AI 担忧提供了一种有前途的方法。
通过对目标任务进行自我优化,STOP 可以提高模型透明度、可解释性并防止不可控的 AI 行为。
未来,此类方法有可能为特定任务创造出高效的优化模型,并为 AGI 的发展铺平道路。
参考文献
- Self-Taught Optimizer: Recursive Self-Improvement of Code Generation
人工智能真的能统治人类吗
作者:刘明河
近期,警惕人工智能的文章和报道越来越多,甚至有人宣称“随着计算机运算能力增强,强人工智能将在我们的有生之年出现,给人类文明带来前所未有的冲击”,这些看似有理有据的观点深入人心,很多人甚至心生恐惧,担忧起了自己的未来。
人工智能真的会对人类产生如此大的威胁吗?
【困难重重】
对于人工智能这个过于庞大的概念,我们将它区分成弱人工智能(weak AI,或Narrow AI)和强人工智能(Strong AI或General AI)。
弱人工智能是处理特定问题的人工智能,AlphaGo就是一个专门下围棋的弱人工智能,iPhone里的Siri是一个专门语音识别的人工智能,Google的搜索框里也藏着一个专门提供搜索建议的人工智能——多亏了如今盛极一时的“人工神经网络”,我们已经愉快地发现,弱人工智能表现得非常出色,在某些时候真的比人类还要高效。
与之对应的,强人工智能模拟了完整的人类心智,我们通常会用能否通过“图灵测试”看作强人工智能的判断标准,但这样的人工智能直到今天仍未实现。另外,我们还进一步遐想了“超人工智能”这个概念,顾名思义,就是比人还睿智的人工智能,也就是科幻艺术和大众媒体中最担心的那种情形——但在人工智能的实践上,我们恐怕要说这更接近盲目乐观,追求的强人工智能的征途绝不像一些未来展望者那样,近在咫尺,迫在眉睫,数不清的艰难问题还等着我们攻克。
我们遭遇的第一个问题就是计算机的运算能力。
细胞虽小,却异常复杂,神经元尤其如此。在最微小的尺度上,一个神经元有成千上万个突触与其它细胞连接,释放或接受神经递质,识别数百种独立的活动,随后发出高速传导的神经兴奋,在整个大脑内激起复杂而不确定的反馈,有些突触还可以直接向脑脊液中释放递质和激素,在全身范围内引发更大尺度的反应——时至今日,人类发现细胞已近400年,即便动用最强大的超级计算机,也只是静态地构建出了一个突触的微观结构,真要模拟它完整的活动还无能为力——而人脑大约有860亿个神经元。
当然,神经科学与计算机科学的交叉处也的确有了些令人瞩目的成果,比如为人称道的,我们标记了隐杆秀丽线虫(Caenorhabditis elegans)302个神经元的连接方式,大约在2014构建了一个“开放蠕虫”的项目,试图用计算机模拟出一个等效于实体的虚拟线虫——但这个项目才刚刚起步,尚未收获成果,而且这个研究对象也是出奇的简单:它雌雄同体,全身固定有959个细胞,每个细胞的行为都专一且固定,神经活动非常单调,我们因此得以详细地观察它,用现在的手段模拟它们。
但是如果因为这一点星光就以为破晓来临,以为秀丽线虫的神经节与人类的大脑只是神经元的数目有所差异,只要计算速度够快就能实现质的飞跃——那就未免太天真了。
我们还会遇到动力学参数的壁垒。
如我们提醒过的,以现在的技术,我们还不能模拟神经元的完整活动,让它们在虚拟世界里自主地运动起来。只是在这个项目中,我们既然已经知道了线虫神经的连接方式,就能人为地给这些连接赋予动力学的参数,让这些虚拟神经元活动起来,逼真地模拟一条线虫。就像做题虽然不会,但是拿着答案倒推,也能猜个八九不离十——所以我们称这种做法是自底向上。
然而在目前阶段,不但我们还是个相当差的学生,离开了答案就寸步难行;而且我们遇到的问题也是空前的难题,根本没有现成的答案。
线虫的神经与人类的大脑,就像口中呼气和超级台风,它们之间绝不只是数量的差异。当基本单元通过种种联系形成复杂的系统,就会在更大的尺度上展现出新的结构。我们很早就对小尺度上的流体运动有了清晰的认识,但这并不代表我们可以从中推导出台风的运动规律。
首先的,线虫的个体差异极小,不同个体的细胞排列方式完全一样,所以作为一种全身透明的实验动物,我们很早就弄清楚了它们神经连接的方式。但人脑完全不是这样,我们拥有数量巨大的神经元,个体差异很大,而且可塑性极强,这令每个人大脑内的神经元连接方式都不一样——换句话说,一个具体的神经元怎样连接不重要,重要的是数量巨大的神经元如何组织成一个复杂的机体。
然而1个神经元、10个神经元、100个神经元、1000个神经元……每增加一个数量级,神经元的活动都会涌现出新的运动规律,从最小层面上神经元处理兴奋的方式,到不同递质的通路的组合方式,到处理不同信息的细胞构成功能模块,到大脑中不同功能区域的协作方式,都是我们必须面对的难题,虽然这些动力学的研究也正在热火朝天的研究中,但这样的研究不可能达到“指数上升”的速度,我们重建人脑的进程也就不能达到指数上升的速度。
所以先不论计算机科学能否一马平川地进步下去,即便计算机运算速度真的能指数上升,也无法在可以预见迅速地模拟出一个人脑:在神经科学和脑科学臻于高度成熟之前,大脑永远是一个黑盒子,我们要想知道大脑在具体的智力活动中在不同层面各自发生了怎样的事情,还困难重重。而且更加现实的情况是,随着我们对人脑的认识逐渐扩大,我们会发现越来越多的新问题。
我们知道的越多,就越发现自己无知,然而糟糕的是,真正的难题还在前方虎视眈眈——我们需要新的计算机原理。
必须意识到,在能否实现“智力”这个巨大的问题上,计算机的运算速度并不是决定性的。以当今的动物界而论,非洲象、长肢领航鲸,它们的大脑都比人的更重,神经元的数量也更多,为何偏偏缺乏智力?在相同的解剖基础上尚且如此,原理完全不同的电路元件,又该如何?
电路元件以金属和半导体为元件,获得了接近光速的信号传递速度,这比起神经元的冲动的确快多了,但也单调多了。电路元件的任何一次反应都只能得到固定的结果,只能在和、或、且的基础上展开一阶逻辑演算,今天,以及未来可以预见的一切计算机程序,都是不同复杂程度的一阶逻辑演算。
“一阶逻辑”已经非常强大,给今天的人类带来了整个21世纪的信息时代,但它只能从几个初始数据开始,根据预存的指令步步推导,绝不越雷池一步。这给计算机带来了那种可贵的可靠性,但也令它失去了更可贵的抽象、推理、创造——我们必须能够定义谓词的二阶和高阶逻辑。
举个例子,面对“a+b”这样的命令,计算机只会按照加法的规则,把a和b加起来,但是对于具有二阶逻辑的人,我们还会思考加法的意义,询问“加法是怎样一种运算?”,接着,我们还会能在三阶逻辑中思考“运算”的意义,询问“怎样规定一类运算?”,进一步的,我们又会在四阶逻辑中思考“规定”的意义,询问“数学上什么样的行为称得上规定?”。
这样的追问可以无穷地回溯下去,理论上,人类的思维可以实现“无穷高阶逻辑”,我们已经在整个哲学史上持续不断地展现了这种能力。对于普通人,我们也可以尝试一个计算机无论如何做不到的思维游戏:随便思考一件事,然后思考“我正在思考这件事”,然后思考“我正在思考‘我正在思考这件事’”,然后思考‘我正在思考“我正在思考‘我正在思考这件事’”’……虽然很费脑子,但我们在理论上也可以无穷地递归下去。
是的,如今所有的计算机都是一阶逻辑,或许在某些实验室里还有二阶逻辑的尝试,但无论怎样,高阶逻辑问题不能规约成低阶逻辑——我们绝不能用加法本身说明什么是加法,这就好像在电视机上做电视机的广告。
也就是说,我们即便动用了空前的计算能力,以不可思议的工作量找到了大脑中的每一个参数,但只要计算机原理不变,就是在用低阶逻辑模拟高阶逻辑——这在数学上不可能,程序员们会发现某些关键的参数无法定义,那个辛苦模拟出来的大脑仍然是个弱人工智能。
这是一个尖锐的问题,即便在另外一些规划中的道路上,用进化算法也好,用其它方式建模也好,它都会横亘在我们的前途中。我们需要一种革命性的计算机,能够实现高阶逻辑的演算,但是在所有已知的事物中,就只有大脑能做到这件事,这就带来一种新的困境:要模拟大脑需要新的计算机,要研究新的计算机就要深入了解大脑。这当然不是无法解决的问题,就好像制造新的机器需要新的材料,合成新的材料需要新的机器,我们在科技进步史上已经邂逅了无数次,没有理由认为我们会败给这一次,但也要做好思想准备,因为这将是一条漫长的路。
这样或者那样的问题会接踵而至,人工智能作为这时代最复杂的应用科学,没有理由认为我们能以逸待劳地只凭计算机科学的进步就让一切问题迎刃而解,更何况退一万步,我们还有一个更加现实的问题要面对。
【伦理障碍】
对与任何革命性的新技术,伦理都是最现实的问题,我们此前目睹了避孕措施对伦理的冲击,就以为伦理在技术面前不堪一击,这就未免太低估了伦理的力量,像“知情权”这样毫无意义的概念被煽动家利用起来蛊惑人心,都可以在食品安全领域掀起巨大的波澜,那么从今天开始数十年乃至上百年对人工智能的担忧积累起来,无论合理还是不合理,都会形成强大的伦理氛围,阻遏强人工智能的研究。
先不论“人工智能灭绝人类”这样惊悚的事情,就以最现实的问题来说,公众一定会关心强人工智能是否具有情感,是不是有了心脏的铁皮人,然而这却是强人工智能的定义中不曾提及的问题。
与其它意识活动不同,人类丰富而细腻的感情是人类作为一种社会动物,协调群体关系时的进化产物,并非智力的必需品。一个强人工智能未必真的具备这些特质,但他一定可以理解这种行为:想象成一个人先天性地没有任何感情,但以细致的观察和精湛的模仿成为了一个无可挑剔的表演家,在舞台上无论是哭是笑,心中都绝无一丝涟漪,犹如用肢体和表情肌完成了最复杂的体操——这大约就是电影《机械姬》中的情形。
长期以来,感情被认为是自由意志最关键的特质,所以我们不得不想象在那样的未来,分辨强人工智能是真的拥有感情还是在逢场作戏,抑或这两种情况并没有区别,都将会成为人工智能领域最重大的课题,也是人类面对自己时最深刻的拷问——无论哪一种结局成真,都意味着一个旧伦理的世界不复存在:我们要不要承认它是一个人?进一步的,“他”是否适用实体法,可以拥有最基本的人权?我们还能不能把“他”囚禁在实验室里?
我们接着就会设想,强人工智能如何利用自己的感情获取人类的信任,争取平等的对待,争取公民权的运动。强人工智能的感情或许只是一层伪装,但人类心底那种与生俱来的同情和善良却是毫无争议的事实,在这样的未来图景之下,强人工智能的研究几乎必然招致严格的限制,就像我们如今对待克隆技术时的做法:我们在上个世纪就掌握了克隆哺乳动物的技巧,但是在可以预见的未来里,这个世界上都不会有克隆人降世。
或者更武断地说,无论技术是否成熟,我们都不会允许一个拥有完全心智的强人工智能轻易问世,我们可能会在全球最重要的实验室里有限额地研发几个被严重削弱的强人工智能,成为认知科学和计算机科学的珍惜样本,如果要想象强人工智能诞生在民用领域,就像《机械公敌》或者《西部世界》那样,就未免不切实际了。
最后,我们要再次反省一下预测未来这件事:一个平静的社会大概激不起人们什么兴趣,所以我们总是在变革的浪潮中“高瞻远瞩”,但是我们忘了,科学革命或许加快了人类探索和改变世界的速度,但人类的认知过程从来都不是一帆风顺。旁观者赞美收获时的成就,却很少理会耕耘时的艰辛,盲目乐观是他们永远无法摆脱的缺陷。
2021那些事儿|细数信息技术4大领域
2021年,信息技术发展突飞猛进。 人工智能、大数据、开源、虚拟现实(VR)、增强现实(AR)……每个领域的发展几乎都可圈可点。 在人工智能领域,人工智能的语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现。 例如,阿里巴巴达摩院公布多模态大模型M6最新进展,参数从万亿跃迁至10万亿;鹏城实验室与网络联合发布全球首个知识增强千亿大模型——鹏城—网络·文心,参数规模达到2600亿。 不仅如此,人工智能与其他科学领域的交叉融合也擦出火花。 在《科学》近日公布的2021年度科学突破榜单上,AlphaFold和RoseTTA-fold两种基于人工智能预测蛋白质结构的技术位列榜首。 在人机交互领域,扎克伯格将Facebook公司更名为“Meta”时,特斯拉和SpaceX首席执行官埃隆·马斯克则将注意力放在脑机接口上。 马斯克认为脑机接口装置将更有可能改变世界,帮助四肢瘫痪或有身体缺陷的人更好地生活和工作,“复杂的脑机接口装置可以让你完全沉浸在虚拟现实中”。 此外,今年5月,斯坦福大学开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。 在超算领域,最值得一提的是,今年11月,我国超算应用团队凭借“超大规模量子随机电路实时模拟”成果斩获国际高性能计算应用领域的最高奖项“戈登贝尔奖”。 在开源方面,RISC-V开源指令集及其生态快速崛起;由华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区业已汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版……回望2021年,信息技术版邀请业内专家梳理上述四个领域的发展脉络,展望未来发展趋势。 作者 张双虎AlphaFold或是2021年人工智能(AI)领域的“一哥”。 近日,《科学》杂志公布了 2021 年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。 此前几天,由中国工程院院刊评选的“2021全球十大工程成就(近5年全球实践验证有效、有全球影响力的工程科学和技术重大成果)”中,AlphaGo和AlphaFold亦榜上有名。 在接受《中国科学报》采访时,数位专家回望今年人工智能领域取得的成就时,均谈到了AlphaFold。 “面向科学发现的AlphaFold和中国正在构建的人工智能发展生态不能不说。 ” 浙江大学人工智能研究所所长吴飞对《中国科学报》说。 中科院自动化研究所模式识别国家重点实验室研究员王金桥则提名“用AI进行新冠诊断”“人工智能与生物、制药、材料等科学融合(AI for Science)”和“三模态大模型紫东太初”。 在医学领域,AI识别咳嗽声早已用于肺炎、哮喘、阿尔茨海默氏症等疾病检测。 美国麻省理工学院研究人员研发出可以通过分析咳嗽录音识别新冠患者的AI模型,识别出新冠患者咳嗽的准确率为98.5%,其中识别无症状感染者的准确度高达100%。 日前,有报道称该模型已用于识别奥密克戎病毒。 “紫东太初首次实现了图—文—音语义统一表达,兼具跨模态理解和生成能力。 ” 王金桥说,“目前与新华社共同发布的‘全媒体多模态大模型研发计划’,实现对全媒体数据理解与生成的统一建模,打造全栈国产化媒体人工智能平台,已 探索 性地应用于纺织业和 汽车 行业质检等场景。 ”12月7日, 科技 部官网公布3份函件,支持哈尔滨、沈阳、郑州3地建设国家新一代人工智能创新发展试验区。 至此,我国已经有18个国家新一代人工智能创新发展试验区,这将引领带动中国人工智能创新发展。 “我国正在推动人工智能生态发展,构建良好生态。 ”吴飞说,“目前已有15个国家新一代人工智能开发创新平台、18个国家新一代人工智能创新发展试验区、8个人工智能创新应用先导区和高等学校设置的人工智能本科专业和交叉学科等人才培养载体。 ”“一是大模型,二是人工智能和基础学科的结合。 ”孙茂松对《中国科学报》说,“语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现,确定了它作为智能信息处理基础软设施的地位。 同时,它并非简单地扩大规模,而是对数字资源整合能力和计算能力都提出了挑战。 虽然它的局限性也很明显,但它所表现出的某些‘奇特’性质(如少样本学习、深度双下降、基于提示的任务调整等),使学者产生了超大参数规模或会引发质变的期待,从而为新的突破埋下了伏笔。 ”今年,人工智能领域从“大炼模型”走向“炼大模型”阶段,从千亿量级到万亿量级,在大模型领域,似乎没有最大,只有更大。 3月,北京智源人工智能研究院发布我国首个超大规模人工智能模型“悟道1.0”。 6月,智源就改写了自己的纪录,发布悟道2.0,参数规模达到1.75万亿;9月,浪潮人工智能研究院推出了中文巨量语言模型——源 1.0,参数量达2457亿;11 月,阿里巴巴达摩院公布多模态大模型 M6 最新进展,参数从万亿跃迁至 10 万亿;12月,鹏城实验室与网络联合发布全球首个知识增强千亿大模型——鹏城—网络·文心,参数规模达到2600亿。 与此相应,最近快手和苏黎世联邦理工学院提出了一个新的推荐系统Persia,最高支持100万亿级参数的模型训练。 另一方面,人工智能在基础学科领域不断攻城略地。 7月,DeepMind公司人工智能程序Alphafold2研究成果又登顶《自然》,在结构生物学研究领域,人工智能或带领生物学、医学和药学挺进新天地;11月,美国南加利福尼亚大学研究人员通过脑机连接设备,让猴子玩 游戏 和跑步机,从而进行神经活动数据研究;12月,DeepMind开发的机器学习框架,已帮助人们发现了纯数学领域的两个新猜想,展示了机器学习支持数学研究的潜力。 “今年人工智能在各行业应用方面也取得不小的成绩。 ”孙茂松说,“人工智能与基础学科结合已显示出巨大潜力,发表了多篇顶级论文,已展露出某种较强的趋势性,即‘人工智能+基础科学’大有可为。 ”作者 张双虎脑机接口、AR眼镜、智能语音、肌电手环、隔空手势识别……2021年,从基础研究到应用落地,人机交互领域风起云涌。 不管是智能 健康 、元宇宙,还是自动驾驶领域的蓬勃发展,似乎都表明,人机交互正站在产业化落地的门口。 “我们研发的高通量超柔性神经电极已通过科研临床伦理审批,即将开展脑机接口人体临床试验。 ”中科院上海微系统所副所长、传感技术联合国家重点实验室副主任陶虎对《中国科学报》说,“安全稳定地大规模采集人体大脑的神经元信号并进行闭环调控,将实现病人感知和运动功能的修复。 ”脑机接口技术给患者带来越来越多的便利。 今年5月,斯坦福大学研究人员在《自然》发表封面论文,开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。 借助该系统,受试者(因脊髓损失瘫痪)每分钟可以打出近百个字符,且自动更正后的离线准确率超过了 99%。 不久前,马斯克表示,希望明年能在人类身上使用Neuralink 的微芯片装置。 该芯片将用于治疗脊髓损伤、帕金森氏症等脑部疾病和神经系统疾病。 目前,相关技术正在等待美国食品药品监督管理局的批准。 “脑机接口领域已经蓄积了相当的技术,有望成为解决大脑疾病的利器。 ”陶虎说,“大家都在抢占临床应用的先机,明年可能会实现技术落地应用。 预计两三年内,国内会出现可媲美马斯克Neuralink的独角兽企业。 ”“人机交互将引申出新的万亿级市场。 ”福州大学特聘教授严群这句判断,也囊括了元宇宙这个巨大的市场。 有人称2021年是“元宇宙元年”,也有人认为这不过是“旧瓶装新酒”。 但无论如何,元宇宙已是今年人机交互领域绕不开的话题。 “元宇宙是虚拟现实、增强现实和混合现实的综合,它实际上并非新的东西。 ”北京邮电大学人机交互与认知工程实验室主任刘伟告诉《中国科学报》,“元宇宙是现实世界和虚拟世界跨越未来的发展方向,但还有些技术问题未能很好地解决。 ”在真实世界里,人机交互问题和人机环境系统的混合问题未能很好地解决。 真实世界的人机交互中,不管是输入、处理还是输出过程中,客观数据、主观信息和知识依然不能完美融合。 刘伟认为,无论真实世界还是虚拟世界,人类和机器决策都有“快决策”和“慢决策”过程。 人类决策有时依靠逻辑决策多些,有时直觉决策多些,这种“混合决策”不断变换,而且很难找到变化规律。 这方面的问题机器决策目前还未能解决。 “元宇宙还处在画饼的前期阶段。 ”刘伟说,“因为它的底层机理没有解决——人在真实世界里未能完美解决人机交互的问题,带到元宇宙里同样不能解决。 ”谈到人机交互,刘伟认为第二个不能不说的问题是“复杂领域”。 “今年的诺贝尔物理学奖,也给了复杂系统预测气候变化模型的提出者。 ”刘伟说,“人机交互也是一个复杂系统,它既包括重复的问题,还包括杂乱的、跨域协同的问题。 ”刘伟认为,从智能的角度说,复杂系统包括三个重要组成部分,一是人,二是装备(人造物),三是环境。 这其实是多个事物之间相互作用,交织在一起、既纠缠又重叠的“人机环系统”问题。 “在人机交互中,机器强在处理‘复’的问题,人擅长管‘杂’的事——跨域协同、事物间平衡等。 因为人们还没找到复杂事物的简单运行规律,所以解决所有智能产品、智能系统问题,要从人、机、环这个系统里找它们的结合、融合和交互点。 而且,人要在这个系统中处于主导地位。 ”人机交互领域引起刘伟重视的第三个现象,是“人工智能帮数学家发现了一些定律”。 “最近,DeepMind研发了一个机器学习框架,能帮助数学家发现新的猜想和定理。 ”刘伟说,“人工智能是一个基本的数学工具,同时,数学又反映了一些基本规律。 如果人工智能可以帮助数学家处理一些数学问题,那么,人们将更好地认识复杂系统的简单规律,人机交互方面就可能会取得新突破。 ”作者 张云泉(中国科学院计算技术研究所研究员) 今年是我国超算应用实现丰收的一年。 11月中旬在美国举行的全球超算大会(SC21)上,中国超算应用团队凭借基于一台神威新系统对量子电路开创性的模拟(“超大规模量子随机电路实时模拟”),一举摘得国际上高性能计算应用领域的最高学术奖——“戈登贝尔奖”。 同时,在SC 21大学生超算竞赛总决赛上,清华大学超算团队再次夺得总冠军,实现SC竞赛四连冠。 这些大规模应用软件可扩展性和性能调优方面的成绩表明,我国在并行软件方面的发展方兴未艾。 回到超算对产业的驱动来看,我们要重提“算力经济”一词。 早在2018年,我们提出“算力经济”概念,认为以超级计算为核心的算力经济将成为衡量一个地方数字经济发展程度的代表性指标和新旧动能转换的主要手段。 综合近几年的发展趋势,我们认为高性能计算当前发展趋势已充分表明,随着超算与云计算、大数据、AI的融合创新,算力已成为当前整个数字信息 社会 发展的关键,算力经济已经登上 历史 舞台。 通过对2021年中国高性能计算机发展现状综合分析,可以总结出当前高性能计算正呈现出以下几个特点。 首先,高性能计算与云计算已经深度结合。 高性能计算通常是以MPI、高效通信、异构计算等技术为主,偏向独占式运行,而云计算有弹性部署能力与容错能力,支持虚拟化、资源统一调度和弹性系统配置。 随着技术发展,超级计算与容器云正融合创新,高性能云成为新的产品服务,AWS、阿里云、腾讯、网络以及商业化超算的代表“北龙超云”,都已基于超级计算与云计算技术推出了高性能云服务和产品。 其次,超算应用从过去的高精尖向更广、更宽的方向发展。 随着超级计算机的发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的精密研制、信息安全、石油勘探、航空航天和“高冷”的科学计算领域向更广泛的国民经济主战场快速扩张,比如制药、基因测序、动漫渲染、数字电影、数据挖掘、金融分析及互联网服务等,可以说已经深入到国民经济的各行各业。 从近年中国高性能计算百强排行榜(HPC TOP100)来看,超算系统过去主要集中于科学计算、政府、能源、电力、气象等领域,而近5年互联网公司部署的超算系统占据了相当大比例,主要应用为云计算、机器学习、人工智能、大数据分析以及短视频等。 这些领域对于计算需求的急剧上升表明,超算正与互联网技术进行融合。 从HPC TOP100榜单的Linpack性能份额看,算力服务以46%的比例占据第一;超算中心占24%,排名第二;人工智能、云计算和短视频分别以9%、5%和4%紧随其后。 可以看出,人工智能占比的持续增加与机器学习等算法和应用的快速崛起,以及大数据中的深度学习算法的广泛应用有很大关系。 互联网公司通过深度学习算法重新发现了超级计算机,特别是GPU加速的异构超级计算机的价值,纷纷投入巨资建设新系统。 综合来看,目前的算力服务、超算中心、人工智能、科学计算等领域是高性能计算的主要用户,互联网、大数据,特别是AI领域增长强劲。 再次,国家层面已经制订了战略性的算力布局计划。 今年5月,国家发展改革委等四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏建设全国算力网络国家枢纽节点,启动实施“东数西算”工程,力促把东部的数据送到西部进行存储和计算,同时在西部建立算力节点,改善数字基础设施不平衡的布局,有效优化数据中心的布局结构,实现算力升级,构建国家算力网络体系。 最后,人工智能的算力需求已成为算力发展主要动力。 机器学习、深度学习等算法革新和通过物联网、传感器、智能手机、智能设备、互联网技术搜集的大数据,以及由超级计算机、云计算等组成的超级算力,被公认为是人工智能时代的“三驾马车”,共同掀起最新一轮的人工智能革命。 在人工智能蓬勃发展这一背景下,虚拟化云计算向高性能容器云计算演进,大数据与并行计算、机器学习融合创新就成为了产业发展的最新方向。 此外,在智能计算评测方面,我国已经提出了包括AIPerf 500在内的众多基准测试程序,这是对传统Linpack测试标准的有力补充。 这些发展表明超算技术向产业渗透的速度加快,我们已经进入一个依靠算力的人工智能时代,这也是未来发展的必然趋势之一。 随着用户对算力需求的不断增长,算力经济必将在未来 社会 发展中占据重要地位。 作者 武延军(中国科学院软件研究所研究员)开源发展可圈可点并非只是今年的事。 最近几年,开源领域发生了很多重要的事情。 例如,RISC-V开源指令集及其生态的快速崛起。 这与上世纪90年代初Linux诞生一样。 当时,UNIX和Windows是主流,很少有人能够预料到今天以Linux为内核的操作系统已经遍及人们生活的方方面面。 如今,人们每天使用的App,超过80% 概率是运行在以Linux为内核的安卓操作系统上,而且,支撑其业务的后端服务器上运行的操作系统很大概率也是Linux发行版。 所以,今天的RISC-V也同样可能被低估,认为其不成熟,很难与ARM和X86抗衡。 但也许未来RISC-V就像Linux一样,最终成为全球范围内的主流指令集生态,产品遍及方方面面。 仅2020年,RISC-V International(RVI,RISC-V基金会迁入瑞士之后的新名称)的会员数增长了133%。 其实RVI迁入瑞士这件事情本身也意义重大,是一次开源领域面对大国竞争保持初心不“选边站”的经典案例,值得全球其他开源基金会参考。 在国内,2019年底,华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区正式成立。 在短短的两年内,社区已经汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版。 这是中国基础软件领域第一个真正意义上的“根社区”,虽然与20多年 历史 的Debian、Fedora还有差距,但迈出了重要一步,对学术研究、技术研发、产业创新来说,终于有了国内主导的、可以长期积淀的新平台。 同时,华为在遭遇安卓操作系统GMS(谷歌移动服务)海外断供之后,推出了鸿蒙操作系统HarmonyOS,并在开放原子开源基金会下启动开源项目OpenHarmony。 目前OpenHarmony短时间内已经吸引了国内众多厂商参与,也侧面反映了国内产业界对新一代万物互联操作系统的旺盛需求。 尽管其在生态规模和技术完整程度方面与安卓仍有差距,但毕竟迈出了打造自主生态的第一步。 这相当于为源代码合理使用划定了一个边界,即合理使用仅限于接口,一旦深入到接口的实现代码,则需要遵守相关许可。 这对开源知识产权的法律界定具有重要参考意义。 今年5月,《2021中国开源发展蓝皮书》重磅发布。 它不仅系统梳理了我国开源人才、项目、社区、组织、教育、商业的现状,并给出发展建议,而且为国家政府相关管理部门制定开源政策、布局开源战略提供参考,为科研院所、 科技 企业以及开源从业者提供更多的案例参考和数据支撑。 而不论是开源软件向围绕开放指令集的开源软硬件生态发展,还是开源有严格的法律边界约束,抑或是国内龙头企业正尝试通过开源 探索 解决“卡脖子”问题,且已经取得了一定的效果……众多案例都指向一个方向——开源趋势不可阻挡。 因为它源自人类分享知识、协同创造的天性,也是人类文明在数字时代薪火相传的重要模式。 当然,不可否认的是,开源还存在很多问题,例如,开源软件供应链安全的问题。 这里的安全既有传统意义上软件质量、安全漏洞的问题,也有开源软件无法得到持续有效维护的问题(如OpenSSL在出现HeartBleed问题时只有两位兼职维护者,log4j出现问题时只有三位兼职维护者),更有大国竞争导致的“断供”问题(如GitHub曾限制伊朗开发者访问)。 随着开源软件向GitHub这类商业平台的集中,这一问题会更加突出,甚至演变为重大风险。 开源软件这一本应属于全人类的智慧资产,可能变为实施“长臂管辖”的武器。 为了避免这一问题,开源代码托管平台、开源软件构建发布平台等公共基础设施需要“去中心化”。 世界需要多个开源软件基础设施,以最大程度消除政治力量对开源社区的威胁。 对于中国来说,随着开源软件成为众多科研、工业等重大基础设施的重要支撑部分,开源软件本身也要有一个基础设施,具备代码托管、编译、构建、测试、发布、运维等功能,保证开源软件供应的安全性和连续性,进而增强各行各业使用开源软件的信心。 未来,核心技术创新与开源贡献引领将成为国内企业发展的新动力,或将我国开源事业推向另一个高潮。
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。