当前位置:首页 > 数码 > 助力向量数据存储和管理革命-国内首个向量数据库标准发布 (向量工具)

助力向量数据存储和管理革命-国内首个向量数据库标准发布 (向量工具)

admin8个月前 (05-03)数码61

北京,11月15日——今天,中国信通院联合腾讯云计算(北京)有限责任公司、中移(苏州)软件技术有限公司等多家企业共同编制的、国内首个向量数据库标准正式发布,将为我国向量数据库研发、测试及选型提供重要参考,推动我国人工智能产业高质量发展。

向量数据:人工智能时代的基础数据形式

向量数据能够从多个维度记录事物特征,是人工智能时代的基础数据形式。人工智能系统正是通过海量向量数据所标记的事物特征,准确理解、认识事物。向量数据库则能够对海量向量数据进行有效储存、检索、管理。

向量数据库:高效管理向量数据的关键技术

传统关系型数据库主要基于表格形式,按照行和列来组织、储存数据,在进行检索时需要逐行、逐列进行搜索,不利于对向量数据进行快速检索和高效管理。而向量数据库借助向量索引等技术,在进行数据检索时,可以通过模糊匹配来进行近似查找,能够以最快速度找出符合需求的数据,显著提升人工智能系统的数据检索、处理效率。

向量数据库标准:推动技术产业发展和规模化应用

数据库

中国信通院云计算与大数据研究所大数据与区块链部主任姜春宇表示,今年以来,人工智能大模型的爆发式发展,进一步催生了行业对向量数据库的需求,向量数据库关注度持续上升。但长期以来,在向量数据库技术架构、查询语言、使用成本等方面,行业共识不足,有较多亟待解决的关键问题。

为进一步推动行业形成对向量数据库基础能力的基本共识,推动向量数据库技术产业发展和规模化应用,中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会,推动向量数据库领域标准化相关工作。

标准聚焦七大能力域,包含47个能力测试项

此次发布的向量数据库标准聚焦七大能力域,包含47个能力测试项,其中有27个必选项和20个可选项。目前,腾讯云向量数据库是首个完成标准评价的向量数据库,通过全部必选测试项。

标准的发布意义

  • 为向量数据库研发、测试及选型提供重要参考,促进技术规范化和产业健康发展。
  • 推动向量数据库技术产业发展和规模化应用,为人工智能产业高质量发展奠定坚实基础。
  • 促进国内向量数据库产业生态构建,提升我国向量数据库产业国际竞争力。

向量数据库标准的发布,标志着我国向量数据库产业发展迈上了新的台阶。未来,中国信通院将继续发挥行业引领作用,推动向量数据库技术创新和产业应用,为我国人工智能产业的高质量发展提供强有力的支撑。

相关链接:

  • 《向量数据库标准》发布推动人工智能产业高质量发展

有哪些顶级的向量数据库?

顶级的向量数据库有:

这些向量数据库分别来自不同的公司和技术团队,涵盖了多种数据类型和应用场景。

华为突破分布式数据库和存储技术,打通数字化转型“雄关漫道”

2019年,我们将进入数字化转型的攻关期。 所谓“攻关期”即数字化转型2.0阶段,需要攻坚企业关键业务上云和数字化转型改造的课题。 在一份市场调查公司IDC的报告中指出:IDC自2014年提出数字化转型以来,看到企业在数字化转型层面已经投入了大量人力物力,但是效果并不理想,有一些企业已经成功屹立在潮头,有一些企业在向上游进发,还有一些企业只能在浪潮的挟裹中被动前行。 对于企业来说,数字化转型是“雄关漫道”。 IDC认为,目前阶段来看,企业亟待解决的是数字化能力提升,包括:与业务的深入结合能力;数据处理和挖掘能力;以及IT技术运营和管理能力。 特别是数据处理和挖掘能力,因为数字化转型推进企业从以流程为核心向以数据为核心转型,对海量、异构、多类型的数据处理和挖掘能力是释放数据价值的前提,对数据全生命周期的管控治理是释放数据价值的保障。 而随着数字化转型引入大量新技术而导致IT复杂度变高,企业IT技术运营和管理能力是提升企业“IT生产力”的关键。 攻关数字化转型的“雄关漫道”,需要一个具备融合、智能、可传承三大特性的数字平台。 这是2019年3月华为与IDC联合推出的《拥抱变化,智胜未来—数字平台破局企业数字化转型》白皮书所提出的观点。 融合主要指把传统技术和创新技术相结合;智能主要指平台智能化和智能化能力输出;可传承主要指解耦、功能复用、可配置等理念打造的架构。 而承载这三大观点的,就是新一代分布式企业级技术。 2019年5月15日,华为发布了业界首款支持ARM架构的新一代智能分布式数据库GaussDB以及分布式存储FusionStorage 8.0,作为新一代数据基础设施,诠释了具备融合、智能、可传承三大特性的数字平台。 华为常务董事、ICT战略与Marketing总裁汪涛在发布会上表示,千行百业正在加速智能化进程,越来越多的企业已经意识到数据基础设施是智能化成功的关键。 华为围绕计算、存储和数据处理三个领域重定义数据基础设施,加速迈向智能时代。 今天所讨论云和工业互联网等概念的背后是一个新时代的到来,这就是体系架构大迁徙。 传统企业级技术是在单体应用和单机环境中,保证数据存储、调用等操作的高可靠、高可用、高稳定,特别是满足金融级事物处理的ACID(原子性、一致性、隔离性和耐久性)要求,为企业关键业务提供数据管理支撑。 随着企业技术向云架构迁移,数据库技术也面临转型。 2018年,基于云计算技术的分布式数据库成为了业界的热点。 简单理解,云计算技术就是把“单机”环境替换为由X86服务器机群所组成的分布式计算环境。 原先由几台小型机完成的计算任务,要分散到上百甚至上千台X86服务器上,而且还可能跨数据中心操作,挑战可想而之。 特别是在线支付等金融级业务,不能在断网或网络连接有问题时出错,也不能因响应速度慢而影响用户体验。 2018年8月,中国支付清算协会与中国信息通信研究院联合举办了“金融分布式事务数据库研讨会”,与业界厂商和用户共商核心数据库分布式转型之路,同时发布了《金融分布式事务数据库》白皮书。 金融分布式事务数据库的工作推进,为分布式数据库进入企业关键业务系统,提供了产业化支撑。 而华为作为企业ICT解决方案供应商,早在2012年就开始研发面向大数据分析的数据仓库,在基于传统关系型数据库SQL引擎和事务强一致性等基础上,进行了分布式、并行计算的改造,历时6年打造了面向PB级海量数据分析的分布式数据库。 在OLAP数据仓库之外,华为与行业用户合作了面向OLTP的分布式事务型数据库研发。 2017年,华为与招商银行合作成立了分布式数据库联合创新实验室,研发具有高性能企业级内核、完整支持分布式事物、满足金融行业对数据强一致要求、单机事物处理能力要达到每分钟百万级别等的OLTP分布式数据库。 本次发布的GaussDB数据库新品包括:联机事务处理OLTP数据库、联机分析处理OLAP数据库、事务和分析混合处理HTAP数据库。 而华为GaussDB数据库将AI技术融入数据库设计、开发、验证、调优、运维等环节,可实现基于AI的自调优、自诊断自愈、自运维,让数据库更高效、更智能,引领数据库架构的发展。 更进一步,本次发布的GaussDB系列数据库是业界首款支持ARM芯片的分布式数据库。 华为推动计算架构从以X86+GPU为主的单一计算架构到以X86+GPU+ARM64+NPU为主的异构计算架构快速发展。 基于X86架构,华为引入AI管理和智能加速能力,率先推出了智能服务器FusionServer Pro;基于ARM64打造了业界性能最强的TaiShan服务器;基于Ascend芯片的Atlas智能计算,实现了业界首个端边云协同的人工智能平台。 而GaussDB可充分利用并融合ARM、X86、GPU、NPU等多种异构算力组合,大幅提升数据库性能。 汪涛强调,作为全球首款AI-Native数据库,GaussDB有两大革命性突破:第一,首次将人工智能技术引入数据库的全生命周期流程,实现自运维、自管理、自调优和故障自诊断。 在交易、分析和混合负载场景下,基于最优化理论,首创深度强化学习自调优算法,把业界平均性能提升60%。 第二,支持异构计算,充分发挥X86/ARM/GPU/NPU多样性算力优势,最大化数据库性能,在权威标准测试集TPC-DS上,华为GaussDB排名第一。 GaussDB还支持本地部署、私有云、公有云等多种场景。 在以云计算为代表的分布式计算环境中,数据管理解决方案除了需要分布式数据库外,为了更好的扩缩容以及满足多样化数据存储需求,计算与存储分离已经成为分布式数据库设计的主要架构。 分布式云化架构,就是要支持计算、存储分离和多租户等架构设计要求。 GaussDB已经从数据库层面实现了高可用、高可靠、高稳定的分布式数据库,本次发布的FusionStorage 8.0则是分布式存储架构,创新地实现一套系统同时支持块、文件、对象、HDFS协议,1套存储支持4类存储能力,适用于全业务场景混合负载,最终让“一个数据中心一套存储”成为可能。 IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2018年第四季度》显示,2018年,软件定义存储市场达到了54.9%的同比增长。 软件定义存储在中国整体存储市场的占有率稳步上升,分别达到了22.1%的市场占有率。 华为凭借文件解决方案在政府、广电和电信等行业得到认可,在2018年中国软件定义存储市场排名第一。 FusionStorage 8.0采用华为ARM-based处理器鲲鹏920加速,使IOPS提升 20%,结合华为AI Fabric无损网络,时延进一步降低15%。 基于华为在计算、网络和存储领域多年的芯片和算法积累,FusionStorage 8.0在SPC-1的性能测试中,单节点性能达到了16.8万IOPS以及1ms以内时延,成为承载企业关键应用的新选择。 此外,通过华为云的云上训练及本地AI芯片,FusionStorage 8.0将智能管理贯穿业务使用的全生命周期,如业务上线前对存储资源的规划,使用过程中的风险预判及故障定位,大幅提升存储效率,帮助行业客户应对智能时代的数据新挑战。 汪涛在发布会上强调,新一代智能分布式存储FusionStorage 8.0通过重定义存储架构,从“Storage for AI”和“AI in Storage”两个维度实现效率大幅提升,引领存储智能化。 首先,“Storage for AI”通过融合共享,让AI分析更高效。 其次,“AI in Storage”率先将AI融入存储全生命周期管理,从资源规划、业务发放、系统调优、风险预测、故障定位等方面实现智能运维。 辽宁移动就采用了华为FusionStorage。 作为辽宁省内最大的移动通信运营商,辽宁移动一直在 探索 先进的存储方案在自身IT系统的应用。 由于5G的快速发展,辽宁移动关键数据库的应用也向云化方向发展,分布式存储也要满足其可靠性和高性能要求。 华为在深入分析辽宁移动需求后,首先在边缘开发测试业务小规模试点分布式存储,进行了大量的实验和测试后性能和可靠性都达到了预期,最终决定将全部业务迁移至FusionStorage。 该方案通过采用双活、可写快照、端到端DIF等特性,顺利完成Billing、经营分析、B2B等系统从老旧存储至FusionStorage的搬迁工作,助力辽宁移动的存储架构迈入新的 历史 阶段。 值得一提的是,华为分布式数据库与华为分布式存储深度结合,把数据库的操作下沉到存储节点,极大提升了分布式数据库的性能。 利用新的网络技术和人工智能技术,华为帮助用户提升数据中心的吞吐量,提升网络应用的可伸缩性,并且能自动调优。 除了推出新一代突破性的分布式数据库和存储技术外,华为也积极与客户、伙伴在数据库与存储领域,从行业应用、平台工具、标准组织和社区等多个层面共建开放、合作、共赢的产业生态。 在行业应用层面,华为与软通智慧、神州信息、东华软件、易华录、用友政务、亚信国际等独立软件开发商长期合作;在平台和工具层面,华为与Tableau、帆软、ARM、Veritas等合作伙伴联合创新;在标准组织和社区层面,华为深度参与OpenSDS、中国人工智能产业联盟、OCP、OpenStack、CNCF基金会等组织和社区的建设。 总结来说,华为全线分布式数据库和分布式存储产品的发布,是华为具备融合、智能、可传承三大特性数字平台的最新成果。 华为分布式数据库与分布式存储结合,能消除企业各业务系统数据孤岛,构建面向行业场景的数据建模、分析和价值挖掘能力,对多源异构的数据进行汇聚、整合和分析,形成统一的全量数据和数据底座,实现数据价值挖掘和共享。 而基于AI的智能化,可对基础设施进行高效的管理,为行业应用开发和迭代赋能,全面帮助企业突破关键应用上云的“雄关漫道”。 (文/宁川)

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: 数据库

“助力向量数据存储和管理革命-国内首个向量数据库标准发布 (向量工具)” 的相关文章

过去一年数据库领域的十大发展趋势 (往年数据)

过去一年数据库领域的十大发展趋势 (往年数据)

作者:朱洁 | 策划:李冬梅 前言 2023年对数据库行业来说是充满挑战的一年。行业信心跌至冰点,各行各业都在艰难恢复,裁员加剧,就业率创新低。但2023年也见证了数据库行业的一些重要...

连接表时出现重复数据的方法-INNER-JOIN-数据库中避免 (表连接类型)

连接表时出现重复数据的方法-INNER-JOIN-数据库中避免 (表连接类型)

在进行 SQL 查询时,我们经常需要联合多个表来获取更全面的数据。在使用 INNER JOIN 连接表时,有时会遇到重复数据的问题,这可能会导致查询结果不准确或者性能下降。 使用 DISTI...

深入了解其核心组件和工作原理-聊聊分布式数据库TDSQL的技术架构 (深入了解其核心经验)

深入了解其核心组件和工作原理-聊聊分布式数据库TDSQL的技术架构 (深入了解其核心经验)

近几年来,随着互联网和云计算的飞速发展,分布式关系型数据库逐渐成为企业核心业务系统的重要支撑。本文将以腾讯云 TDSQL 数据库技术架构为例,深入解析分布式关系型数据库的架构和实现原理,帮助读者深...

先操作数据库还是先操作缓存-并发环境下的数据操作顺序 (先操作数据库还是先删缓存)

先操作数据库还是先操作缓存-并发环境下的数据操作顺序 (先操作数据库还是先删缓存)

问题提出 在分布式系统中,缓存和数据库同时存在时,如果有写操作的时候,先操作数据库还是先操作缓存呢? 先思考一下,可能会存在哪些问题,再往下看。 缓存维护方案 方案一:先操...

年未来数据库-2024-值得关注的八个趋向 (未来数据库发展方向)

年未来数据库-2024-值得关注的八个趋向 (未来数据库发展方向)

相关型数据库治理系统在数据库技术畛域占据主导位置曾经多年了。当SQL在1970年代初次出现时,相关型数据库治理系统的经常使用和受欢迎水平迅速优化。很快,成为了大少数公司和团队首选的数据库。...

具有高吞吐量-基于Apache-Scylla-Cassandra的分布式NoSQL数据库-低延迟和可扩展性 (具有高吞吐量的企业)

具有高吞吐量-基于Apache-Scylla-Cassandra的分布式NoSQL数据库-低延迟和可扩展性 (具有高吞吐量的企业)

概述 Scylla 是一款高性能、可伸缩的分布式 NoSQL 数据库,基于 Cassandra 项目开发。它以出色的性能和可伸缩性著称,能够处理大规模的数据工作负载。 设计目标 Scyll...

DML-DCL和-TCL-的深化了解-全面把握数据库操作言语-DDL (大米冷冻储存好吗)

DML-DCL和-TCL-的深化了解-全面把握数据库操作言语-DDL (大米冷冻储存好吗)

本篇文章以详细的SQL语句解说了数据库SQL言语四大分类(数据定义言语DDL,数据操作言语DML,数据查问言语DQL,数据控制言语DCL),同时也引见了事务控制言语TCL。 最近与开发和运维讨论数...

三种方法-数据库和缓存数据一致性维护策略 (三种方法数据比较)

三种方法-数据库和缓存数据一致性维护策略 (三种方法数据比较)

在现代web开发中,缓存已经成为提高应用程序读性能的标准做法。通过引入缓存,我们可以暂时存储经常访问的数据,避免频繁查询数据库,从而显著减少应用程序的响应时间。 引入缓存也带来了一些挑战,其...