迎接数据价值释放的黄金时代-通用数据湖仓一体架构 (发挥数据价值)
引言
组织的云数据之旅通常遵循一种熟悉的情节,奖章架构提供了一种概念化该过程的方法。现代数据栈通常通过将操作数据复制到云数据仓库中的青铜层来创建,然后对这些数据进行清理、质量审核和准备,形成银层。
随着组织探索机器学习、数据科学和 LLM 应用程序等新用例,需要大量数据,导致添加新的数据源,例如事件流。这带来了廉价云存储和大规模水平计算可扩展性的需求。
目前的架构系统不足以支持高吞吐量的可变数据流。因此,组织最终同时维护数据仓库和数据湖,并在它们之间复制数据以整合数据源。
数据仓库与数据湖的困境
维护数据仓库和数据湖的并置架构具有挑战性、成本高昂且容易出错。在湖和仓库之间定期复制数据会导致数据过时和不一致。
治理也成为一个问题,因为访问控制在系统之间是分散的,并且必须在数据的多个副本上管理数据删除。团队对管道负责,所有权很快变得模糊不清,给组织带来以下挑战:
- 昂贵的引入和数据准备
- 浪费的数据复制
- 缓慢、昂贵的查询
- 复杂、易出错的 ETL
- 分散的治理和访问控制
统一数据湖仓
解决这些挑战的解决方案是采用统一数据湖仓架构,将数据仓库和数据湖的优点结合起来。数据湖仓提供以下优点:
- 一个统一的数据存储,用于所有类型的用例
- 快速、可扩展的查询性能
- 简化的 ETL 和数据准备
- 集中化的治理和访问控制
实施统一数据湖仓
实施统一数据湖仓涉及以下步骤:
- 选择一个适合组织需求的数据湖仓平台
- 将现有数据源迁移到数据湖仓
- 创建用于不同用例的数据模型
- 实现数据治理和访问控制策略
结论
统一数据湖仓架构是组织解决云数据挑战的变革性方法。通过将数据仓库和数据湖的优点结合起来,数据湖仓提供了一个统一的数据存储,用于所有类型的用例,同时提供快速、可扩展的查询性能、简化的 ETL 和数据准备以及集中化的治理和访问控制。
通过实施统一数据湖仓,组织可以克服传统架构的限制,并释放数据的力量以获得竞争优势。
超级自动化……2022年:这些技术发展趋势不容忽视
新冠疫情催生了数字孪生、元宇宙、万能宇宙、增强现实、虚拟现实和混合现实的广泛使用。随着人们需求的不断增多以及技术的不断进步,还会有更多新技术涌现。美国《福布斯》杂志网站在近日的报道中,展现了2022年的技术发展趋势。
数据经济
世界已经进入数据经济时代。数据为人工智能提供了基础“养分”,而人工智能则帮助人们从数据中获得有意义的信息,为自己的行为和决策提供参考。这一点在2021年亚马逊云 科技 大会上表现得非常明显。在这场技术盛会上,与会人士讨论的全都围绕数据能够提供什么价值、服务,各式各样的企业也都在想方设法以最大程度地利用好自己的数据。
首席数据官和首席分析官在企业地位与日俱增也证明了这一点。首席数据官负责监督一系列与数据有关的功能,以确保组织得到最有价值的资产,其职责包括提升数据质量、数据治理和主数据管理等项目,还包括制订信息战略、数据科学和业务分析。
无代码/低代码平台
大多数企业意识到数据和人工智能的重要性,然而,要想“变身”为数据驱动型企业可能面临很多问题,比如,将人工智能模型整合到商业应用程序中就需要将近8个月的时间。无代码/低代码平台由此应运而生,帮助包括“平民开发者”等非专业人士在内的更多人迎接数据和人工智能带来的挑战。
平民开发者并非专业程序员,是公司的员工,他们可以在公司内部开发新的业务应用程序,以供其他员工使用。未来,几乎只有一点技术知识的任何人都可以进行软件开发,无代码/低代码工具可以将普通的业务用户积极地转变为平台开发者。
边缘人工智能
5G、人工智能和网络安全需要相互配合才能实现更广泛的渗透。来自工厂和自动驾驶车辆的物联网端点的数据将引发一场数据海啸。
边缘人工智能和联合学习正在奋力迎接这些挑战,在不共享数据集和侵犯隐私的情况下,在本地和集中数据集上训练模型。随着扩展检测和响应、安全信息和事件管理以及安全协调、自动化和响应的兴起,再加上智能运维管理平台,安全将在处理应用程序和数据分布方面发挥至关重要的作用。
超级自动化
超级自动化既是一种思维方式也是一种技术合集:即组织中任何可以自动化的业务都应该自动化;超级自动化是一种创新技术合集,包括机器人流程自动化、人工智能、机器学习等技术,以帮助组织提升运营效率和节省时间。
超级自动化通过快速识别、审核和自动执行尽可能多的流程来实现加速增长和业务韧性。加特纳公司的研究表明,表现最好的超自动化团队专注于三个关键优先事项:提高工作质量、加快业务流程和增强决策敏捷性。
数据编织
数据编织是下一代数据管理,它集成了数据仓库、数据湖、湖仓一体、数据集市等多个数据源的数据。数据湖指各种格式原始数据的存储库。湖仓一体是数据管理领域中的一种新架构范例,结合了数据仓库和数据湖的最佳特性。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。而数据集市指满足特定部门或者用户的需求,按照多维方式进行存储,生成面向决策分析需求的数据立方体。
数据编织不仅能更持久地保存数据,还能利用人工智能实现数据的就地、自助分析、分类和治理。作为一种跨平台和业务用户的灵活、弹性数据整合方式,数据编织能够简化企业机构的数据整合基础设施,并创建一个可扩展架构,以此来减少大多数数据和分析团队因整合难度上升而出现的问题。
可解释人工智能
“深度思维”公司最近发布了名为“地鼠”的新的超大型语言模型。“地鼠”可运行2800亿个参数,超越了OpenAI公司此前发布的能运行1750亿个参数的GPT-3,但逊于英伟达-微软公司发布的能运行5300亿参数的“威震天-图灵”。研究结果证实,“威震天-图灵”在一系列自然语言任务,包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧中都获得了前所未有的准确率。
然而,人工智能在克服偏见、保护隐私和获取信任方面存在挑战,这导致了可解释人工智能(XAI)的兴起。XAI是人工智能的一个新兴分支,用于解释人工智能所做出的每一个决策背后的逻辑。XAI可以改善AI模型的性能,因为XAI的解释有助于找到数据和特征行为中的问题,它也可以提供更好的决策部署,因为其解释为中间人提供了额外的信息,使其可以明智而果断地行动等。
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
本月,阿里云在北京举办了 “2022 年阿里云数据存储生态发布会”,偶数 科技 作为目前国内云原生数据仓库技术领域的开拓者受邀参加了本次大会。
偶数 科技 首席架构师陶征霖作为演讲嘉宾,在会上与行技术仁共同回顾了分析型数据库的演进历程,以及目前偶数 科技 在 湖仓一体 方面的前沿理念和实践。
对此,陶征霖在会上重点介绍了湖仓一体 ANCHOR六大特性: 实时 T+0、一份数据、超高并发、数据一致性、云原生、多类型数据支持 。通过 OushuDB 最新版本和架构的加持,偶数湖仓一体方案将在云设施上帮助客户发挥数据价值。
为什么“湖”+“仓”的分体模式不是最佳选择
随着近年来Hadoop 大数据平台建设逐步推广,企业开始尝试将 Hadoop 用于一些非核心场景,但 Hadoop 性能和并发支持有限,而且事务支持弱,交付、运维成本高,无法替代核心数仓,基本只能作为“数据湖”。为了满足用户在性能、事务等方面的要求,很多企业开始考虑数据湖和数据仓库互补的方式。在构建数据湖的同时,也使用MPP,湖仓各自独立部署,数据通过ETL的方式打通。
这就是业内常说的 Hadoop+MPP 的湖仓分体模式。
尽管这种模式能够让湖和仓有很好的技术特性互补,但同时它也会产生经常让企业感到困惑的严重问题,包括:
这些常见的状况更让从业者头疼不已。要解决这些问题,必须实现数据和查询层面形成一体化架构,彻底摆脱大数据平台遇到的这些瓶颈,这样可以大大降低 IT 运维成本和数据管理的技术门槛。
OushuDB存算分离的湖仓一体模式有何不同
那么,基于OushuDB存算分离的湖仓一体模式与Hadoop+MPP 的湖仓分体模式有何不同呢?
偶数 科技 研发的全球最快的新一代分析型数据库引擎OushuDB创新性的采用了存算分离的云原生架构。作为一个崭新的数据平台架构,存算分离架构可以保证存储和计算可以独立的弹性扩展和伸缩。
而传统 MPP 和 Hadoop 都不适应这样的要求:
另外,为了同时满足实时流处理、实时按需分析和离线分析需求,偶数 科技 独创性的 探索 出了Omega全实时数据处理架构,相比于传统的Kappa架构、Lambda架构优势明显。
可以说,OushuDB基本解决了湖仓分体的技术瓶颈,技术优势相当显眼:
湖仓选型,ANCHOR先行
偶数 科技 认为,要真正的解决业务的痛点,选择企业适合的湖仓产品,我们可以按照前面提到的ANCHOR 标准来选型。ANCHOR 的6个首字母分别代表六大特性:
行业的认可与偶数的持续突破创新
自偶数 科技 诞生以来,偶数 科技 的产品和解决方案也已在非银金融、电信、政府、能源、制造和互联网等行业中被广泛的部署和应用,帮助多个行业中的企业小步快跑,进行数智化转型。同时,作为在数据库领域的领先创业,其商业模式的可行性与成长性也得到了资本的认可,连续获得了国内顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资。
在大数据的常见客户行业中,银行业是对应用的自主可控、高可用、高可靠性的要求最高的领域之一,偶数 科技 解决方案在银行业的落地正是其技术实力和对用户痛点理解力的明证。早在2020年,偶数 科技 就与建设银行成立了高性能大数据联合实验室,共同 探索 湖仓一体化的实施路径。经过持续的技术探讨与应用验证,二者合作开发的基于云原生数据库技术的全实时湖仓一体方案,采用了一套技术栈、统一存储进行湖仓双重能力建设,已具备极速性能、弹性伸缩、计算资源按需分配、全量数据单一存储、无须频繁导数、混合负载等相关能力,能够充分建设银行及其客户的实时应用场景,帮助建行提升了实时需求响应性能、增强了系统弹性,同时节约运维成本。
近期,偶数 科技 正式入选国家级专精特新(专业化、精细化、特色化、新颖化)“小巨人”企业名单。作为助力国家突破关键技术领域“卡脖子”难题的初创企业,偶数 科技 在数据库国产化、技术自主安全上的努力正在被逐步验证、得到国家层面的肯定。
随着未来物联网、工业互联网的逐步建立,大数据领域将面临越来越广的数据来源、越来越大的数据量、越来越多的非结构化数据、越来越丰富的应用场景和越来越复杂的技术栈,大数据处理和分析的难度将进一步提升。从上世纪60年代的数据库,到数据仓库、数据湖,到现在的湖仓一体,新产品总是在性能、功能上去解决以前从业者在业务上的痛点,我们可以说湖仓一体是数据库发展到云原生时代的必然产物。
通过虚拟计算集群技术在数十万节点的超大规模集群上实现高并发,保障事务支持,提供实时能力,一份数据再无数据孤岛,新一代湖仓一体架构将是未来的发展趋势。偶数 科技 作为湖仓一体化领域的领导者,也将持续优化技术,为用户带来更高性能、更稳健的解决方案,支撑更多行业用户将数据转化为生产力。
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。