当前位置:清远传媒网 > 科技 > 业界 > 正文

都在喊的湖仓一体是什么 深度解读《湖仓一体技术研究报告》

清远传媒 www.gdqynews.com   发布时间:2022-07-27 19:58:13   作者:新媒体

近日,赛迪顾问正式发布了国内首份《湖仓一体技术研究报告》。对此,巨杉数据库特邀赛迪顾问软件与信息服务业研究专家,对《湖仓一体技术研究报告》进行了深入解读。

伴随数字化在各行各业的深化发展,企业不但需要面向业务的「交易核心」,同时更需要构建面向企业全量数据价值的「数据核心」。不同于传统「交易核心」往往仅针对特定业务系统解决其交易需求不同的是,「数据核心」需要汇聚从多个「交易核心」产生的实时交易流水数据,为全企业跨业务的多个系统提供高并发的实时对客全量数据查询及数据探索分析能力。湖仓一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,正成为企业数字化转型过程中的备受关注焦点。

本次解读分享,结合湖仓一体技术的发展历程,对现阶段业界重点产品,典型案例,未来趋势等多方面内容进行了剖析,综合评判了湖仓一体技术的发展阶段及未来应用场景。

 

· 湖仓一体技术的发展历程

从数据管理架构的发展来看,湖仓一体技术的发展可分为三个阶段。第一阶段是上世纪80年代开始的“数据仓库”阶段,第二阶段是2011年伴随着大数据发展而产生的“数据湖”技术,第三阶段就是近年来开始的数据湖与数据仓库的融合趋势,业界称为“湖仓一体”。

数据管理架构的革新,是在企业需求的推动下进行的,新兴技术催生新的市场需求,从而导致数据管理架构相应调整。以湖仓一体为例,当下企业海量大数据场景下的实时处理,非结构化数据治理等需求,都是推动数据湖与数据仓库融合的重要动力。

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库产生的背景主要在于传统交易核心数据库脑容量不足,擅长事务型工作,但不擅长分析型工作,无法满足企业对于数据分析的发展需求。

从数据仓库架构图可以看出,数据仓库的主要功能,是将企业信息化管理系统中联机事务处理所积累的大量数据,通过数据仓库特有的信息存储架构,系统化分析整理,进而支持如决策支持系统、主管资讯系统的创建,帮助决策者快速有效的从大量数据中分析出有价值的信息,以利于后期决策拟定及对外在环境变化的快速回应,帮助其构建商业智能。

在大数据时代数据量剧增背景下,催生了数据湖技术。数据湖是一个存储企业各种各样原始数据的大型仓库,可供数据存取、处理、分析以及传输,可看作一种大型数据存储库和处理引擎。相比于数据仓库而言,数据湖存储容量更大,数据类型更为丰富,增加了对半结构化数据和非结构化数据的支持,同时对所有数据进行集中式存储。并具有庞大的PB级数据存储规模以及计算能力,提供多元化数据信息交叉分析,及大容量高速度的数据管道。

湖仓一体则是一种新型的开放式架构,打通了数据仓库和数据湖,并融合了两种架构的优势。其底层支持多种数据类型并存,且实现数据间的相互共享。上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析。湖仓一体使得数据入湖后可原地进行数据处理加工,避免数据多份冗余以及流动导致的算力、网络及成本开销,可作为超大型的数据存储资源池,实现对全量数据的实时处理。

相比于数据湖,湖仓一体架构的主要功能是增强了实时业务处理以及非结构化数据的治理能力。湖仓一体的优势主要体现在四个方面,一是具备完善的数据管理能力,二是数据可实现及时追溯,三是支持丰富的计算引擎,四是更高的数据实时性。

 

· 湖仓一体解决了用户哪些痛点?

随着数字经济时代的快速发展,独立构建数据湖与数据仓库两套平台的架构设计,在某些场景已经无法满足客户需求,新兴技术发展、“数据沼泽”问题及数字化转型三大痛点,催生了湖仓一体技术的发展。

新兴技术发展主要指随着5G、大数据、人工智能、物联网等技术的飞速发展,数据量呈现出大规模、多样性的特点,为应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求。

“数据沼泽”则是指随着企业逐渐发展壮大,数据量与业务量不断递增,处理数据的成本也在不断增加,但却无法有效利用数据资源来产生价值。而数据湖架构本身就缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加,数据治理效率降低。长此以往,企业落入了“数据沼泽”的境地。

而数字化转型的核心要义,就是实现「释放全量数据价值」。随着企业数字化转型的深化,跨多业务、多数据类型的新型应用场景不断涌现,海量大数据场景下的实时处理、非结构化数据治理等需求,给企业数据基础设施带来了新的挑战。

湖仓一体技术的出现,在实现了对数据湖与数据仓库技术融合的同时,也为用户带来了新的意义价值。

一是弥补原架构的不足。相比数据湖来说,湖仓一体架构能够支撑实时查询和实时分析场景,弥补了Hadoop技术对于数据实时处理能力的不足。而相比数据仓库来说,湖仓一体架构作为支持实时处理的统一数据底座,具备多引擎实时处理多类型数据的能力,避免了数据仓库无法分析非结构化数据的问题,以及不同平台间数据移动所带来的成本。

二是能够降低企业成本,提高效率。湖仓一体架构能够降低数据流动带来的开发成本及计算存储开销,提升企业效率。

三是助力企业数字化转型。在企业数字化转型的过程中,企业需要根据自身业务场景及发展诉求来设计系统架构,单一模式已然无法满足。而湖仓一体架构能够帮助企业构建起全新的数据融合平台,打破了数据湖与数据仓库割裂的体系,将数据湖的灵活性、数据多样性以及丰富的生态与数据仓库的企业级数据分析能力进行了融合。

四是湖仓一体架构能降低能耗,实现低碳节能。湖仓一体技术能够从基础架构上打通数据湖与数据仓库,提供实时查询以及实时分析能力,从而有效的降低了能耗。

 

更多内容,欢迎搜索《湖仓一体技术研究报告》,下载完整版报告。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。