温馨提示:这篇文章已超过432天没有更新,请注意相关的内容是否还可用!
摘要:本文介绍了大数据和数仓领域中的几种主要数据存储分析架构,包括分布式文件系统、Hadoop、NoSQL数据库等,并对它们的架构特点进行了简要概述和对比分析。这些架构在数据存储和处理方面各有优势,适用于不同的应用场景。本文旨在为读者提供全面的数据存储分析架构知识,以便更好地选择适合自己需求的存储和处理方案。
一、数据库的概念
数据库是一个二维关系存储系统,主要用于存储结构化数据,如某学校的学生信息表、某年级的学生成绩表等,其使用简便,结构化程度高,极大地推动了互联网的发展。
二、数据仓库
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,其范围比数据库更广,数据仓库内的信息按主题进行聚合,如地区、成本、商品、收入、利润等,它集成了不同数据库中的数据,并汇聚在一起,数据仓库的数据相对稳定,不会像操作型数据库那样经常变化,它还能记录分析从过去某一个时间点到现在的变化。
三、数据集市
数据集市是一个小型的数据仓库,只关注某一个特定主题,如成本,它只收录与成本相关的数据,从类型上分为独立型和从属型,独立型数据集市直接从操作型环境获取数据,而从属型数据集市则从企业级数据仓库获取数据,长远来看,从属型数据集市在体系结构上比独立型更稳定。
四、数据湖
数据湖是一个比数据仓库更大、对数据没有任何限制的大型仓库,其内的数据像湖水一样可以自然流动,供存储、处理和分析之用,在数据湖中,存储的数据未经任何处理,直接从源系统导入,包含结构化、非结构化和半结构化数据,也是数据仓库的数据来源之一,其核心概念是允许收集和存储大量数据,而无需立即处理或分析所有数据,数据湖的最终用户主要是数据科学家和工程师。
五、数据中台
数据中台本质上是服务于业务的数据分析系统,从一开始就是为业务而生,它包含数据埋点、数据接入标准化、数据仓库抽象化、数据治理和数据服务五大模块,打通了人、物、场多个维度,更好地为前台服务,与数据仓库相比,数据中台是数据仓库的质的飞跃,它更注重业务的实际需求和服务。
数仓和各大数据处理架构的对比
一、数据湖和数据仓库的对比
数据湖与数据仓库在多个方面存在显著差异:
1、数据结构:数据仓库仅存储经过处理和提炼的数据,而数据湖则存储尚未出于某种目的处理的原始数据,数据湖需要更大的存储容量。
2、加工方式:数据仓库使用写入时序模式的方法处理数据,赋予其形状和结构;而数据湖则使用读取模式处理原始数据。
3、成本:数据仓库的存储成本可能较高,而数据湖专为低成本数据存储而设计。
4、目的:数据仓库仅保存已用于特定目的的已处理数据;而数据湖存储原始数据,这些原始数据有时具有特定的未来用途,有时仅用于囤积。
5、用户群体:数据仓库主要由熟悉已处理数据的IT或业务专业人员使用;而数据湖的非结构化数据则需要数据科学家或工程师在使用前进行组织。
6、可访问性:数据仓库设计较为固定,难以访问和操作;相比之下,数据湖几乎无限制,易于访问和更改,并支持快速更新。
希望以上内容对您有所帮助,如需更多系统化资料,建议访问专业的大数据学习平台或相关论坛获取。
还没有评论,来说两句吧...