当前位置：首页 > news >正文

成都定制网站建设dedecms口腔医院类网站模板织梦网站模板

news 2025/12/27 17:08:29

成都定制网站建设,dedecms口腔医院类网站模板织梦网站模板,湖北省建设银行网站,网络外包运营公司01 我们眼中的数据湖作为爱奇艺的数据中台团队#xff0c;我们的核心任务是管理和服务公司内的大量数据资产。在实施数据治理的过程中#xff0c;我们不断吸收新的理念#xff0c;引入尖端的工具#xff0c;以精细化我们的数据体系管理。“数据湖”作为近年来数据领域广泛… 01 我们眼中的数据湖作为爱奇艺的数据中台团队我们的核心任务是管理和服务公司内的大量数据资产。在实施数据治理的过程中我们不断吸收新的理念引入尖端的工具以精细化我们的数据体系管理。“数据湖”作为近年来数据领域广泛热议的概念其技术层面也受到了业界的广泛关注。我们的团队对相关数据湖的理论和实践进行了深入研究我们认为数据湖不仅是一种治理数据的全新视角更是一种集成和处理数据的极具前景的技术。 02 数据湖是一种数据治理的思想实施数据湖的主旨在于提供一个高效的存储和管理方案将数据的易用性和可用性提升至新的高度。数据湖作为一种创新的数据治理理念其价值主要体现在以下两方面 1. 能够全面储存所有数据无论这些数据是否正在被使用或是否暂时无法使用都可以确保在需要时能轻松找到所需信息提高工作效率 2. 数据湖中的数据经过了科学的管理和组织使得用户可以更加方便地自助查找和使用数据。这种管理模式大大减少了数据工程师的参与程度用户可以自行完成数据查找与使用的任务从而节省了大量的人力资源为了更有效地管理各类数据数据湖根据不同的特性和需求将数据划分为四个核心领域分别为原始区、产品区、工作区和敏感区原始区这一区域专注于满足数据工程师和专业数据科学家的需求其主要目的是存储未经处理的原始数据。当必要时也可以对其进行局部开放以支持特定的访问需求。产品区产品区内的数据多数经过数据工程师、数据科学家和业务分析师的加工和处理以确保数据的标准化和高度治理。这类数据通常被广泛应用于业务报告、数据分析以及机器学习等领域。工作区工作区域主要用于存储各类数据工作者生成的中间数据。在这里用户需自行负责管理其数据以支持灵活的数据探索和实验以满足不同用户群体的需求。敏感区敏感区专注于安全性主要用于存储敏感数据如个人身份信息、财务数据以及法律合规数据等。这一领域受到最高级别的访问控制和安全保护。通过这一划分方式数据湖能够更好地管理不同类型的数据同时提供便捷的数据访问和利用以满足各种需求。 03 数据湖的数据治理思想在数据中台的应用数据中台的目标是解决由于数据激增和业务扩大而引发的统计口径不一致、重复开发、指标开发需求响应慢、数据质量低下和数据成本高等问题。数据中台和数据湖的目标有一致性。通过结合数据湖的理念对数据中台的数据体系和整体架构进行了优化升级。在数据中台建设的初级阶段我们对公司的数据仓库体系进行了整合对业务进行了深入研究整理了已有的字段和维度信息归纳出了一致性维度并建立了统一的指标体系制定了数据仓库建设规范。根据该规范我们构建了统一数据仓库的原始数据层ODS、明细数据层DWD、聚合数据层MID并建立了设备库其中包括累积设备库和新增设备库。在统一数据仓库的基础上数据团队根据不同的分析统计方向和业务需求构建了主题数据仓库和业务市场。主题数据仓库和业务市场包括进一步处理的明细数据、聚合数据以及应用层数据表数据应用层使用这些数据向用户提供不同的服务。在统一的数据仓库体系中原始数据层及以下是不对外开放的用户只能使用数据工程师处理加工后的数据因此难免会造成一些数据细节的损失。在日常工作中常常会有具备数据分析能力的用户希望访问底层原始数据进行个性化的分析或者问题排查。而数据湖的数据管理理念能够有效地解决这个问题。在引入数据湖的数据治理思想后我们对再次已有的数据资源进行了梳理和整合对数据的元数据进行了丰富和扩充并构建了一个专门用于管理元数据中心的数据元数据中心。在引入数据湖理念进行数据治理后我们将原始数据层以及其他原始数据例如原始日志文件归置到原始数据区有数据处理能力的用户可以申请权限使用该区域的数据。统一数仓的明细层、聚合层以及主题数仓、业务集市归置在产品区这些数据已经经过数据团队的数据工程师加工处理作为最终数据成品提供给用户使用该区域的数据经过数据治理因此数据质量有所保障。我们还为敏感数据划定了敏感区重点管控访问权限。日常由用户及数据开发人员产生的临时表或个人表归置在临时区这些数据表由用户自行负责可以有条件的开放给其他用户使用。通过元数据中心维护各数据的元数据包含表信息、字段信息以及字段所对应的维度和指标。同时我们还维护数据血缘包括表级别和字段级别的血缘关系。通过数据资产中心维护数据的资产特性包括针对数据级别、敏感性和权限的管理。为方便用户更好地自助使用数据我们在应用层提供了数据图谱作为数据目录供用户查询数据包括数据的用途、维度、指标、血缘等元数据。同时该平台也可作为权限申请的一个入口。此外我们还提供自助分析平台为数据用户提供自助分析的能力。在优化数据体系的同时我们也结合数据湖思想对数据中台架构进行了升级。底层为数据层包括各种数据来源如Pingback数据主要用于收集用户行为业务数据则存储在各种关系型数据库和NoSQL数据库。这些数据通过传输层的不同收集工具存储在存储层。数据层之上是存储层主要基于HDFS这个分布式文件系统来存储原始文件。其他结构或非结构数据则存储在Hive、Iceberg或HBase中。再往上是计算层主要使用离线引擎Pilot驱动Spark或Trino进行离线计算同时使用调度引擎Gear离线工作流引擎进行定时工作流调度。而RCP实时计算平台则负责调度流式计算。经过几轮迭代目前流式计算主要使用Flink作为计算引擎。在计算层之上的开发层通过对计算层和传输层的各个服务模块进一步封装提供了用来开发离线数据处理工作流、对数据进行集成开发实时处理工作流开发机器学习工程实现等完成开发工作的工具套件和中间服务。其中数据湖平台对数据湖中各个数据文件与数据表的信息进行管理数仓平台则对数仓数据模型、物理模型、维度、指标等信息进行管理。同时我们在纵向提供多种管理工具和服务比如投递管理工具管理Pingback埋点的规范、字段、字典、投递时机等元信息元数据中心、资源中心等模块用来维护数据表或数据文件的元信息以及保障数据安全数据质量中心和链路治理平台则监控数据质量和数据链路生产情况及时通知相关团队进行保障结合已有预案对线上问题和故障进行快速响应。底层服务由云服务团队提供私有云和公有云支持。架构上层则提供数据图谱作为数据目录供用户寻找所需要的数据。此外我们提供魔镜、北斗等自助应用满足不同层次的用户自助进行数据工作的需求。经过改造后的整个架构体系数据的集成和管理更加灵活且全面。我们通过优化自助工具降低用户使用门槛满足不同层次用户的需求提高数据使用效率提升数据价值。 04 数据湖技术在数据中台的应用广义上数据湖是一种数据治理的理念狭义上数据湖也指代一种数据处理技术。数据湖技术涵盖了数据表的存储格式以及数据在入湖后的处理技术。数据湖中的存储解决方案业界主要有三种Delta Lake、Hudi和Iceberg三者对比如下在综合考量后我们选择了Iceberg作为数据表的存储格式。 Iceberg是一种表存储格式组织底层文件系统或对象存储的数据文件。以下是Iceberg与Hive的主要对比与Hive表相比Iceberg表具有显著的优势因为它能够更好地支持行级更新数据时效性可以提高到分钟级别。这在数据处理中具有重要意义因为数据及时性的提升可以极大地改进数据处理ETL的效率。因此我们可以方便地对现有的Lambda架构进行改造实现流批一体架构在引入数据湖技术之前我们采用离线处理与实时处理相结合的方式提供离线数据仓库和实时数据仓库。全量数据通过传统的离线解析处理方式构建成为数仓数据并以Hive表的形式存储在集群中。对于实时性要求高的数据我们单独通过实时链路生产并以Kafka中的Topic的形式提供给用户使用。然而这种架构存在以下问题实时和离线两条通路需要维护两套不同的代码逻辑。当处理逻辑发生变化时实时和离线两条通路都需要同时更新否则会出现数据不一致的情况。离线链路的小时级更新以及1小时左右的延迟使得在00:01的数据可能在02:00才能查询到。对于部分实时性要求较高的下游业务来说这是无法接受的因此需要支持实时链路。虽然实时链路的实时性可以达到秒级但其成本较高。对于大多数使用者来说五分钟级别的更新已经足够满足需求。同时Kafka流的消费不如直接操作数据表方便。针对这些问题通过使用Iceberg表与流批一体化的数据处理方式可以较好地解决。优化过程中我们主要对ODS层和DWD层表进行Iceberg改造并将解析和数据处理加工重构为Flink任务。为确保改造过程中,数据生产的稳定性和准确性不受影响我们采取以下措施 1. 首先从非核心数据着手进行切换。根据实际业务情况我们以QOS投递和自定义投递作为试点。 2. 通过对离线解析逻辑进行抽象处理形成统一的Pingback解析入库SDK实现了实时与离线的统一部署使代码更加规范化。 3. Iceberg表以及新的生产流程部署完成后我们进行了两个月双链路并行运行并对数据进行常规化对比监测。 4. 确认数据和生产都没有问题后我们对上层进行无感知切换。 5. 对于核心数据相关的启动、播放数据我们将在整体验证稳定后再进行流批一体改造。改造后收益如下 1. qos和自定义投递数据链路整体实现了近实时化。小时级延迟的数据达到五分钟级更新。 2. 除特殊情况外流批一体链路已可以满足实时需求。因此我们可以下线与QOS和自定义相关的既有实时链路和离线解析链路从而节省资源。通过对数据处理的改造未来一段时间内我们的数据链路会如下图所示 05 后续规划对于数据湖在数据中台应用的后续规划主要从两方面从架构层面会继续细化各个模块的开发让数据中台提供的数据与服务更加全面更加易用让不同的用户都可以方便地自助使用; 在技术层面我们将继续对数据链路进行流批一体改造同时继续积极引入合适的数据技术提高数据的生产和使用效率降低生产成本。参考文献 1. Dixon, James (14 October 2010). Pentaho, Hadoop, and Data Lakes. James Dixon’s Blog. 2. Iceberg: A modern table format for big data 3. Apache Iceberg: An Architectural Look Under the Covers 4. Iceberg Table Spec 5. Apache Flink 6. Alex Gorelik. The Enterprise Big Data Lake. 也许你还想看爱奇艺数据湖实战爱奇艺数据湖实战 - 广告数据湖应用爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

查看全文

http://wiki.neutronadmin.com/news/8336/