DBT hook 实战教程

news/2024/10/4 2:15:25 标签: 数据治理, 数据工程, 分析工程

本文将介绍dbt中在模型和seed级别使用post-hook的几个具体示例。dbt中的Post-hooks是一个强大而简单的特性,它在构建模型之后(如果是pre-hook,甚至在此之前)执行SQL语句。这些语句实际上(几乎)可以是任何东西,从将表复制到另一个数据库/模式,或限制记录的数量,或重新格式化seed。我们将讨论的示例是指DuckDB,但是也可以适用于其他数据库。

认识 dbt hook

将原始数据转换为可供下游消费者使用的模型,直接使用SQL非常实用,但dbt默认不支持,仅支持SELECT 语句。如果遇到下列场景,我们可能需要SQL实现:

  • 管理计算层的大小或容量
  • 应用屏蔽策略或访问策略
  • 管理数据库参数

dbt hook可以实现这些特殊任务。与dbt项目中的许多资源不同,钩子可以使用简单的SELECT语句之外的SQL命令,这打开了充满可能性的新世界。dbt hook 主要分为:

  • On-run-start/end: 用于在执行某些dbt命令之前/之后运行SQL查询

在下列命令的开始或结束处运行SQL语句(或SQL语句列表): dbt build, dbt compile, dbt docs generate, dbt run, dbt seed, dbt snapshot, dbt test`. on-run-start和on-run-end hook也可以宏。语法如下:

-- dbt_project.yml
on-run-start: sql-statement | [sql-statement]
on-run-end: sql-statement | [sql-statement]
  • Pre-/post-hooks: 用于在执行某些dbt节点之前/之后运行SQL查询

在model, seed, snapshot 被构建之前/后运行SQL语句(或SQL语句列表), Pre-/post-hooks子也可以调用宏。dbt旨在通过开箱即用的功能提供SQL模版代码 (DDL、DML和DCL),从而快速而简洁地配置模型转换业务。当需要执行dbt尚未提供的特性时,我们可以使用dbt的编译上下文编写所需的SQL,并将其传递到Pre-/post-hooks,以便在model, seed 或 snapshot之前或之后运行。语法如下:

-- dbt_project.yml

models:
  <resource-path>:
    +pre-hook: SQL-statement | [SQL-statement]
    +post-hook: SQL-statement | [SQL-statement]

也可以在模型中配置:

-- models/<model_name>.sql

{{ config(
    pre_hook="SQL-statement" | ["SQL-statement"],
    post_hook="SQL-statement" | ["SQL-statement"],
) }}

select ...

对于seed 和 snapshot 语法类似。

dbt模型使用post-hook

想象有业务需求如是:我们dbt项目中模型需存储在特定schema中,其访问权限是不公开的。这意味着组织中的任何人都无法从该模式中读取数据。这样做的原因可能与包含个人敏感数据有关,或者仅仅是数据治理规范,团队希望控制创建表的访问和使用权限。

我们可以使用post-hook实现对数据的访问,同时不影响安全管理规范。在本例中,这些数据需要被其他团队使用,我们将表的内容复制到另一个公共模式/表中:

{{config(
  materialized='table',
  post_hook=[
    "CREATE OR REPLACE TABLE {{ env_var('DBT_DATABASE') }}.public_schema.mart_orders AS 
     SELECT * FROM {{this}};"
  ]
)
}}

SELECT *
FROM {{ ref('ref_orders') }}

当这个模型运行时,用于构建模型的SQL首先运行,紧接着post-hook语句被执行。在这个示例中,我们使用:

  • {{this}}函数,它引用了在此文件中构建的模型,特别是它在数据库中的表示
  • env_var函数获取存储在profiles文件中的数据库变量。从技术上讲,如果您已经为本地使用设置了DEV环境,则不需要添加它,因为dbt将自动指向它。然而,这似乎是一个很好的做法,声明它,也使读者清楚。

请注意,建议这里使用{{this}},特别是如果在两个独立的环境,一个用于本地开发,一个用于生产。如前所述,如果在本地运行该模型,dbt将把FROM {{this}}和CREATE TABLE语句转换为在配置文件中声明的本地开发数据库。然而,很可能实际不需要在开发数据库中使用公开表,而只需要在生产中使用。在这种情况下,可以简单地在post-hook中进行显式设置,只需从生产环境中获取数据并将其构建到生产环境中。代码示例如下:

{{config(
  materialized='table',
  post_hook=[
    "CREATE OR REPLACE TABLE prod_database.public_schema.mart_orders AS 
     SELECT * FROM prod_database.team_private_schema.mart_orders;"
  ]
)
}}

SELECT *
FROM {{ ref('ref_orders') }}

现在,让我们给post-hook逻辑增加两个业务用例,基于以下现实场景:

  • 我们要公开的表包含一些个人隐私数据,如customer_email或customer_phone_number
  • 公共模式仅用于“展示”模型的内容,而实际的访问是在其他地方(例如按需)提供的,并且直接访问存储在私有schema中的表。

对于第一个用例,我们仅需排除不想暴露的字段以返回其部分内容:

{{config(
  materialized='table',
  post_hook=[
    "CREATE OR REPLACE TABLE prod_database.public_schema.mart_orders AS 
     SELECT * EXCLUDE (customer_email, customer_phone_number), split(customer_email,'@')[2] AS customer_email FROM prod_database.team_private_schema.mart_orders;"
  ]
)
}}

SELECT *
FROM {{ ref('ref_orders') }}

对于第二个用例,我们只是限制表中返回的记录数量。并添加一列,其中包含友好的提醒信息,以便与团队联系以访问表格:

{{config(
  materialized='table',
  post_hook=[
    "CREATE OR REPLACE TABLE prod_database.public_schema.mart_orders AS 
     SELECT 'request access to the table at team_data@company.com' AS readme, * EXCLUDE (customer_email, customer_phone_number), split(customer_email,'@')[2] AS customer_email FROM prod_database.team_private_schema.mart_orders
LIMIT 5;"
  ]
)
}}

SELECT *
FROM {{ ref('ref_orders') }}

dbt seed使用post-hook

Dbt seed可以直接加载CSV文件到数据仓库中,通常拥有处理不经常更改的静态数据。有时这些csv是由多个业务团体提供的,格式上可能缺乏标准化。让我们看一个简单的例子,理解post-hook是如何派上用场的。

我们有一个seed文件,包含新旧产品的名称映射,在中间层模型连接引用。我们希望确保列中的值都转换为小写,因为这是编码格式约定,要做的是在seed的.yml配置文件中添加post-hook和相关的SQL语句:

version: 2

seeds:
  - name: seed_product_names
    config:
      post-hook: "CREATE OR REPLACE TABLE prod_database.team_private_schema.seed_product_names AS 
      SELECT LOWER(old_product_name) AS old_product_name, LOWER(new_product_name) as new_product_name 
      FROM prod_database.team_private_schema.seed_product_names;"
    description: >
        This seed contains all product names (old and new versions)
    columns:
      - name: old_product_name
        description: The old product name used in previous platform
        type: string
      - name: new_product_name
        description: The new product name used in current platform
        type: string

dbt seed命令运行后,执行post-hook中的SQL,将dbt seed刚刚构建的模型替换为遵循约定的重新格式化版本。

很明显,我们可以在添加至seed之前直接格式化CSV文件:然而添加格式规则在SQL不仅能给你更多的质量控制能力,也会提高文档描述,因为格式化内容在SQL和描述中已清晰地说明。

或许有人认为这种重新格式化SQL操作,可以通过构建从seed获取数据的staging模型表来实现。虽然这显然是可行的,但它违背了将这些“规范”映射CSV文件存储和记录为dbt seed的约定。

同样与dbt模型一样,post-hook可以用于各种数据操作常见(例如,在seed中连接字符串创建新列,截取或替换字符串等),这些都可以通过SQL语句实现。

总结

本文通过提供在模型和种子级别上使用post-hook的具体示例,展示了dbt中post-hook的多种应用场景。这些示例演示了post-hook如何用于复制表、限制返回记录和重新格式化数据。总之,通过使用post-hooks,用户可以更好地控制数据质量并提升模型文档。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。


http://www.niftyadmin.cn/n/5689305.html

相关文章

【Kubernetes】常见面试题汇总(五十一)

目录 114. K8S 集群服务访问失败&#xff08;情况一&#xff09;&#xff1f; 115. K8S 集群服务访问失败&#xff08;情况二&#xff09;&#xff1f; 特别说明&#xff1a; 题目 1-68 属于【Kubernetes】的常规概念题&#xff0c;即 “ 汇总&#xff08;一&#xff…

AI写作系列1——我重生了

重生之路 第一章&#xff1a;重生的瞬间 我重生了&#xff0c;这一世&#xff0c;我发誓不会再犯同样的错误。记忆如潮水般涌来&#xff0c;前世的痛苦与遗憾交织在一起&#xff0c;让我几乎窒息。曾经的我&#xff0c;是个普通的大学生&#xff0c;拼命学习&#xff0c;却因…

卫生间门口墙皮天天掉,是墙面“返潮”造成的?

业主说房子装修好5年了&#xff0c;卫生间防水出问题了&#xff0c;去现场看一下&#xff0c;看看能怎么处理。      到了工地以后&#xff0c;业主说卫生间门口两侧的墙皮都已经脱落了&#xff0c;天天往下掉&#xff0c;实在没办法了&#xff0c;就在墙上钉了几块纸壳子。…

利用条件逻辑创建简单的模拟程序

利用条件逻辑创建简单的模拟程序 在编程中&#xff0c;条件逻辑&#xff08;if-elif-else 语句&#xff09;是控制程序流的重要工具。它允许程序根据不同条件做出不同的决策。这一特性使得我们能够创建更复杂和智能的程序。在本文中&#xff0c;我们将通过一个实际案例来展示如…

【Swift官方文档】7.Swift集合类型

集合类型 使用数组、集合和字典来组织数据。Swift 提供了三种主要的集合类型&#xff1a;数组、集合和字典&#xff0c;用于存储值的集合。数组是有序的值集合。集合是无序的唯一值集合。字典是无序的键值对集合。 Swift 中的数组、集合和字典始终清晰地指明它们可以存储的值…

开源项目 - 交通工具检测 yolo v3 物体检测 单车检测 车辆检测 飞机检测 火车检测 船只检测

开源项目 - 交通工具检测 yolo v3 物体检测 单车检测 车辆检测 飞机检测 火车检测 船只检测 开源项目地址&#xff1a;https://gitcode.net/EricLee/yolo_v3 示例&#xff1a;

构建ID3决策树的算法代码 核心部分详细讲解

# ID3 算法类 class ID3Tree:# 定义决策树节点类class TreeNode:# 定义树节点def __init__(self, name):self.name nameself.connections {}# 定义树的连接def connect(self, label, node):self.connections[label] node# 定义参数变量&#xff0c;包括数据集、特征集、标签…

C/C++/EasyX ——入门图形编程(2)

【说明】这一篇的内容都是很基础的&#xff0c;所以内容会很多&#xff0c;具体现在也不知道要写多少&#xff0c;先写下去吧&#xff0c;新手小白们都不用担心&#xff0c;这个内容不会很难&#xff0c;因为我也是从一无所知过来的&#xff0c;很好入门的&#xff0c;&#xf…