airflow HiveOperator實例

本文轉載自查看原文 2020-06-02 14:53 1267 AirFlow

此實例的測試環境是airflow部署在服務器而不是部署在容器

hive 是基於 Hadoop 的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，

並提供簡單的 sql 查詢功能，可以將 sql 語句轉換為 MapReduce 任

務進行運行。在 airflow 中調用 hive 任務，首先需要安裝依賴

pip install apache-airflow[hive]

編寫dag文件

from airflow import DAG
from airflow.operators import HiveOperator
from datetime import datetime, timedelta
from airflow.models import Variable
from airflow.operators import ExternalTaskSensor
from airflow.operators import EmailOperator

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'start_date': datetime(2019, 6, 1),
    'email': ['810905729@qq.com'],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': timedelta(minutes=1),
    'end_date': datetime(9999, 1, 1),
}

dag = DAG('dw_ly', default_args=default_args, schedule_interval='30 10 * * *',  catchup=False)

t1 = HiveOperator(
    task_id='dw_ly',
    hql='select * from test1.employee ',
    dag=dag)
t1

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 airflow airflow的安裝 Airflow概念 Airflow速用安裝airflow airflow介紹 AirFlow簡介 airflow 部署 airflow原理 airflow部署