此實例的測試環境是airflow部署在服務器而不是部署在容器
hive 是基於 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,
並提供簡單的 sql 查詢功能,
可以將 sql 語句轉換為 MapReduce 任
務進行運行。在 airflow 中調用 hive 任務,首先需要安裝依賴
pip install apache-airflow[hive]
編寫dag文件
from airflow import DAG from airflow.operators import HiveOperator from datetime import datetime, timedelta from airflow.models import Variable from airflow.operators import ExternalTaskSensor from airflow.operators import EmailOperator default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(2019, 6, 1), 'email': ['810905729@qq.com'], 'email_on_failure': False, 'email_on_retry': False, 'retries': 1, 'retry_delay': timedelta(minutes=1), 'end_date': datetime(9999, 1, 1), } dag = DAG('dw_ly', default_args=default_args, schedule_interval='30 10 * * *', catchup=False) t1 = HiveOperator( task_id='dw_ly', hql='select * from test1.employee ', dag=dag) t1