데이터는 일반적으로 추출(Extract), 적재(Load), 그리고 가공(Transfrom)하는 과정을 거쳐 최종적으로 사용된다. 이 데이터 흐름은 항상 원활하게 이루어지지는 않은데, 각 단계에서 오류가 발생할수 있기 때문이다.
예를들어, 데이터를 추출하기 위해 필요한 API가 갑자기 작동하지 않을 수 있고, 데이터를 적재하는 snowflake에서 오류가 발생할수 있고, 그리고 DBT를 이용해 데이터를 변환하는 과정에서 실수가 있었을 수도있다. 이렇게 각각의 단계에서 이슈가 발생할수 있고, 때문에 이런 것들을 관리할 도구가 필요하다. 이를 도와주는것이 airflow이다.

위와같은 데이터흐름이 하나만 존재한다면 airflow가 필요하지 않을지도 모르지만, 데이터 파이프라인이 늘어나면 늘어날수록 airflow같은 orchestrator 없이 각각의 파이프라인내의 step들의 오류를 하나씩 관리하는것은 엄청난 노동이 될것이다. airflow가 있다면 수백개의 데이터 파이프라인 수백만개의 작업들을 자동으로 관리할수 있다.
'airflow' 카테고리의 다른 글
[airflow] hook (0) | 2024.01.10 |
---|---|
[airflow] docker volume mount (0) | 2023.12.25 |
[airflow] Xcom (0) | 2023.12.12 |
[airflow] task 내 함수 선언 (1) | 2023.12.10 |
[airflow] WSL (0) | 2023.12.03 |