목차
본문으로 바로가기

[Analytics] DataFactory 란?

category Cloud/Azure 2025. 8. 4. 11:00

#

1. 개요

  • Azure Data Factory(이하 ADF)는 클라우드 기반의 완전관리형 ETL/ELT 데이터 통합 서비스로, 다양한 소스의 데이터를 추출 → 변환 → 적재를 자동화하는 워크플로우 플랫폼입니다
  • 파이프라인(Pipelines), 데이터 흐름(Data Flow), 활동(Activities), 데이터세트(Datasets), 연결된 서비스(Linked Services), 트리거(Triggers) 등 주요 구성 요소로 구성됩니다

2. Azure Data Factory 작동 원리 및 이점 소개

2.1 Ingest (연결 및 수집)

  • 외부 데이터와 연결하여 데이터를 추출 작업
  • 다양한 데이터 소스(SQL, Oracle, SAP, REST API, Blob 등)에서 데이터를 중앙 저장소로 이동
  • 온프레미스 환경에서도 자체 호스팅 Integration Runtime(IR)을 통해 안전하게 데이터 수집 가능
  • 복잡하고 비용이 많이 드는 사용자 정의 스크립트 없이도 데이터 이동 자동화 가능

2.2 Control Flow (제어 흐름)

  • Ingest 이후의 작업들을 어떤 순서와 조건으로 실행할지 제어하는 단계
  • 파이프라인(Pipeline)을 통해 여러 작업(Activity)을 순차적 또는 병렬로 제어
  • 조건부 흐름(IF, SWITCH), 반복(ForEach, Until), 하위 파이프라인 호출 등 다양한 로직 구현 가능
  • 외부 트리거나 이벤트 기반 실행 로직도 제어 흐름에 포함 가능

2.3 Data Flow (변환 및 보강)

  • 수집된 데이터를 필터링, 조인, 정렬, 변환하는 시각적 작업 단계
  • Mapping Data Flow를 사용해 코드 없이도 대규모 데이터 집계, 필터링, 조인, 파생 열 생성 등 가능
  • Power Query 스타일의 Wrangling Data Flow로 비개발자도 쉽게 데이터 가공 가능
  • Databricks, Azure Functions, HDInsight 연동을 통한 고급 사용자 정의 코드 실행도 지원

2.4 Schedule (CI/CD 및 배포)

  • 전체 파이프라인을 어떤 시점에 실행할지 정의
  • 시간 기반(Cron), 이벤트 기반(Blob 업로드, 변경 등)으로 트리거 정의 가능
  • GitHub 또는 Azure DevOps와 연동하여 ETL 프로세스를 단계별로 개발 → 테스트 → 배포 가능
  • 준비된 데이터는 Azure Synapse, Azure SQL, Azure Cosmos DB 등으로 전달되어 BI 및 분석에 활용됨

2.5 Monitor (모니터링)

  • 실행된 파이프라인의 성공/실패 상태, 소요 시간, 에러 원인 등을 확인
  • Azure Portal의 모니터링 뷰를 통해 파이프라인의 성공/실패 여부, 소요 시간 등을 확인
  • Azure Monitor, Log Analytics, PowerShell, REST API 등으로 상태 추적 및 자동 경고 설정 가능
  • 실패한 작업 재시도, 알림 연동 등의 운영 자동화도 지원

3. 전체 아키텍처 흐름

[Source Systems] 
     ↓
 Ingest: Linked Service + Dataset + IR (연결 및 수집)
     ↓
Control Flow: Pipeline + Activities (흐름 제어)
     ↓
Data Flow: Transformation + Sink (변환 및 보강)
     ↓
Schedule: Trigger 설정 (정기 실행)
     ↓
Monitor: 모니터링 + 경고 설정 (상태 추적 및 경고)
     ↓
[Data Lake / DW / CosmosDB / 분석 플랫폼]

4. 참고자료