#
1. 개요
- Azure Data Factory(이하 ADF)는 클라우드 기반의 완전관리형 ETL/ELT 데이터 통합 서비스로, 다양한 소스의 데이터를 추출 → 변환 → 적재를 자동화하는 워크플로우 플랫폼입니다
- 파이프라인(Pipelines), 데이터 흐름(Data Flow), 활동(Activities), 데이터세트(Datasets), 연결된 서비스(Linked Services), 트리거(Triggers) 등 주요 구성 요소로 구성됩니다
2. Azure Data Factory 작동 원리 및 이점 소개
2.1 Ingest (연결 및 수집)
- 외부 데이터와 연결하여 데이터를 추출 작업
- 다양한 데이터 소스(SQL, Oracle, SAP, REST API, Blob 등)에서 데이터를 중앙 저장소로 이동
- 온프레미스 환경에서도 자체 호스팅 Integration Runtime(IR)을 통해 안전하게 데이터 수집 가능
- 복잡하고 비용이 많이 드는 사용자 정의 스크립트 없이도 데이터 이동 자동화 가능
2.2 Control Flow (제어 흐름)
- Ingest 이후의 작업들을 어떤 순서와 조건으로 실행할지 제어하는 단계
- 파이프라인(Pipeline)을 통해 여러 작업(Activity)을 순차적 또는 병렬로 제어
- 조건부 흐름(IF, SWITCH), 반복(ForEach, Until), 하위 파이프라인 호출 등 다양한 로직 구현 가능
- 외부 트리거나 이벤트 기반 실행 로직도 제어 흐름에 포함 가능
2.3 Data Flow (변환 및 보강)
- 수집된 데이터를 필터링, 조인, 정렬, 변환하는 시각적 작업 단계
- Mapping Data Flow를 사용해 코드 없이도 대규모 데이터 집계, 필터링, 조인, 파생 열 생성 등 가능
- Power Query 스타일의 Wrangling Data Flow로 비개발자도 쉽게 데이터 가공 가능
- Databricks, Azure Functions, HDInsight 연동을 통한 고급 사용자 정의 코드 실행도 지원
2.4 Schedule (CI/CD 및 배포)
- 전체 파이프라인을 어떤 시점에 실행할지 정의
- 시간 기반(Cron), 이벤트 기반(Blob 업로드, 변경 등)으로 트리거 정의 가능
- GitHub 또는 Azure DevOps와 연동하여 ETL 프로세스를 단계별로 개발 → 테스트 → 배포 가능
- 준비된 데이터는 Azure Synapse, Azure SQL, Azure Cosmos DB 등으로 전달되어 BI 및 분석에 활용됨
2.5 Monitor (모니터링)
- 실행된 파이프라인의 성공/실패 상태, 소요 시간, 에러 원인 등을 확인
- Azure Portal의 모니터링 뷰를 통해 파이프라인의 성공/실패 여부, 소요 시간 등을 확인
- Azure Monitor, Log Analytics, PowerShell, REST API 등으로 상태 추적 및 자동 경고 설정 가능
- 실패한 작업 재시도, 알림 연동 등의 운영 자동화도 지원
3. 전체 아키텍처 흐름
[Source Systems]
↓
Ingest: Linked Service + Dataset + IR (연결 및 수집)
↓
Control Flow: Pipeline + Activities (흐름 제어)
↓
Data Flow: Transformation + Sink (변환 및 보강)
↓
Schedule: Trigger 설정 (정기 실행)
↓
Monitor: 모니터링 + 경고 설정 (상태 추적 및 경고)
↓
[Data Lake / DW / CosmosDB / 분석 플랫폼]
4. 참고자료
'Cloud > Azure' 카테고리의 다른 글
App Service / Container APP (2) | 2025.08.21 |
---|---|
[ACR] Azure ACR 이미지 마이그레이션 가이드 (1) | 2025.08.05 |
[StorageAccouts] Blob 설계 및 접근방법 (4) | 2025.07.22 |
VWAN 구성 아키텍처 - VPN Gateway 구성 관련 (2) | 2025.07.18 |
[AZ-CLI] Azure CLI az login 방법 정리 (0) | 2025.07.17 |