-
Data Pipeline OverviewReview/ByteByteGo - System Design 2024. 8. 5. 19:00반응형
데이터 파이프라인은 현대 시스템 내에서 데이터를 효율적으로 관리하고 처리하는 데 필수적인 구성 요소입니다. 이러한 파이프라인은 일반적으로 다음의 다섯 가지 주요 단계를 포함합니다: 수집(Collect), 수집(Ingest), 저장(Store), 계산(Compute), 소비(Consume).
수집 (Collect):
- 설명: 데이터는 데이터 저장소, 데이터 스트림, 애플리케이션에서 획득됩니다. 데이터는 기기, 애플리케이션, 비즈니스 시스템 등에서 원격으로 수집됩니다.
수집 (Ingest):
- 설명: 수집 과정에서 데이터는 시스템에 로드되고 이벤트 큐 내에서 정리됩니다.
저장 (Store):
- 설명: 수집 후, 정리된 데이터는 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 및 데이터베이스와 같은 다양한 시스템에 저장되어 저장 이후의 데이터 보관을 보장합니다.
계산 (Compute):
- 설명: 데이터는 회사 표준에 맞게 집계, 정제 및 조작됩니다. 이 단계에는 형식 변환, 데이터 압축 및 파티셔닝과 같은 작업이 포함되며, 배치 처리 및 스트림 처리 기법이 모두 사용됩니다.
소비 (Consume):
- 설명: 처리된 데이터는 분석 및 시각화 도구, 운영 데이터 저장소, 의사 결정 엔진, 사용자 애플리케이션, 대시보드, 데이터 과학, 머신러닝 서비스, 비즈니스 인텔리전스 및 셀프 서비스 분석을 통해 소비할 수 있도록 제공됩니다.
각 단계의 효율성과 효과성은 조직 내 데이터 기반 운영의 전반적인 성공에 기여합니다.
반응형'Review > ByteByteGo - System Design' 카테고리의 다른 글
API 보안을 위한 12가지 Tips (0) 2024.08.05 C++, JAVA, 파이썬으로 보는 컴파일, 바이트, 인터프리터 언어 차이점 (0) 2024.08.05 IT분야 CAP, BASE, SOLID, KISS 의미 (0) 2024.08.05 네트워크 주요 프로토콜 Top 8 (0) 2024.08.05 2023 API 프로토콜의 진화 (0) 2024.08.05