IaC 기반 인프라 관리와 종합적인 모니터링 시스템 구축. Terraform과 Serverless Framework를 통한 인프라 코드화 및 비용 최적화 자동화 시스템 도입
이 문서는 특정 기간에 완료된 프로젝트가 아닌, 데이터 플랫폼의 안정성과 효율성을 보장하기 위해 팀내에서 지속적으로 수행하고 있는 인프라 관리, 모니터링, 그리고 비용 최적화 활동에 대해 기술합니다. 데이터 엔지니어로서 인프라를 단순히 사용하는 것을 넘어, 안정적이고 비용 효율적인 데이터 플랫폼을 구축하고 운영하는 것을 목표로 합니다.
도입 사유: 수동으로 인프라를 관리할 때 발생하는 휴먼 에러를 방지하고, 여러 환경에 걸쳐 일관성 있는 인프라를 배포하기 위해 IaC를 도입했습니다. 모든 인프라 변경 사항을 코드로 관리하여 버전 관리, 변경 이력 추적을 가능하게 했습니다.
도입 사유: 데이터 웨어하우스는 데이터 분석의 핵심입니다. 성능 저하, 비용 급증, 데이터 정합성 문제를 사전에 방지하고 신속하게 대응하기 위해 다각적인 모니터링 시스템을 구축했습니다.
BigQuery
: 처리량이 $5를 초과하는 쿼리가 실행될 경우 Google Chat으로 즉시 알림.Redshift
: 1시간 이상 실행되는 Long-running 쿼리나 테이블 Lock을 유발하는 쿼리를 탐지하여 알림으로써 장애를 사전에 예방합니다.도입 사유: 매일 수백 개의 데이터 파이프라인이 실행되는 환경에서, 개별 파이프라인의 성공 여부와 성능을 추적하여 데이터 제공의 SLA(Service Level Agreement)를 준수하기 위해 구축했습니다.
활동 목표: 클라우드 비용을 일회성으로 절감하는 것이 아니라, 지속적으로 비용 효율적인 아키텍처를 고민하고 불필요한 낭비를 자동화된 방식으로 관리하는 문화를 정착시키는 것을 목표로 합니다.