Trino를 AWS ECS에 배포하여 다양한 데이터 소스를 통합 쿼리할 수 있는 DataLake 환경 구축. Apache Iceberg 테이블 포맷을 활용한 원본 데이터 확인 및 Federated Query 플랫폼 제공
데이터 레이크가 부재하고 S3를 단순히 Redshift 로드를 위한 임시 공간으로만 활용하던 환경에서, 데이터 활용성을 극대화하고 통합적인 분석 기반을 마련하기 위해 Trino 기반의 데이터 레이크 플랫폼을 구축했습니다.
EKS와 같은 관리형 쿠버네티스 서비스 없이 ECS를 활용하여 Trino를 직접 배포하고 운영함으로써, 분산된 데이터 소스를 효율적으로 통합하고 데이터 접근성을 혁신적으로 개선했습니다.
MySQL Query Event Log 설정
을 통해 사용자들의 쿼리 패턴을 분석하고, 이를 바탕으로 플랫폼을 지속적으로 개선했습니다.