ElasticSearch, Google/Apple 마켓, Prometheus, Redis, SensorTower 등 15개 이상의 다양한 외부 데이터 소스를 안정적으로 수집하는 ETL 구축
단일 데이터 소스로는 얻을 수 없는 깊이 있는 비즈니스 인사이트를 확보하기 위해, 15개 이상의 내/외부 이종 데이터 소스를 통합 수집하는 파이프라인들을 구축했습니다. 각 데이터 소스의 고유한 API 제약, 데이터 구조, 수집 주기를 고려한 맞춤형 수집 전략을 통해, 파편화된 데이터를 연결하여 비즈니스의 전체 그림을 볼 수 있는 기반을 마련했습니다.
데이터 엔지니어로서 각 소스의 기술적 특성과 비즈니스적 중요도를 파악하고, 안정성과 효율성을 모두 고려한 맞춤형 수집 파이프라인을 설계했습니다.
Scroll API
를 사용하여 페이지네이션 방식으로 데이터를 안정적으로 가져왔습니다.앱이름
, 평점
, 리뷰수
등 공통된 필드를 가진 표준 스키마로 정규화하여 저장함으로써, 플랫폼에 구애받지 않는 통합 분석을 가능하게 했습니다.HTTP API
와 PromQL
을 사용하여 필요한 메트릭만 집계(Aggregation)된 형태로 조회했습니다. 원본(Raw) 데이터가 아닌 1분, 5분 단위로 집계된 데이터를 수집하여 저장 데이터의 양을 최적화하고 분석 성능을 높였습니다.KEYS
명령어 대신, Blocking 없이 점진적으로 키를 스캔하는 SCAN
명령어를 사용했습니다. 또한, 프로덕션에 영향을 주지 않기 위해 Read Replica(복제본) 노드에서 데이터 추출 작업을 수행하여 서비스 안정성을 확보했습니다.