개발 기간: 2023.06 - 2023.08 (3개월)
기술 스택
- Python3.10
- PostgreSQL 15.2
부동산 관련 데이터를 수집하고 분석하는 과정에서 대규모 비구조적 데이터를 효율적으로 저장하고 빠르게 검색 및 조회할 수 있는 데이터베이스 구조가 필요했습니다. 특히, 선순위 채권 및 부동산 데이터의 복잡한 구조를 다루기 위해, JSON 형태의 유연한 데이터 저장소와 고성능 검색 기능이 필요했습니다. 이를 해결하기 위해 PostgreSQL의 JSONB 타입과 인덱스를 활용하여 프로젝트를 진행하였습니다.
- 데이터 수집 및 전처리
- 데이터 수집: 부동산 선순위 채권 정보 및 부동산 데이터를 크롤링하여 원시 데이터 수집
- 전처리
- 결측값 처리 및 중복 데이터 제거
- JSON 데이터의 구조화 및 정규화 작업을 통해 데이터의 일관성 유지
- 분석 및 검색을 위해 주요 필드 추출 후 구조화
- PostgreSQL JSONB 타입 활용
- JSONB 데이터 저장
- 복잡한 부동산 데이터를 JSON 형식으로 구조화하여 JSONB 필드에 저장
- 데이터베이스의 스키마를 단순화하면서도, 데이터의 유연성과 가독성 유지
- 검색 성능 최적화
- BTREE 인덱스 생성: PostgreSQL의 JSONB 필드에서 특정 키 값을 빠르게 검색하기 위해 BTREE 인덱스 생성
- GIN 인덱스 활용: JSONB 데이터 전체에서 텍스트 검색을 최적화 하기 위해 Generalized Inverted Index 사용
성과