2025/02/16 2

DB - Hive (msck repair table)

1. MSCK REPAIR TABLE 기본 사용법MSCK REPAIR TABLE table_name; HDFS에는 존재하지만 Hive의 Metastore에 등록되지 않은 파티션을 인식하여 추가.외부에서 데이터를 직접 HDFS에 로드한 경우.ALTER TABLE 없이 수동으로 HDFS 경로에 파티션을 추가한 경우. 2. MSCK REPAIR TABLE 동작 과정Hive는 HDFS 경로를 스캔하여 테이블의 디렉터리를 확인한다.기존에 등록되지 않은 새로운 파티션을 감지합니다.발견된 파티션을 Hive Metastore에 추가합니다.이후 SHOW PARTITIONS로 추가된 파티션을 확인할 수 있다.✅ 예제: 파티션 추가 후 MSCK REPAIR TABLE 실행hdfs dfs -mkdir /user/hive/wa..

DB 2025.02.16

DB - partition 접근

업무 중 같은 쿼리라도 파티션 조건을 어떻게 하냐에 따라 쿼리 속도가 달라 접근법을 찾아 보았다. 1 . etl_ymd like '202301%'etl_ymd가 문자열로 분할되면 (예 :varchar 또는text ') 일반적으로 범위 또는 목록과 함께 작동하기 때문에 모든 파티션 풀스캔하여 속도가 느려질 수 있다.2 . etl _ymd between '20230101' and '20230131' etl_ymd가 이 조건은 파티션 가지 치기가 효율적으로 발생할 가능성이 높다. etl_ymd가 문자열로 저장되면, 명확한 범위를 정의하기 때문에 접근이 빠름. 하이브 파티셔닝을위한 모범 사례 고전성 열에서 분할 사용 (예 : '국가'대신 '날짜')✅ 너무 많은 파티션을 피한다. (작은 파티션 = 높은 메타 데이..

DB 2025.02.16