업무에서 다뤄본 SW위주로 정리.
출처 : 시작하세요! 하둡 프로그래밍(위키북스)
Zookeeper
분산 환경에서 서버들간에 상호 조정이 필요한 다양한 서비스를 제공하는 시스템.
- 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리하게 해줌
- 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화 -> 데이터 안정성 보장
- 운영(active) 서버에서 문제가 발생해 서비스를 제공할 수 없는 경우, 다른 대기중인 서버를 운영 서버로 바꿔 서비스가 중지없이 제공되게 해줌
- 분산 환경을 구성하는 서버들의 환경설정을 통합적으로 관리
CLI 명령어
/home/ubuntu/app/zookeeper/bin/zkServer.sh status
/home/ubuntu/app/zookeeper/bin/zkServer.sh start
/home/ubuntu/app/zookeeper/bin/zkServer.sh stop
Hive
하둡 기반의 데이터웨어하우징용 솔루션
페이스북에서 만든 오픈소스로, SQL과 매우 유사한 HiveQL이라는 쿼리를 제공한다. 그래서 자바를 잘 모르는 데이터 분석가들도 쉽게 하둡 데이터를 분석할 수 있게 도와준다.
HiveQL은 내부적으로 MapReduce 잡으로 변환되어 실행된다.
Sqoop
대용량 데이터 전송 솔루션.
Sqoop은 HDFS, RDBMS, DW, NoSQL등 다양한 저장소에 대용량 데이터를 신속하게 전송할 수 있는 방법을 제공한다.
Oracle, MS-SQL, DB2 등과 같은 상용 RDBMS와 MySQL, PostgresSQL과 같은 오픈소스 RDBMS등을 지원한다.
Yarn
YARN은 Yet Another Resource Negotiator의 줄임말로 번역하면 “(또 다른) 리소스 협상가” 라는 뜻이다. 즉, CPU, memory와 같은 하둡 클러스터 리소스를 관리하고 스케쥴링하는 hadoop의 컴포넌트다.
요약
- YARN은 클러스터 리소스를 관리하는 매니저다.
- 하둡2가 되면서 기존 맵리듀스를 YARN이 대체하며 등장했다.
- YARN으로 대체되면서 ‘클러스터 자원 관리’와 ‘잡 스케쥴링’이 별도의 데몬으로 분리되고 다양한 어플리케이션을 수용할 수 있게 되었다.
- 글로벌 스케쥴러인 리소스 매니저가 있고, 하나의 어플리케이션을 관리하는 어플리케이션 마스터가 있다.
- 노드 매니저는 어플리케이션 마스터의 요청을 받아 컨테이너당 어플리케이션을 실행한다.
명령어
yarn application -list
yarn application -kill ApplicationID
'Hadoop' 카테고리의 다른 글
Hadoop - HDFS 페더레이션 (0) | 2024.07.04 |
---|---|
Hadoop - 다수의 작은 파일 vs 하나의 큰 파일 (1) | 2024.07.04 |
Hadoop - HDFS, 네임노드, 데이터 노드, NFS (0) | 2024.05.21 |
Hive , Impala (1) | 2024.05.17 |
hdfs 휴지통 (1) | 2024.04.11 |