Amazon EMR(이전의 Amazon Elastic MapReduce)은 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 간소화하여 방대한 양의 데이터를 처리하고 분석하는 관리형 클러스터 플랫폼입니다. 이러한 프레임워크와 함께 관련 오픈 소스 프로젝트를 사용하여 분석용 데이터와 비즈니스 인텔리전스 워크로드를 처리할 수 있습니다. 또한 Amazon EMR을 사용하여 Amazon Simple Storage Service(Amazon S3) 및 Amazon DynamoDB와 같은 기타 AWS 데이터 스토어 및 데이터베이스에서 많은 양의 데이터를 양방향으로 이동하고 변환할 수 있습니다.
출처: https://docs.aws.amazon.com/ko_kr/emr/latest/ManagementGuide/emr-what-is-emr.html
Amazon EMR(EMR은 Elastic MapReduce)은 AWS에서 제공하는 완전관리형 분산형 데이터 처리 서비스이다.
Amazon EMR의 주요 특징과 기능은 다음과 같습니다:
- 다양한 데이터 처리 엔진: EMR은 Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Apache Flink, Presto 등 다양한 데이터 처리 엔진(프레임워크 등)을 지원합니다. 이러한 엔진들은 대용량 데이터를 분산 처리하고 분석하는 데 사용됩니다.
- 클러스터 관리 및 자동 확장: EMR은 클러스터를 쉽게 생성하고 관리할 수 있습니다. 필요에 따라 클러스터 크기를 자동으로 확장하거나 축소하여 작업 부하에 대응할 수 있습니다.
- 보안: EMR은 VPC(Virtual Private Cloud) 내에서 실행되며, 데이터 암호화 및 IAM(Identity and Access Management)과 같은 AWS 보안 기능을 활용하여 데이터 보호를 강화합니다.
- 스크립트 및 애플리케이션 실행: EMR은 사용자 지정 스크립트나 애플리케이션을 실행할 수 있는 환경을 제공합니다. 이를 통해 사용자는 특정한 데이터 처리 작업을 구현하고 실행할 수 있습니다.
- 다양한 스토리지 옵션: EMR은 데이터를 저장하고 처리하는데 다양한 스토리지 옵션을 제공합니다. Amazon S3, HDFS(Hadoop Distributed File System), Amazon DynamoDB 등과 같은 다양한 데이터 저장소를 사용할 수 있습니다.
- 커스텀 AMI 지원: EMR은 사용자 정의 AMI(Amazon Machine Image)를 사용하여 클러스터를 시작할 수 있습니다. 이를 통해 특정한 소프트웨어 버전이나 환경 설정을 사용할 수 있습니다.
- 로그 및 모니터링: EMR은 클러스터 실행 로그 및 모니터링 정보를 쉽게 검색하고 분석할 수 있는 기능을 제공합니다.
출처 : https://velog.io/@leesh0567/Amazon-EMR%EC%9D%B4%EB%9E%80