분류 전체보기 131

Spark 란?

Spark란 빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼이다. 하둡과의 차이점?하둡은 HDFS(분산형 파일 시스템)를 기반으로 만들어져있고, 데이터 처리시 '맵리듀스'라 불리는 대형 데이터셋 병렬 처리 방식에 의해 작동한다.HDFS는 Disk I/O를 기반으로 동작. 스파크는 인메모리상에서 동작한다.메모리 이슈만 없다면반복적인 처리, 배치성 데이터, 실시간 스트리밍 처리 등에서 속도가 훨씬 빠르다. 하둡과 스파크를 연동하여 처리하는게 가능한데,하둡의 Yarn(하둡 클러스터의 리소스(cpu,mem)를 관리하고 작업을 스케줄링하는 역할)위에스파크를 연동하여 구축하는 방법이 일반적이다. 스파크에서 사용하는 언어?일반적으로 Scala, Java, Python 사용하며 다양한 언어를 지원한다.SQL은 Spar..

Spark 2024.05.14

Hadoop eco system

업무에서 다뤄본 SW위주로 정리. 출처 : https://1004jonghee.tistory.com/m/entry/1004jonghee-%ED%95%98%EB%91%A1%EC%97%90%EC%BD%94%EC%8B%9C%EC%8A%A4%ED%85%9CHadoop-Eco-System-Ver-10?category=419383출처 : 시작하세요! 하둡 프로그래밍(위키북스)Zookeeper분산 환경에서 서버들간에 상호 조정이 필요한 다양한 서비스를 제공하는 시스템.하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리하게 해줌하나의 서버에서 처리한 결과를 다른 서버들과도 동기화 -> 데이터 안정성 보장운영(active) 서버에서 문제가 발생해 서비스를 제공할 수 없는 경우, 다른 대기중인 ..

Hadoop 2024.05.13

Kafka - 강의글

업무에서 경험했던 Kafka에 대해 남는 시간 공부해 보려한다.패스트 캠퍼스에서 결제했던 강의를 시간 될 때마다 들을 예정이며 블로그에 기록해 두어야겠다.  패스트 캠퍼스 강의 : Kafka 완전 정복 : 클러스터 구축부터 MSA 환경 활용까지  강의전 기본 개념 참고용 출처:https://velog.io/@holicme7/Apache-Kafka-%EC%B9%B4%ED%94%84%EC%B9%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80

Kafka 2024.05.07

Undo, Redo segment

Redo는 데이터베이스의 변경 사항을 로깅하는 부분 Undo는 각 트랜잭션이 가한 변경 사항을 로깅하는 부분 1. 일반 세그먼트와 동일하다. Extend 단위로 확장된다. 버퍼 캐시에 데이터를 캐싱한다. 변경사항을 Redo 로깅한다. 2. 트랜잭션 별로 Undo 세그먼트가 할당된다. 변경 사항이 Undo 레코드 단위로 기록된다. 복수 트랜잭션이 한 Undo 세그먼트를 공유할 수 있다. (트랜잭션 : Undo 세그먼트) = (N : 1) 출처 : https://velog.io/@yooha9621/1-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%AA%A8%EB%8D%B8%EB%A7%81%EC%9D%98-%EC%9D%B4%ED%95%B45.-Undo

DB/Postgresql 2024.04.14

Shell scripts - 클러스터링 작업 시 사용한 기술 기록

redis -> postgresql로 적재하는 python프로그램 이중화 as-is실시간 데이터 적재 프로그램 1번 서버에서 py프로그램 crontab 1분마다 실행1서버 shutdown시 db적재불가.to-be2번 서버의 python환경을 1서버와 동일하게 맞춤2번 서버에서 1번서버의 heartbeat상태를 체크.(30초마다 1번서버의 heartbeat가 로그를 남김)1번 서버의 heartbeat상태 체크 후 shutdown상태일 시 ping명령어의 receive신호와 python프로그램이 구동중인지(ssh명령어) 체크1번 서버 이슈 해소 시 2번 서버 python프로그램 자동 종료 ※ 테스트1번, 2번 서버가 동시에 프로그램이 구동되는 순간이 있는가? 있다면 중복 적재에 대한 해결법은?=> 구동되는 ..

Linux 2024.04.13

BI, Quicksight - 기본개념

BI(Business Intelligence 비지니스 인텔리전스) - 데이터 수집, 분석, 시각화, 최종적으로 비지니스 인사이트를 얻는 일련의 과정을 구현할 수 있는 툴 Quicksight 서버리스 서비스기 때문에 인프라에 대한 설치, 준비가 필요 없다. 데이터, 사용자 증가 시 서버를 확장하여 성능에 대한 이슈↓ 내장 모델 및 기존 고객의 ML알고리즘을 사용할 수 있다. 운영, 라이센스 비용이 필요없다. -> 사용한만큼, 정액제 Quicksight Q - 사람의 언어로 질의를 날려도 시각화 자료를 생성함 spice : 인메모리 데이터 엔진 로드된 데이터에서 열 단위로 사용자 권한을 부여 할 수 있다. P.S. 약 37분 정도되는 영상에서 다양한 기능들에 대한 설명과 실제 데이터로 툴을 사용해 분석까지 ..

BI 2024.04.12

Kubernetes란?

전통적인 배포 물리서버 한 물리서버에서 여러 AP의 리소스의 한계 확장 힘듬 높은 유지 비용 가상화 배포(VM) 단일 서버의 cpu에서 여러 가상 시스템 실행 가능 물리서버보다 리소스 활용 효율적 컨테이너 개발 VM과 유사하지만 격리 속성을 완화하여 AP간 운영체제 공유 컨테이너 개발의 장점 기민한 애플리케이션 생성과 배포: VM 이미지를 사용하는 것에 비해 컨테이너 이미지 생성이 보다 쉽고 효율적이다. 지속적인 개발, 통합 및 배포: 안정적이고 주기적으로 컨테이너 이미지를 빌드해서 배포할 수 있고 (이미지의 불변성 덕에) 빠르고 효율적으로 롤백할 수 있다. 개발과 운영의 관심사 분리: 배포 시점이 아닌 빌드/릴리스 시점에 애플리케이션 컨테이너 이미지를 만들기 때문에, 애플리케이션이 인프라스트럭처에서 분..

Kubernetes 2024.04.12

EMR 이란?

Amazon EMR(이전의 Amazon Elastic MapReduce)은 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 간소화하여 방대한 양의 데이터를 처리하고 분석하는 관리형 클러스터 플랫폼입니다. 이러한 프레임워크와 함께 관련 오픈 소스 프로젝트를 사용하여 분석용 데이터와 비즈니스 인텔리전스 워크로드를 처리할 수 있습니다. 또한 Amazon EMR을 사용하여 Amazon Simple Storage Service(Amazon S3) 및 Amazon DynamoDB와 같은 기타 AWS 데이터 스토어 및 데이터베이스에서 많은 양의 데이터를 양방향으로 이동하고 변환할 수 있습니다. 출처: https://docs.aws.amazon.com/ko_kr/emr..

EMR 2024.04.12

Kinesis vs Kafka

2022년에 진행했던 프로젝트에서 kafka를 썼었는데 담당이 아니라 자주 접해보지 못한게 너무 아쉽다.. Kinesis vs Kafka Concepts Kafka Kinesis 스토리지 파티션 샤드 보관 기간 설정 가능 1일 ~ 7일 (기본값 1일) 데이터 크기 설정 가능(기본값 1 MB) 최대 1MB 파티션 / 샤드 생성 제한 제한 없음 200개 가능(ap-northeast 기준) 복제 클러스터 안에서 복제 3개 지역에 자동 복제 메세지 전달 횟수 Kafka: 적어도 한 번 전송, Kafka Stremas: 정확히 1회 전송 적어도 1회 전송 의존성 Zookepper DynamoDB 관리 많은 관리 필요 AWS에서 자동 관리 출처: https://data-engineer-tech.tistory.com..

Kinesis 2024.04.12