분류 전체보기 131

Kenesis - 기본 개념 정리

Kenesis란? 실시간 데이터 스트림을 수집, 처리, 분석해주는 서비스. 샤드의 수를 조절하여 스트림 받을 정도 수정 가능. Data Firehose 데이터 스트림 처리 및 전송 Data Analytics 스트리밍 데이터 분석 실시간 분석 생성 – 지표를 계산하고, Kinesis를 통해 Amazon S3 또는 Amazon Redshift로 전송할 수 있다. 실시간 대시보드 제공 – 집계 및 처리된 스트리밍 데이터 결과를 전송하여 실시간 대시보드를 구성할 수 있다. 실시간 지표 생성 – 실시간 모니터링, 알림, 경보에 사용할 사용자 지정 지표와 트리거를 생성할 수 있다. Video Streams 재생 및 분석을 위해 미디어 스트림을 캡처, 저장 및 처리 Data Analytics 스트리밍 데이터 분석 실..

Kinesis 2024.04.12

S3 - 기본 개념 정리

아마존에서 말하는 S3 Amazon S3는 업계 최고의 확장성, 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스 입니다. 어떤 규모 어떤 산업의 고객이든 이 서비스를 사용하여 웹 사이트, 모바일 어플리케이션, IoT 디바이스, 빅데이터 분석등 다양한 사용 사례에서 원하는 만큼 데이터를 저장, 보호 할 수 있다. Amazon S3는 사용하기 쉬운 관리 기능을 제공하므로 특정 비즈니스 조직 및 규정 준수 요구 사항에 따라 데이터를 조직화, 세부적인 액세스 제어를 구성할 수 있다. Amazon S3는 99.999999999%의 내구성을 제공하도록 설계되어 있으며 전 세계 기업의 수백만 어플리케이션을 위한 데이터를 저장한다. S3 살펴보기 객체 스토리지 서비스 AWS에서 제공하는 파일 저장 서비스..

AWS S3 2024.04.12

AWS S3 - 공부 기록

3가지 구성요소 1. Bucket - 1project당 1bucket 2. Folder - bucket안에 존재하는 묶음. 3. Object - Folder안에 존재하는 묶음, 실제 데이터가 담기는 객체 ex)파일 버킷이름 : 아마존 s3내에서 유니크한 이름. 리전 : 어느 나라에 있는 s3서버를 사용할 지 ※ folder의 이름을 바꾸기는 비활성화 되어있다. 변경이 필요할 시 원하는 폴더명을 만들고 기존 폴더명 삭제. (파일명은 변경가능) ※ 파일 공유 파일 권한 설정 -> 퍼블릭 액세스 > 권한 부여 해당 파일 고유 url로 접속 ※ 스토리지 클래스 요금 유형 요금유형++ Amazon Glacier (빙하) 데이터 축적용으로만 사용한다면 가장 가성비가 좋은 요금. but 데이터 추출엔 시간이 오래걸림.

AWS S3 2024.04.12

MVCC

대부분의 DBMS에서 동시성을 위해 제공하는 MVCC(Multi-Version Concurrency Control) 기능은 동시에 여러 트랜잭션이 수행되는 환경에서 각 트랜잭션에게 쿼리 수행 시점의 데이터를 제공하여 읽기 일관성을 보장하고 Read/Write 간의 충돌 및 lock을 방지하여 동시성을 높일 수 있는 기능으로, 모든 MVCC의 기본 원리는 트랜잭션이 시작된 시점의 Transaction ID와 같거나 작은 Transacion ID를 가지는 데이터를 읽는 것. 출처 : https://techblog.woowahan.com/9478/

DB/Postgresql 2024.04.11

postgresql - vacuum

vacuum의 주요 4가지 작업 임계치 이상으로 발생한 Dead Tuple을 정리하여 FSM (Free Space Map) 으로 반환 Transaction ID Wraparound 방지 통계정보 갱신 visibility map을 갱신하여 index scan 성능 향상 출처 : https://techblog.woowahan.com/9478/ [실무에서 사용했던 경험(과거 데이터 삭제)] 파티션 테이블의 경우 drop partition으로 원하는 데이터를 삭제하면 즉시 db용량이 확보되지만, 파티션 테이블이 아닌 경우는 delete로 데이터를 삭제해도 용량 확보가 바로 되지 않는다. why? delete를 하더라도 기존에 insert됐던 데이터 볼륨을 그대로 유지하게 된다. 이를 해결하기 위한 명령어가 va..

DB/Postgresql 2024.04.11

Airflow - bash dag샘플

from airflow.models.dag import DAG import datetime import pendulum from airflow.operators.bash import BashOperator with DAG( dag_id="dags_bash_operator", # web ui에 보여지는 이름, py파일명과는 무관. schedule="0 0 * * *", #start_date=pendulum.datetime(2021, 1, 1, tz="UTC"), start_date=pendulum.datetime(2021, 1, 1, tz="Asia/Seoul"), catchup=False, # True 일 경우 start_date인 2021.1.1 ~ 현재 까지 전부 실행됨. 기본적으로 False dag..

Airflow 2024.04.11