ETC 9

project - Pipe Line 구성1

Docker, k3s, airflow, postgresql 로 수집, 가공, 적재, power bi시각화 까지 진행할 예정.1. Docker 설치 sudo apt update sudo apt install -y docker.io sudo usermod -aG docker $USER newgrp docker  # 또는 재로그인 docker version 2. kubectl 설치 (Kubernetes CLI) sudo apt update sudo apt install -y apt-transport-https ca-certificates curl sudo curl -fsSL https://packages.cloud.google.com/apt/doc/apt-key.gpg | sudo apt-key add - e..

ETC 2025.04.05

Hadoop - Webhdfs

Intro지금까지 hdfs를 사용할때 같은 클러스터로 연결된 서버에서 -get or -put등의 hdfs명령어를 사용하다가 이번 프로젝트에서 네트워크상 연결된 상태의 서버에서 webhdfs 명령어를 사용해보면서 의문이들어 찾아보게 되었다. WebHDFSWebHDFS는 HDFS 클라이언트가 Hadoop 바이너리를 설치하지 않더라도, 다양한 언어에서 HDFS에 접근할 수 있도록 REST 형태로 개발된 API입니다. Hortonworks에서 개발했으며, Hadoop 에코시스템 외부에서 동작하는 애플리케이션이 HDFS에 무언가 생성하고 쓰고, 변경하는 작업을 허용해줍니다.WebHDFS는 REST를 기반으로 하기 때문에 GET, PUT, POST, DELETE 등의 HTTP 메서드를 활용합니다. 예를 들어, op..

ETC 2025.01.05

압축 알고리즘 등

특정 데이터를 csv로 추출하여 압축하는 업무가 있었는데정렬 작업을 한 후 zip파일 용량을 비교해 보니 큰 차이를 발견했다.  정렬 전 : csv용량 120gb -> zip용량 28gb정렬 후 : csv용량 120gb -> zip용량 13gb 왜 그런걸까?정렬을 통해 데이터의 규칙성과 중복성이 생겨 압축 알고리즘이 데이터를 더 효율적으로 압축할 수 있기 때문이다.압축 알고리즘은 반복적인 패턴을 찾아 인코딩하는 방식특정 열을 기준으로 정렬하여 비슷한 값이나 행이 서로 가까이 위치하게 되며, 이런 데이터는 런렝스 인코딩이나 사전 기반 압축(zip,gzip) 같은 기법으로 더 효율적으로 압축.엔트로피 감소(데이터의 무작위성 감소)리눅스의 zip명령어는 어떤 알고리즘일까?Deflate알고리즘. (LZ77 압축..

ETC 2024.12.28

OpenSearch

OpenSearch란?오픈 소스 검색 및 분석 제품으로 확장성이 높고 실시간 AP모니터링, 로그 분석 및 웹 사이트 검색 등의 다양한 기능 제공.k-nearest neighbors(KNN) 검색, SQL, Anomaly Detection, Machine Learning Commons, Trace Analytics, 전체 텍스트 검색 등 다수의 검색 및 분석 기능을 지원Elastic Search, kibana 7.1 에서 fork 되어 등장.기존 ES를 대체해서 나왔기 때문에 다양한 스택과 조합 가능.검색 속도는 index data를 여러 노드에 분산 저장하여 매핑하고 샤드를 클러스터 전체에 분산저장하여 검색속도↑ 인덱스는 여러개의 샤드로 분할되어 데이터를 저장하고 관리한다.각 데이터 노드별 Primary..

ETC 2024.12.22

Hive - TEZ

TEZ ? (Hive 2.0이상 버전은 MR보단 TEZ사용)YARN기반의 데이터 처리를 위한 프레임워크.방향성 비순환 그래프(DAG)를 사용해서 Dataflow Gragh 정의한다는 점이 특징.이러한 특징 덕분에 SQL실행 전에 작업량, 리소스에 대해 최적화된 실행 계획을 설계할 수 있다.실행중에 동적으로 그래프를 변경하며 실행 계획을 최적화하는데 도움을 줄 수 있습니다.TEZ는 MapReduce동작 방식과 동일하게 Yarn을 통해 container를 할당받는데 이러한 container를 재사용.재사용함으로써 container 리소스를 재할당 받는 메모리의 오버헤드를 줄일 수 있다. MapReduce와의 차이MR은 Map단계에서 데이터를 읽고 중간 산출물을 생성하고,Reduce 단계에서 중간 산출물을 다..

ETC 2024.07.23