Spark의 데이터 구조RDD (Resillient Distributed Data)DataframeDatasetDataFrame의 등장DataFrame은 테이블과 유사한 행,열로 구성된 데이터 분산 컬렉션이다.(관계형 데이터 베이스 구조) RDD의 성능이슈- RDD는 메모리나 디스크에 저장 공간이 충분하지 않으면 동작하지 않는다.- RDD는 스키마(DB구조) 개념이 없다.(구조화된 데이터와 비구조화 데이터를 함께 저장하여 효율성↓)- RDD는 기본적으로 직렬화와 Garbage Collection(사용하지 않는 객체를 자동으로 메모리에서 해제)을 사용한다.이는 메모리 오버헤드를 증가시킴.- RDD는 별도의 내장된 최적화(Optimize) 엔진이 없다. 사용자가 각 RDD를 최적화 해야한다. 이러한 RDD..