https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html



특정 Spark 데이터 처리 작업 부하에 대해 RDD 대 DataFrame 대 SparkSQL의 성능 비교


결론 :  데이터 프레임이 짱. 데이터셋은 진보중.


RDD가 DataFrames 및 SparkSQL보다 우수한 성능을 발휘했다고 나오는데 DataFrame 및 SparkSQL 테스트를 위해 RDD 에서 데이터 프레임으로 변환하는 과정때문이라고 Comment 로 지적. databricks 에서 SparkSQL csv reader 를 사용했다면 비교가 다를 것이라고 지적. 



아파치 문서마다 DataFrame에 RDD 보다 뛰어난 메모리와 쿼리 옵티마이져가 있기 때문에 데이터 프레임이 빠르다.

파일이 json 이라면 바로 데이터 프레임으로 읽을 수 있으면 RDD 보다 높은 성능을 보일 것...



http://www.agildata.com/apache-spark-rdd-vs-dataframe-vs-dataset/



RDD 주된 단점은 자바 직렬화 사용. (대부분 kryo 를 빠른 대안으로 사용)


데이터 프레임은 Spark 1.3 에서 Spark 성능과 확장성을 개선하고자 project Tungsten 이니셔티브 의 일부로 새로운 데이터프레임 API 를 도입했다.

데이터 프레임은 스키마 개념을 도입하여 자바 직렬화를 사용하는 것보다 spark의 스키마를 관리하고 노드간에 데이터를 전달하는 방식을 훨씬 더 효율적으로 허용한다.

Spark 가 바이너리 형식의 오프힙저장소로 데이터를 직렬화 한다음 오프 힙메모리에서 직접 많은 변환을 수행하여 개별 개체를 구성하는 것과 관련된 가비지 수집 비용을 피할 수 있으므로 단일 프로세스에서 계산을 수행할 때 장점이 있다.(데이터를 인코딩하기 위해 자바 직렬화를 사용할 필요가 없음)


자바로 DataFrame 또는 Dataset API 를 채택하기전에 스칼라로 전환하는 것을 고려해야 한다.

자바로 작성을 해야 하면 bean 을 완벽히 준수 해야 한다.

스칼라 + Spark 1.6.0 을 사용하여 코드를 제작하는 경우 DataFrame API 가 가장 안정적인 옵션이며 현재 가장 우수한 성능 제공

데이터를 직렬화 할때 Dataset API 는 JVM 표현(객체)와 Spark 의 내부 바이너리 형식 사이를 변환하는 인코더 개념을 가지고 있다. Spark 에는 바이트 코드를 생성하여 오프 힙 데이터와 상호 작용하고 전체 개체를 비 직렬화 할 필요없이 개별 특성에 대한 필요시 액세스를 제공한다는 점에서 매우 진보된 기본 제공 인코더가 있다.




databrics 사에서 DataFrame 소개

https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html


오늘, 우리는 더 많은 사람들이 큰 데이터 처리를 더욱 쉽게 할 수 있도록 고안된 새로운 DataFrame API를 발표하게 된 것을 기쁘게 생각합니다.




위의 차트는 실행중인 그룹 단위의 런타임 성능을 단일 시스템 ( 소스 코드 https://gist.github.com/rxin/c1592c133e4bccf515dd ) 에서 1,000 만 개의 정수 쌍으로 비교합니다 . Scala와 Python DataFrame 연산은 모두 JVM 바이트 코드로 컴파일되어 실행되기 때문에 두 언어간에 차이가 거의 없으며 바닐라 Python RDD 변형은 5 배, Scala RDD 변형은 2 배의 성능을 보입니다.


Spark 1.3 의 일부로 출시 

Spark 1.6 에서 안정화?

https://spark.apache.org/releases/spark-release-1-6-0.html

http://www.itworld.co.kr/news/97513

Spark 2.0 에서 많은 발전...

'오픈소스 > Spark' 카테고리의 다른 글

[Spark] SQL and DataFrame  (0) 2017.04.10
[Spark] Overview  (0) 2017.01.25

+ Recent posts