Apache Spark와 Hadoop 공부 시작

Apache Spark

HDFS (Hadoop Distributed File System) - Google File System 논문을 base로 open-source로 만든 file system
MR
- MapReduce - Hadoop이 나온지 얼마되지 않았을 때는 Map과 Reduce만 가능
- 지금은 Hadoop내에서 Spark연산이 가능
YARN - Yet Another Resource Negotiator : Memory와 CPU를 위해서 싸우는 것들의 협상자
- ‘Mem 얼마, CPU 얼마가 필요해’ says App –> ‘Server x, y를 가서 쓰렴’ says YARN
- 더 이상 할당해줄 수 있는 memory와 cpu가 없으면, pending 시킴
내부적으로 어떤 식으로 data 작업이 실행이 되었는지 시각화를 해줌
default로 3개의 복사본을 자동으로 만들어줌으로 데이터 손실을 막아줌

엄청 어려워보이지만 잘 지내보자 :)