0%

20200616

Apache Spark와 Hadoop 공부 시작


image

Apache Spark

  • Apache Spark가 scala로 되어있어서 api가 scala로 제일 먼저 나옴
  • Apache Spark는 빅데이터를 처리하기 위한 sw platform
    • 빅데이터란?
      • 한 컴퓨터로 처리할 수 없는 양의 데이터
  • Apache Spark는 기본적으로 여러 대의 서버를 활용
  • Apache Spark는 여러대의 서버를 한대에서 실행하는 것처럼 작업할 수 있도록 해줌
  • Apahce Spark의 엔진이 Hash방법으로 알아서 여러대로 분산을 시켜줌

image



image

Hadoop

  • HDFS (Hadoop Distributed File System) - Google File System 논문을 base로 open-source로 만든 file system
  • MR
    • MapReduce - Hadoop이 나온지 얼마되지 않았을 때는 Map과 Reduce만 가능
    • 지금은 Hadoop내에서 Spark연산이 가능
  • YARN - Yet Another Resource Negotiator : Memory와 CPU를 위해서 싸우는 것들의 협상자
    • ‘Mem 얼마, CPU 얼마가 필요해’ says App –> ‘Server x, y를 가서 쓰렴’ says YARN
    • 더 이상 할당해줄 수 있는 memory와 cpu가 없으면, pending 시킴
  • 내부적으로 어떤 식으로 data 작업이 실행이 되었는지 시각화를 해줌
  • default로 3개의 복사본을 자동으로 만들어줌으로 데이터 손실을 막아줌

image


image


엄청 어려워보이지만 잘 지내보자 :)