반응형
하둡(Hadoop)이란?
아파치 하둡은 대량의 데이터를 처리하기 위한 분산 처리 프레임워크이다. 하둡이라는 이름은 개발자인 더크 커팅의 아이가 가지고 놀던 코끼리 인형의 이름이었다. 그래서 하둡의 로고 역시 코끼리 모양이다.
아파치 하둡은 여러 패키지로 구성되어 있다. 대표적으로 HDFS(하둡 파일 시스템), MapReduce 등이 있다. 또한 Spark와 같은 하둡 프레임워크에 접근을 도와주는 프로젝트도 있다. Spark는 이전에는 하둡의 하위 프로젝트였으나 현재는 독립된 프로젝트이다. 이에 대해서는 나중에 따로 다뤄보도록 하겠다.
하둡 프로젝트에 포함되어 있는 기본 모듈은 다음과 같다.
Hadoop Common: 하둡의 다른 프로젝트들을 지원하기 위한 공통 유틸리티
Hadoop Distributed File System(HDFS): 하둡 분산 처리 파일 시스템
Hadoop YARN: 하둡 프레임워크의 잡 스케쥴링이나 리소스 관리를 위한 모듈
Hadoop MapReduce: 대용량 데이터를 병렬 처리 하기 위한 YARN기반의 시스템
또한 하둡에 포함되어 있는 기타 더 다양한 프로젝트들은 다음 링크에서 확인이 가능하다.
이런 여러 프로젝트들을 모아 빅데이터를 위한 통합 환경을 구성하는데 이는 하둡 에코 시스템이라고 불린다.
Hadoop Ecosystem (source: quantfarm.com)
각 프로젝트들에 대한 설명은 또 길어지므로 따로 작성하도록 하겠다.
반응형
'IT > Big Data' 카테고리의 다른 글
스파크(Spark) 최적화하기 (0) | 2024.03.21 |
---|---|
HDFS 하둡 분산 파일 시스템 (0) | 2018.09.24 |
빅데이터란? (0) | 2018.02.25 |