반응형 IT/Big Data4 스파크(Spark) 최적화하기 스파크(Spark)란 무엇인가? 아파치 스파크(Apache Spark)는 클러스터 환경 내에서 병렬 데이터 처리를 위해 설계된 일련의 라이브러리와 함께하는 통합 컴퓨팅 엔진입니다. 병렬 처리를 위한 가장 활발하게 개발되는 오픈소스 엔진으로서, 스파크는 빅 데이터 작업에 참여하는 개발자들과 데이터 과학자들 사이에서 표준 도구로 빠르게 부상하고 있습니다. 스파크는 파이썬, 자바, 스칼라, R과 같은 인기 있는 프로그래밍 언어와 호환되며, SQL부터 스트리밍, 머신러닝에 이르기까지 다양한 기능을 다루는 광범위한 라이브러리를 제공합니다. 스파크는 다양하게 활용될 수 있으며, 단일 노트북에서부터 수천 대의 서버로 구성된 광대한 클러스터에 이르기까지 다양한 환경에서 운영될 수 있습니다. 이러한 기능을 활용함으로써 .. 2024. 3. 21. HDFS 하둡 분산 파일 시스템 소개HDFS(Hadoop Distributed File System)는 범용 하드웨어에서 분산 처리 파일 시스템을 운용하기 위한 기술이다. 기존의 존재하던 분산처리 파일 시스템들과 기술적으로 거의 동일하다. 특징은 특정 하드웨어를 의한 시스템이 아닌 범용 시스템에서 동작하도록 설계되었다는 것이다. 이러한 기능은 분산 처리를 위한 하둡의 기본 중 하나이다. 네임 노드와 데이터 노드HDFS는 마스터와 슬레이브 아키텍쳐를 가지고 있다. HDFS는 하나의 네임노드와 여러 개의 데이터노드로 구성된다. 네임 노드는 마스터 서버로서 파일 시스템의 네임 스페이스를 관리하고 클라이언트의 권한 등을 체크에 데이터의 접근을 관리한다. 데이터 노드는 네임 노드의 명령에 따라 이 블록을을 생성하거나 삭제, 복제하는 기능을 수행.. 2018. 9. 24. 하둡(Hadoop) 이란? 하둡(Hadoop)이란? 아파치 하둡은 대량의 데이터를 처리하기 위한 분산 처리 프레임워크이다. 하둡이라는 이름은 개발자인 더크 커팅의 아이가 가지고 놀던 코끼리 인형의 이름이었다. 그래서 하둡의 로고 역시 코끼리 모양이다. 아파치 하둡은 여러 패키지로 구성되어 있다. 대표적으로 HDFS(하둡 파일 시스템), MapReduce 등이 있다. 또한 Spark와 같은 하둡 프레임워크에 접근을 도와주는 프로젝트도 있다. Spark는 이전에는 하둡의 하위 프로젝트였으나 현재는 독립된 프로젝트이다. 이에 대해서는 나중에 따로 다뤄보도록 하겠다. 하둡 프로젝트에 포함되어 있는 기본 모듈은 다음과 같다.Hadoop Common: 하둡의 다른 프로젝트들을 지원하기 위한 공통 유틸리티Hadoop Distributed Fi.. 2018. 4. 16. 빅데이터란? Big Data란? 요즘 빅 데이터라는 단어가 우리 주변에서 많이 들리고 있다. 이 단어는 뉴스에서도 많이 나오고 요즘 참 많이 접하게 되는 단어이다. 정확히 빅 데이터란 무엇인지, 그리고 왜 이리 주목되고 있는지 알아보자. 프로그램에서 데이터랑 상당히 중요한 요소이다. 이 데이터들을 사용자가 원하는 형태로 가공하여 보여주는 것이 일반적인 프로그램이다. 이러한 데이터들을 잘 관리하기 위해 데이터 베이스에 저장하고 읽어들여 원하는 형태로 가공을 한다. 하지만 대량의 데이터를 처리하거나 고정된 형태의 데이터가 아닌 정해지지 않은 포맷의 데이터들을 분석해서 원하는 정보를 추출하는 기술들이 요구 되었다. 그래서 나온 기술이 빅 데이터이다. IBM에서는 데이터의 양(Volumn), 데이터 입출력 속도(Veloci.. 2018. 2. 25. 이전 1 다음 반응형