'DB/BigData'에 해당되는 글 1건

  1. 2018.05.16 [BigData] 구성 요소 간략 설명
2018. 5. 16. 15:32

빅데이터의 4가지 과정

1. 빅데이터 수집(획득) : Acquire - HDFS, NoSQL HBase, Casandra, MongoDB

2. 빅데이터 구조화 : Organize - Hadoop(MapReduce), Datamining-Mahout, S4, Storm

3. 빅데이터 분석 : Analyze - Data Warehouse, Graph Analysis(Pregel, GoldenORB)

4. 빅데이터를 토대로 결정 : Decide - Analytic Applications


NoSQL : NoSQL은 일반적으로 "Not only SQL"을 의미하며, 비구조적인 데이터를 저장하기 위한 분산 저장 시스템

HBase : HBase는 구글이 2006년에 소개했던 BigTable의 아파치 재단 오픈소스 구현체이다, NoSQL이며, 분산 시스템이 가지면 좋은 속성 세가지(일관성, 가용성, 분산 감내성) 중 일관성과 분산 감내성을 가지는 NoSQL이다.

Cassandra : Cassandra는 NoSQL이며, 가용성, 분산 감내성을 위해 설계 및 개발되었다, 초기에 Facebook에서 사용, 현재 아파치 오픈소스이다.

MongoDB : MongDB는 NoSQL이며, HBase와 유사하게 일관성과 분산 감내성을 위해 설계 및 개발되었다. JSON, XML 형태의 구조적 문서를 저장하는 용도로 사용한다.

Datamining-Mahout : 아파치 재단에서 지원하는 프로젝트, 하둡 위에서 확장성 있는 기계 학습과 데이터 마이닝 작업을 수행 할 수 있도록 지원한다.

S4 : S4는 분산 스트림 처리를 위한 플랫폼. 연속적으로 들어오는 스트림 데이터 처리에 대해서 쉽게 어플리케이션을 제작할 수 있도록 도움을 준다. 야후가 초기에 사용

Storm : Storm은 분산 스트림 처리를 위한 플랫폼. 트위터가 초기에 사용

Data Warehouse : 데이터의 리포팅 또는 분석을 위한 데이터베이스 시스템, 주로 기업의 수많은 마케팅, 영업 분야의 데이터 저장

Pregel : Pregel은 구글에서 개발한 분산 그래프 데이터 처리 프레임워크이다.

goldenORB : GoldenORB는 Pregel의 오픈소스 구현체 이다.


[참조 : 대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL]

Posted by 까망후니