빅데이터의 4가지 과정
1. 빅데이터 수집(획득) : Acquire - HDFS, NoSQL HBase, Casandra, MongoDB
2. 빅데이터 구조화 : Organize - Hadoop(MapReduce), Datamining-Mahout, S4, Storm
3. 빅데이터 분석 : Analyze - Data Warehouse, Graph Analysis(Pregel, GoldenORB)
4. 빅데이터를 토대로 결정 : Decide - Analytic Applications
NoSQL : NoSQL은 일반적으로 "Not only SQL"을 의미하며, 비구조적인 데이터를 저장하기 위한 분산 저장 시스템
HBase : HBase는 구글이 2006년에 소개했던 BigTable의 아파치 재단 오픈소스 구현체이다, NoSQL이며, 분산 시스템이 가지면 좋은 속성 세가지(일관성, 가용성, 분산 감내성) 중 일관성과 분산 감내성을 가지는 NoSQL이다.
Cassandra : Cassandra는 NoSQL이며, 가용성, 분산 감내성을 위해 설계 및 개발되었다, 초기에 Facebook에서 사용, 현재 아파치 오픈소스이다.
MongoDB : MongDB는 NoSQL이며, HBase와 유사하게 일관성과 분산 감내성을 위해 설계 및 개발되었다. JSON, XML 형태의 구조적 문서를 저장하는 용도로 사용한다.
Datamining-Mahout : 아파치 재단에서 지원하는 프로젝트, 하둡 위에서 확장성 있는 기계 학습과 데이터 마이닝 작업을 수행 할 수 있도록 지원한다.
S4 : S4는 분산 스트림 처리를 위한 플랫폼. 연속적으로 들어오는 스트림 데이터 처리에 대해서 쉽게 어플리케이션을 제작할 수 있도록 도움을 준다. 야후가 초기에 사용
Storm : Storm은 분산 스트림 처리를 위한 플랫폼. 트위터가 초기에 사용
Data Warehouse : 데이터의 리포팅 또는 분석을 위한 데이터베이스 시스템, 주로 기업의 수많은 마케팅, 영업 분야의 데이터 저장
Pregel : Pregel은 구글에서 개발한 분산 그래프 데이터 처리 프레임워크이다.
goldenORB : GoldenORB는 Pregel의 오픈소스 구현체 이다.
[참조 : 대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL]