1. 빅데이터 정의
데이터 규모 측면
- 현재의 방식으로 저장, 관리, 분석할 수 있는 범위를 초과하는 데이터
업무 프로세스 측면
- 저렴한 비용으로 대규모 데이터의 초고속 수집, 발굴, 융합, 분석과 가치 추출을 지원할 수 있도록 고안된 차세대 기술
빅데이터는 대용량 데이터가 아닌 다차원적으로 엄청난 데이터
- 크기가 큰 것만이 아니라 관리와 분석의 종합적인 어려움 및 복잡성을 의미
일반적으로 3V = Volume + Variety + Velocity 측면으로 빅데이터를 정의
데이터 처리를 위해 필요한 인력/조직 및 기술까지 포함하는 넓은 의미로도 사용
3. 빅데이터 S/W
3.1 빅데이터 수집 S/W
비정형 데이터 수집 도구
- Nutch : 오픈소스 웹 검색 소프트웨어로 웹크롤로의 기능을 제공
- Flume : 대량의 로그 데이터를 효과적으로 수집하거나 트위터 API를 호출
- 검색API : 포털(네이버/다음/구글)의 검색 API를 이용 특정 주제의 데이터 수집
정형 데이터 수집 도구
- Scoop: RDBMS와 HDFS 파일시스템에서 데이터를 주고 받는 기능 제공
- DB Connector : 대상 DB의 연결 모듈을 개발하여 DB의 데이터를 수집
3.2 빅데이터 구축 S/W
빅데이터 처리 플랫폼
- Hadoop : 대량의 데이터를 처리할 수 있는 클러스터 환경에서 동작하는 분산응용 프로그램을 지원하는 프레임워크 기능을 제공
빅데이터 저장소
- HDFS : 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고 수많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
- NoSQL : 빅데이터의 효과적 저장 및 관리에 필요한 기술, 카산드라(Cassandra DB), 몽고DB 등이 있음
- Mysql : 효율적인 빅데이터 분석을 위하여 정규화된 데이터를 저장하는 RDBMS
3.3 빅데이터 분석 및 활용 S/W
빅데이터 분석 도구
- Pro-SINDI : 대량의 데이터에서 단일 핵심어 뿐만 아니라 5개의 복합명사 까지 추출, 연관관계 추출도 가능한 분석 프로젝트에 최적화된 상용 소프트웨어 워드 클라우드, 파이/바/라인 차트 제공 및 온톨로지 연계 가능
- Mahout : 대량의 데이터에서 용어(핵심어) 및 관계 추출과 분류 및 필터링에 사용되어지는 기계학습 기반의 알고리즘 및 데이터 분석용 도구
- R : 빅데이터의 통계적 의미를 찾고 그 패턴을 분석하기 위해서 강력한 통계 기능 제공
- 출처 : http://www.frotoma.com/sub2_9.do