Big Data Analysis :: PETABYTE

Big Data Analysis

Petabyte 2018. 8. 9. 22:43

2018. 8. 9. 22:43

1. 빅데이터 정의

데이터 규모 측면

현재의 방식으로 저장, 관리, 분석할 수 있는 범위를 초과하는 데이터

업무 프로세스 측면

저렴한 비용으로 대규모 데이터의 초고속 수집, 발굴, 융합, 분석과 가치 추출을 지원할 수 있도록 고안된 차세대 기술

빅데이터는 대용량 데이터가 아닌 다차원적으로 엄청난 데이터

크기가 큰 것만이 아니라 관리와 분석의 종합적인 어려움 및 복잡성을 의미

일반적으로 3V = Volume + Variety + Velocity 측면으로 빅데이터를 정의

데이터 처리를 위해 필요한 인력/조직 및 기술까지 포함하는 넓은 의미로도 사용

2. 빅데이터 기술

Semantic Text Mining Engine

3. 빅데이터 S/W

3.1 빅데이터 수집 S/W

비정형 데이터 수집 도구

Nutch : 오픈소스 웹 검색 소프트웨어로 웹크롤로의 기능을 제공
Flume : 대량의 로그 데이터를 효과적으로 수집하거나 트위터 API를 호출
검색API : 포털(네이버/다음/구글)의 검색 API를 이용 특정 주제의 데이터 수집

정형 데이터 수집 도구

Scoop: RDBMS와 HDFS 파일시스템에서 데이터를 주고 받는 기능 제공
DB Connector : 대상 DB의 연결 모듈을 개발하여 DB의 데이터를 수집

3.2 빅데이터 구축 S/W

빅데이터 처리 플랫폼

Hadoop : 대량의 데이터를 처리할 수 있는 클러스터 환경에서 동작하는 분산응용 프로그램을 지원하는 프레임워크 기능을 제공

빅데이터 저장소

HDFS : 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고 수많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
NoSQL : 빅데이터의 효과적 저장 및 관리에 필요한 기술, 카산드라(Cassandra DB), 몽고DB 등이 있음
Mysql : 효율적인 빅데이터 분석을 위하여 정규화된 데이터를 저장하는 RDBMS

3.3 빅데이터 분석 및 활용 S/W

빅데이터 분석 도구

Pro-SINDI : 대량의 데이터에서 단일 핵심어 뿐만 아니라 5개의 복합명사 까지 추출, 연관관계 추출도 가능한 분석 프로젝트에 최적화된 상용 소프트웨어 워드 클라우드, 파이/바/라인 차트 제공 및 온톨로지 연계 가능
Mahout : 대량의 데이터에서 용어(핵심어) 및 관계 추출과 분류 및 필터링에 사용되어지는 기계학습 기반의 알고리즘 및 데이터 분석용 도구
R : 빅데이터의 통계적 의미를 찾고 그 패턴을 분석하기 위해서 강력한 통계 기능 제공
출처 : http://www.frotoma.com/sub2_9.do

저작자표시 비영리 변경금지 (새창열림)

'빅데이터 > Hadoop' 카테고리의 다른 글

Hadoop Ecosystem (0)	2018.08.06
Hadoop fs 명령어 정리 (0)	2018.08.06
오픈 소스 프레임워크를 활용한 검색엔진 구현 (0)	2018.08.03
hadoop 자주쓰는 명령어 / Wordcount.java / wc.jar 파일 (0)	2018.08.02
Hadoop WordCount v1.0 wc.jar (0)	2018.08.02

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바