[빅데이터를 지탱하는 기술] CHAPTER1 빅데이터의 기초 지식 : 빅데이터의 정착

CHAPTER1. 빅데이터의 기초 지식 목차 ✔
1-1 빅데이터의 정착
1-2 빅데이터 시대의 데이터 분석 기반
1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임
1-4 BI 도구와 모니터링
1-5 요약

~ 2011 -> Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전
~ 2012 -> 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급
~ 2013 -> 스트림 처리나 애드 혹(AdHoc) 분석 환경의 확층

분산 시스템에 의한 데이터 처리의 고속화

(빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술)

빅데이터를 취급이 어려운 이유 2개
- 데이터의 분석 방법을 모름
- 데이터 처리에 수고와 시간이 걸림
데이터가 있더라도 그 가치를 창조하지 못한다면 의미가 없어지며, 시간을 많이 소비한다면 할 수 있는 것들이 한정됨으로 위의 두 가지를 갖추어야 비로소 가치 있는 정보를 얻을 수 있음

빅데이터 기술의 요구(Hadoop과 NoSQL의 대두)

1️⃣ 인터넷 등 웹 서버에서 생성된 데이터가 RDB, NoSQL, 텍스트 데이터에 저장

2️⃣ 모든 데이터가 Hadoop으로 모이며, 대규묘 처리가 실행

Hadoop : 다수의 컴퓨터의 대량의 데이터 처리

Hadoop
- 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템
- 구글에서 개발된 분산 처리 프레임워크인 MapReduce를 참고하여 제작됨
- 초기에는 MapReduce 동작을 위해 자바 언어로 프로그래밍했지만, SQL 같은 커리 언어를 실행하기 위한 소프트웨어로 Hive가 2009년 개발되어 프로그래밍 없이 데이터를 집계하여 많은 사람들이 사용할 수 있게 됨

시기	이벤트
2004년 12월	구글에서 MapReduce 논문이 발표됨
2007년 9월	Hadoop의 최초 버전(0.14.1)이 배포되어 전 세계적으로 이용되기 시작함
2009년 5월	Hive의 최초 버전(0.3.0)이 배포됨
2011년 12월	Hadoop 1.0.0 배포

NoSQL 데이터베이스 : 빈번한 읽기/쓰기 및 분산 처리가 강점

Hadoop과 NoSQL 데이터베이스의 조합 : 현실적인 비용으로 대규묘 데이터 처리 실현

분산 시스템의 비지니스 이용 개척

(데이터 웨어하우스의 공존)

직접 할 수 있는 데이터 분석 폭 확대

(클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용)

스몰 데이터 : 기존 기술을 이용해서 취급할 수 있는 작은 데이터
- ex) 한 대의 노트북에서 큰 부담 없이 처리할 수 있는 만큼의 작은 데이터
- 빅데이터의 기술 만큼 스몰 데이터의 기술도 중요
- Excel, CSV 등의 스몰 데이터를 구사하는 방법도 알아야 함

데이터 디스커버리의 기초지식 : 셀프서비스용 BI(Business Intelligence Tool) 도구

Data Discovery(데이터 디스커버리) = 설프서비스용 BI 도구 : 대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스
셀프서비스용 BI 도구 : BI 도구는 데이터 웨어하우스와 조합하여 경영자용 시각화 시스템으로 사용되지만, 셀프서비스용 BI 도구는 개인도 사용할 수 있을 정도로 단순화한 것
현재 데이터 분석은 기술상의 제약이 사라져 누구나 사용할 수 있는 기술이 되어 자신에게 맞는 기술을 선택해 언제든 원하는 정보를 추출할 수 있게 됨

컴퓨터 챱챱