CHAPTER1. 빅데이터의 기초 지식 ✏
CHAPTER1. 빅데이터의 기초 지식 목차 ✔
1-1 빅데이터의 정착
1-2 빅데이터 시대의 데이터 분석 기반
1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임
1-4 BI 도구와 모니터링
1-5 요약
1-1 빅데이터의 정착
~ 2011 -> Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전
~ 2012 -> 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급
~ 2013 -> 스트림 처리나 애드 혹(AdHoc) 분석 환경의 확층
분산 시스템에 의한 데이터 처리의 고속화
(빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술)
- 빅데이터를 취급이 어려운 이유 2개
- 데이터의 분석 방법을 모름
- 데이터 처리에 수고와 시간이 걸림
- 데이터가 있더라도 그 가치를 창조하지 못한다면 의미가 없어지며, 시간을 많이 소비한다면 할 수 있는 것들이 한정됨으로 위의 두 가지를 갖추어야 비로소 가치 있는 정보를 얻을 수 있음
빅데이터 기술의 요구(Hadoop과 NoSQL의 대두)
1️⃣ 인터넷 등 웹 서버에서 생성된 데이터가 RDB, NoSQL, 텍스트 데이터에 저장
2️⃣ 모든 데이터가 Hadoop으로 모이며, 대규묘 처리가 실행
- 전통적인 관계형 데이터베이스(RDB)로 취급할 수 없는 대량의 데이터가 쌓이게 되면서 Hadoop과 NoSQL이 탄생
Hadoop : 다수의 컴퓨터의 대량의 데이터 처리
- Hadoop
- 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템
- 구글에서 개발된 분산 처리 프레임워크인 MapReduce를 참고하여 제작됨
- 초기에는 MapReduce 동작을 위해 자바 언어로 프로그래밍했지만, SQL 같은 커리 언어를 실행하기 위한 소프트웨어로 Hive가 2009년 개발되어 프로그래밍 없이 데이터를 집계하여 많은 사람들이 사용할 수 있게 됨
시기 | 이벤트 |
2004년 12월 | 구글에서 MapReduce 논문이 발표됨 |
2007년 9월 | Hadoop의 최초 버전(0.14.1)이 배포되어 전 세계적으로 이용되기 시작함 |
2009년 5월 | Hive의 최초 버전(0.3.0)이 배포됨 |
2011년 12월 | Hadoop 1.0.0 배포 |
NoSQL 데이터베이스 : 빈번한 읽기/쓰기 및 분산 처리가 강점
- NoSQL
- 전통적인 RDB의 제약을 제거하는 것을 목표로 한 데이터베이스의 총칭
- 키 밸류 스토어(key-value-store/KVS) : 다수의 키와 값을 관련지어 저장
- 도큐멘트 스토어(document store) : JSON과 같은 복잡한 구조를 저장
- 와이드 칼럼 스토어(wide-column store) : 여러 키를 사용하여 높은 확장성을 제공
- 장점 : RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어남
- 애플리케이션에서 온라인으로 접속하는 데이터베이스
시기 | 이벤트 | 제품의 종류 |
2009년 8월 | MongoDB 1.0 배포 | 도큐먼트 스토어 |
2010년 7월 | CouchDB 1.0 배포 | 도큐먼트 스토어 |
2011년 9월 | Riak 1.0 배포 | 키 밸류 스토어 |
2011년 10월 | Cassandra 1.0 배포 | 와이드 컬럼 스토어 |
2011년 12월 | Redis 1.0 배포 | 키 밸류 스토어 |
Hadoop과 NoSQL 데이터베이스의 조합 : 현실적인 비용으로 대규묘 데이터 처리 실현
- NoSQL 데이터베이스에 기록 -> Hadoop으로 분사 처리
- 이를 통해, 기존의 기술로 불가능하거나 고가의 하드웨어가 필요했던 경우가 현실적인 비용으로 데이터를 처리할 수 있게 되었음
분산 시스템의 비지니스 이용 개척
(데이터 웨어하우스의 공존)
- Enterprise Data Warehouse(EDW) / Data WareHouse(DWH) 도입
- 분산 시스템의 발전에 따라, Hadoop을 사용하는 경우가 증가
- 데이터 웨어하우스 제품은 안정적인 성능을 실현하기 위해 하드웨어와 소프트웨어가 통합 장비로 제공되어 교체나 확장이 어려움
- 데이터 처리 : Hadoop
- 작은 데이터 혹은 중요한 데이터를 적재 : 데이터 웨어하우스
직접 할 수 있는 데이터 분석 폭 확대
(클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용)
- 여러 컴퓨터에서 분산 처리한다는 점이 빅데이터의 특징
- 클라우드 시대로 시간 단위만큼 필요한 자원을 확보가 가능하여, 언제든지 이용할 수 있는 환경이 제공
시기 | 이벤트 | 서비스의 특징 |
2009년 4월 | Amazon Elastic MapReduce 발표 | 클라우드를 위한 Hadoop |
2010년 5월 | 구글 BigQuery 발표 | 데이터 웨어하우스 |
2012년 10월 | Azure HDInsight 발표 | 클라우드를 위한 Hadoop |
2012년 11월 | Amazon Redshift 발표 | 데이터 웨어하우스 |
- Amazon Redshift가 발표된 이후, 데이터 웨어하우스를 클라우드 안에서 작성하는 것은 흔해지게 됨
- 상당한 노력을 구축해야 하는 한정된 데이터 웨어하우스였지만, 작은 프로젝트 단위에서도 구축할 수 있는 상황이 됨
- 스몰 데이터 : 기존 기술을 이용해서 취급할 수 있는 작은 데이터
- ex) 한 대의 노트북에서 큰 부담 없이 처리할 수 있는 만큼의 작은 데이터
- 빅데이터의 기술 만큼 스몰 데이터의 기술도 중요
- Excel, CSV 등의 스몰 데이터를 구사하는 방법도 알아야 함
데이터 디스커버리의 기초지식 : 셀프서비스용 BI(Business Intelligence Tool) 도구
- Data Discovery(데이터 디스커버리) = 설프서비스용 BI 도구 : 대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스
- 셀프서비스용 BI 도구 : BI 도구는 데이터 웨어하우스와 조합하여 경영자용 시각화 시스템으로 사용되지만, 셀프서비스용 BI 도구는 개인도 사용할 수 있을 정도로 단순화한 것
- 현재 데이터 분석은 기술상의 제약이 사라져 누구나 사용할 수 있는 기술이 되어 자신에게 맞는 기술을 선택해 언제든 원하는 정보를 추출할 수 있게 됨