본문 바로가기

공부/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] CHAPTER1 빅데이터의 기초 지식 : 빅데이터의 정착

CHAPTER1. 빅데이터의 기초 지식 ✏

CHAPTER1. 빅데이터의 기초 지식 목차 ✔
1-1 빅데이터의 정착
1-2 빅데이터 시대의 데이터 분석 기반
1-3 스크립트 언어에 의한 특별 분석과 데이터 프레임
1-4 BI 도구와 모니터링
1-5 요약

1-1 빅데이터의 정착

~ 2011 -> Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전
~ 2012 -> 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급
~ 2013 -> 스트림 처리나 애드 혹(AdHoc) 분석 환경의 확층

 

분산 시스템에 의한 데이터 처리의 고속화

(빅데이터의 취급하기 어려운 점을 극복한 두 가지 대표 기술)

  • 빅데이터를 취급이 어려운 이유 2개
    • 데이터의 분석 방법을 모름
    • 데이터 처리에 수고와 시간이 걸림
  • 데이터가 있더라도 그 가치를 창조하지 못한다면 의미가 없어지며, 시간을 많이 소비한다면 할 수 있는 것들이 한정됨으로 위의 두 가지를 갖추어야 비로소 가치 있는 정보를 얻을 수 있음
빅데이터 기술의 요구(Hadoop과 NoSQL의 대두)

1️⃣ 인터넷 등 웹 서버에서 생성된 데이터가 RDB, NoSQL, 텍스트 데이터에 저장

2️⃣ 모든 데이터가 Hadoop으로 모이며, 대규묘 처리가 실행

  • 전통적인 관계형 데이터베이스(RDB)로 취급할 수 없는 대량의 데이터가 쌓이게 되면서 Hadoop과 NoSQL이 탄생
Hadoop : 다수의 컴퓨터의 대량의 데이터 처리
  • Hadoop
    • 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템
    • 구글에서 개발된 분산 처리 프레임워크인 MapReduce를 참고하여 제작됨
    • 초기에는 MapReduce 동작을 위해 자바 언어로 프로그래밍했지만, SQL 같은 커리 언어를 실행하기 위한 소프트웨어로 Hive가 2009년 개발되어 프로그래밍 없이 데이터를 집계하여 많은 사람들이 사용할 수 있게 됨
시기 이벤트
2004년 12월 구글에서 MapReduce 논문이 발표됨
2007년 9월 Hadoop의 최초 버전(0.14.1)이 배포되어 전 세계적으로 이용되기 시작함
2009년 5월 Hive의 최초 버전(0.3.0)이 배포됨
2011년 12월 Hadoop 1.0.0 배포

 

NoSQL 데이터베이스 : 빈번한 읽기/쓰기 및 분산 처리가 강점
  • NoSQL
    • 전통적인 RDB의 제약을 제거하는 것을 목표로 한 데이터베이스의 총칭
    • 키 밸류 스토어(key-value-store/KVS) : 다수의 키와 값을 관련지어 저장
    • 도큐멘트 스토어(document store) : JSON과 같은 복잡한 구조를 저장
    • 와이드 칼럼 스토어(wide-column store) : 여러 키를 사용하여 높은 확장성을 제공
    • 장점 : RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어남
    • 애플리케이션에서 온라인으로 접속하는 데이터베이스
시기 이벤트 제품의 종류
2009년 8월 MongoDB 1.0 배포 도큐먼트 스토어
2010년 7월 CouchDB 1.0 배포 도큐먼트 스토어
2011년 9월 Riak 1.0 배포 키 밸류 스토어
2011년 10월 Cassandra 1.0 배포 와이드 컬럼 스토어
2011년 12월 Redis 1.0 배포 키 밸류 스토어

 

Hadoop과 NoSQL 데이터베이스의 조합 : 현실적인 비용으로 대규묘 데이터 처리 실현
  • NoSQL 데이터베이스에 기록 -> Hadoop으로 분사 처리
  • 이를 통해, 기존의 기술로 불가능하거나 고가의 하드웨어가 필요했던 경우가 현실적인 비용으로 데이터를 처리할 수 있게 되었음

 

분산 시스템의 비지니스 이용 개척

(데이터 웨어하우스의 공존)

  • Enterprise Data Warehouse(EDW) / Data WareHouse(DWH) 도입
  • 분산 시스템의 발전에 따라, Hadoop을 사용하는 경우가 증가
  • 데이터 웨어하우스 제품은 안정적인 성능을 실현하기 위해 하드웨어와 소프트웨어가 통합 장비로 제공되어 교체나 확장이 어려움
  • 데이터 처리 : Hadoop
  • 작은 데이터 혹은 중요한 데이터를 적재 : 데이터 웨어하우스

 

직접 할 수 있는 데이터 분석 폭 확대

(클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용)

  • 여러 컴퓨터에서 분산 처리한다는 점이 빅데이터의 특징
  • 클라우드 시대로 시간 단위만큼 필요한 자원을 확보가 가능하여, 언제든지 이용할 수 있는 환경이 제공
시기 이벤트 서비스의 특징
2009년 4월 Amazon Elastic MapReduce 발표 클라우드를 위한 Hadoop
2010년 5월 구글 BigQuery 발표 데이터 웨어하우스
2012년 10월 Azure HDInsight 발표 클라우드를 위한 Hadoop
2012년 11월 Amazon Redshift 발표 데이터 웨어하우스
  • Amazon Redshift가 발표된 이후, 데이터 웨어하우스를 클라우드 안에서 작성하는 것은 흔해지게 됨
  • 상당한 노력을 구축해야 하는 한정된 데이터 웨어하우스였지만, 작은 프로젝트 단위에서도 구축할 수 있는 상황이 됨

  • 스몰 데이터 : 기존 기술을 이용해서 취급할 수 있는 작은 데이터
    • ex) 한 대의 노트북에서 큰 부담 없이 처리할 수 있는 만큼의 작은 데이터
    • 빅데이터의 기술 만큼 스몰 데이터의 기술도 중요
    • Excel, CSV 등의 스몰 데이터를 구사하는 방법도 알아야 함
데이터 디스커버리의 기초지식 : 셀프서비스용 BI(Business Intelligence Tool) 도구
  • Data Discovery(데이터 디스커버리) = 설프서비스용 BI 도구 : 대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스
  • 셀프서비스용 BI 도구 : BI 도구는 데이터 웨어하우스와 조합하여 경영자용 시각화 시스템으로 사용되지만, 셀프서비스용 BI 도구는 개인도 사용할 수 있을 정도로 단순화한 것
  • 현재 데이터 분석은 기술상의 제약이 사라져 누구나 사용할 수 있는 기술이 되어 자신에게 맞는 기술을 선택해 언제든 원하는 정보를 추출할 수 있게 됨