본문 바로가기

Computer Study

[Database] 데이터 과학과 빅데이터

목차

데이터 과학의 필요성과 개념

 

빅데이터

- 저장 기술

- 분석 기술

- 표현 기술

 

데이터 마이닝

 

데이터베이스 응용

- 데이터 웨어하우스, 데이터 호수, 데이터 튜닝

- 멀티미디어 DBMS, 모바일 DBMS

 


데이터 과학의 필요성과 개념

데이터 과학

데이터 → 정보 → 지식 → 지혜

데이터를 수집한 후 분석을 통해 데이터를 정확히 이해(정보)하고 의미를 부여함으로써

거기에 숨겨진 새로운 지식을 발견한 후 이를 문제 해결에 활용(지혜)하는 모든 과정의 활동을 의미

 

데이터 - 관찰하거나 측정하여 수집한 사실이나 값

정보 - 데이터를 상황에 대한 이해를 바탕으로 목적에 맞게 가공한 것

지식 - 규칙과 패턴을 통해 찾아낸 의미 있고 유용한 정보

지혜 - 지식에 통찰력을 더해 새롭고 창의적인 아이디어를 도출한 것

 


빅데이터

  • 수십 TB 이상
  • 실시간, 스트림 처리
  • 정형(테이블), 반정형(XML), 비정형(SNS)
  • 정확하고 신뢰할 수 있어야 함
  • 문제 해결을 위한 의사 결정에 활용될 만한 가치
  • 이해하기 쉽게 그림이나 도표로 시각화
  • 가변성을 인식하고 수집과 분석 작업에서 데이터의 원래 의미가 그대로 반영될 수 있도록 노력해야 함
  • 저장 기술, 분석 기술, 표현 기술

 

빅데이터의 특징

3V

  • Volume (규모) : 데이터의 크기
  • Variety (다양성) : 다양한 종류의 데이터를 수용하는 특성
  • Velocity (속도) : 데이터가 얼마나 빠르게 처리/분석되는지에 대한 특성

5V

  • Veracity (진실성)
  • Value (가치)

7V

  • Validity (정확성)
  • Volatility (휘발성)

빅데이터 저장 기술

하둡 (Hadoop)

  • 대용량 데이터를 분산 처리할 수 있는 자바 기반의 프레임워크
  • 분산 파일 시스템인 HDFS에 데이터를 저장하고, 분산 처리 시스템인 MapReduce를 이용해 데이터를 처리
  • 오픈 소스이므로 비용이 적게 들고, 여러 대의 서버에 데이터를 분산해서 저장하므로 속도가 빠름

NoSQL (Not only SQL)

  • 관계 데베의 일관성보다는 가용성과 확장성에 중점을 둠
  • 비정형 데이터를 저장하기 위해 유연한 데이터 모델을 지원
  • 확장성이 중요한 클러스터 환경에 적합
  • 저렴한 비용으로 분산 처리와 병렬 처리 가능
  • 특징
    • 일관성이 중요하고 조인과 같은 복잡한 질의 처리가 필요한 용도라면 관계 데베를 사용하는 것이 적합
    • 대용량의 비정형 데이터에 대해 삽입 위주의 데이터를 저장하고 관리하는 용도라면 NoSQL 이 적합

빅데이터 분석 기술

데이터 마이닝

  • 대량의 데이터에서 실제로 존재하지 않는 정보를 얻어내는 것
  • 고객 관련 정보를 토대로 미래의 구매 형태를 예측하거나 변수 간 인과관계를 분석하는 마케팅 기법
  • One-to-One Marketing, Personalization (개별 맞춤 마케팅)
  • 고객 관계 관리 CRM (Customer Relationship Management)
  • 20/80 Rule, VVIP Marketing
  • Royalty : 한번 고객은 영원한 고객

 

데이터 마이닝의 분석 기법

- 연관 분석 (Association Analysis)

- 군집 분석 (Cluster Analysis)

- 분류 분석 (Classification Analysis)

 


연관 분석

  • 하나의 거래나 사건에 포함되어 있는 품목들의 상호 연관성을 발견하는 것
  • 연관성은 어떤 item 집합의 존재가 다른 item 존재를 암시하는 것을 의미
  • 함께 구매하는 상품의 조합이나 서비스 패턴 발견
  • A->B (만일 A가 발생하면 B가 발생함) : A라는 물품을 구매하면 B라는 물품도 구매함
  • ex. 미국 월마트 : 수요일 남편 퇴근 때 기저귀 사면서 맥주도 같이 구매 -> 두 개 같이 진열해서 매출 5배 증가

 

연관 규칙 분석 방법

Apriori 알고리즘

지지도 (Support) 

- 전체 거래 N 중에서 X와 Y를 동시에 포함하는 거래가 어느 정도인가?

신뢰도 (Confidence)

- X를 포함하는 거래 중 X와  Y를 동시에 포함하는 거래가 어느 정도인가?

 


군집 분석

의견이 유사한 사용자들을 발견하고,

특정한 사용자의 특정한 아이템에 대한 의견을 유사 그룹의 의견을 참조하여 예측해 냄

  • 아이템에 대한 사전 분류나 파악에 의존하기 보다 사용자들의 의견을 참조함
  • 사용자가 예상하지 않았지만 자신의 취향에 맞는 새로운 아이템을 발견할 가능성이 있음

→ 시스템에서 자동화될 가능성이 매우 높음

 


분류 분석

  • 새로운 데이터가 어떤 그룹 또는 등급에 속하는지를 판단하는데 사용되는 분석 기법
  • 군집 분석과 달리 미리 정의된 기준에 따라 기존 데이터의 그룹이 나뉘어져 있음

ex. 의사가 기존 환자들의 데이터를 토대로 새로운 환자의 증상을 듣고 병명을 진단하는 것

 


빅데이터 표현 기술

 

데이터 시각화

  • 이해하기 쉽게 시각적으로 정보를 제시하여 분석에 활용
  • 시각화 전에는 보이지 않던 규칙이나 패턴을 찾는데도 활용

데이터 시각화 방법

(시간, 분포, 관계, 비교, 공간)

 

시간 시각화

  • 시간의 흐름에 따른 데이터의 변화나 경향을 표현
  • 편의점의 요일 별 매출을 표현한 막대 그래프

분포 시각화

  • 분류 기준에 따라 데이터의 분포 상태를 표현
  • 스마트폰 시장 점유율을 표현한 원 그래프

관계 시각화

  • 데이터 간의 상관관계를 표현
  • 빵과 버터 판매량의 상관관계를 표현하는 산점도 (좌표 평면의 점)

비교 시각화

  • 여러 데이터 값의 유사성이나 차이를 표현
  • 운동 선수들의 기록 별 점수를 표현한 히트맵 (지도에 열 분포 색상)

공간 시각화

  • 지도 위에 장소나 지역에 따른 데이터 분포를 표현
  • 교통사고 발생 현황을 표현한 통계 주제도

 

R

프로그래밍 언어이자 데이터 분석을 위한 소프트웨어

다양한 패키지를 제공하여 시각화는 물론 데이터 분석에 특화된 도구로 평가받으며 큰 인기를 얻음

함수를 이용해 명령문을 작성하면 바로 실행 결과를 확인할 수 있는 대화형 방식으로 운영

R 스튜디오를 추가로 설치하여 gui에서 보다 편하게 작업을 수행할 수 있음

 


데이터베이스 응용

 

데이터 웨어하우스

(데이터 + 창고)

  • 조직이나 기업체의 중심이 되는 주요 업무 시스템에서 추출되어 새로이 생성된 데이터베이스
  • 효율적인 의사결정지원 시스템을 지원하는 데이터의 집합체
  • 의사 결정을 위해 현재 데이터와 과거 데이터를 함께 유지
  • 특징
    • 주제지향성 subject-oriented
    • 통합성 intergrated
    • 시계열성 time-variant
    • 비휘발성 nonvolatile

 

데이터 호수 (Data Lake)

다양한 환경에서 수집한 모든 데이터

→ 가공되지 않은 원래의 형태로 저장, 공유

공통 데이터 저장소

조직 내의 모든 데이터가 흘러 들어 모이는 호수와 같음

데이터 사일로

  • 한 조직 내의 데이터가 격리되는 것.
  • 특정 부서에서만 정보 접근 및 공유가 가능하다.

 

데이터 웨어하우스 vs 데이터 호수

데이터 웨어하우스 데이터 호수
특정 스키마를 기준으로 데이터를 정제하여 저장, 활용 저장 : 가공되지 않은 원래의 형태로 저장
활용 : 데이터 스키마를 정의 → 필요한 형태로 변환하여 사용
저장 시에 스키마를 충족해야 해서 데이터 정제 시간이 오래 걸리고 비용이 많이 듬
→ 빠른 데이터 수집 어려움
일단 저장 → 그 후에 데이터 활용을 고민 대용량 실시간 데이터를 빠르게 저장하는 데 유리 범용 장비로 구축 가능
→ 구축 비용이 저렴
데이터 관리와 거버넌스가 명확 데이터 관리가 어렵고, 지속적인 유지 관리를 하지 않으면 쓸모없는 데이터가 많아지게 됨

 

데이터 댐

한국 정부는 데이터 호수의 개념을 확장하여 공공과 민간 네트워크 데이터들을 모으고, 그것을 표준화하고 가공 및 활용하여 인공지능을 만들어서

- 기존 산업에 혁신을 주고, 혁신적인 서비스를 개발하여

- 일자리 창출을 목표로 함

 

데이터 마트

데이터 웨어하우스의 축소판

데이터의 한 부분에서 사용자가 관심을 갖는 데이터들을 담은 작은 규모의 데이터 웨어하우스

  • 대량의 다양한 정보를 사용자의 요구에 따라 체계적으로 분석하여 기업의 경영 활동을 돕기 위한 시스템

ex) 쇼핑몰 사이트에서 판매되는 무수히 많은 제품 중에서 내가 필요하거나 관심 있는 것을 장바구니에 담아두는 것

 

데이터 튜닝

데베의 성능 향상과 사용자의 요구에 따라 빠른 검색을 통한 신속한 서비스 제공, 저장 공간의 효율을 향상시키는 등

데이터베이스 시스템을 최적화하기 위해 재조정하는 것

  • 데이터 검색 시 자료가 저장된 블록의 이동과 접근 횟수를 줄일 수 있도록 저장 공간을 조정하여 신속한 검색이 이루어지도록 함
  • SQL 명령어 작성 시 쉽게 이해할 수 있도록 표준화된 형태로 작성함
  • 트랜잭션의 무결성을 유지하면서 정보 공유를 위해 적정한 수준의 Locking 기법을 사용함

 


멀티미디어 DBMS

멀티미디어 데이터의 특성

대용량 데이터

  • 압축하여 별도의 저장 공간을 구성하여 관리

복잡한 검색 방법

  • 설명 기반 검색 
    • 멀티미디어 데이터의 특성을 나타내는 키워드, 자세한 설명 등을 함께 저장하여 검색에 이용하는 방법
    • 단점
      • 대용량 멀티미디어 데이터 처리에 적합하지 않음
      • 설명 작성자의 주관적인 관점이 반영되어 같은 멀티미디어 데이터에 대한 설명이 달라질 수 있음
  • 내용 기반 검색 
    • 특정 객체를 포함한 멀티미디어 데이터를 검색
    • 별도 기술 필요
      • 멀티미디어 데이터가 포함된 내용에 대한 정보를 추출해 DB에 저장하는 기술
      • 멀티미디어 데이터용 질의 처리 기법

복잡한 구조

  • 원시 데이터 (Raw Data)
    • 텍스트, 그래픽, 이미지, 오디오 등 기본 타입의 데이터
  • 서술 데이터 (Description Data)
    • 멀티미디어 데이터를 검색할 때 사용되는 것
    • 멀티미디어 데이터에 지정된 키워드나 자세한 설명
  • 등록 데이터 (Registration Data)
    • 멀티미디어 데이터의 특성과 필요한 정보를 별도로 추출한 데이터
    • 이미지에서 해상도, 픽셀 수, 색상, 크기, 포맷 등의 정보를 추출한 데이터
    • 원시 데이터 처리에 도움

→ 멀티미디어 데이터의 복잡한 관계성을 표현하고 관리할 수 있는 기술이 필요

 

모바일 DBMS

PDA, 스마트폰, 노트북과 같은 다양한 모바일 기기를 이용하여 현장 업무에서 발생한 데이터를 가공 후,

동기화 기능을 통해 중앙 서버로 전송하는 능력을 갖춘 데이터베이스 관리 시스템

특징

  • 저사양 기기에 탑재 가능
  • 내장형 데이터베이스
  • 서버 측 데베의 복제 및 동기화 기능

종류

  • CloudScape
  • DB2 Everyplace
  • ASA
  • PointBase Mobile Edition
  • SQLite
    • 대표적인 오픈소스 파일 데베
    • 안정적이며 크로스 플랫폼을 지원

Summary

 

데이터 웨어하우스

  • 한 조직이나 사용자의 의사 결정에 도움을 주기 위하여, 기간 내의 저장된 대량의 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스

데이터 마트

  • 데이터 웨어하우스의 축소판
  • 데이터의 한 부분에서 사용자가 관심을 갖는 데이터들을 담은 작은 규모의 데이터 웨어하우스