목차
데이터 과학의 필요성과 개념
빅데이터
- 저장 기술
- 분석 기술
- 표현 기술
데이터 마이닝
데이터베이스 응용
- 데이터 웨어하우스, 데이터 호수, 데이터 튜닝
- 멀티미디어 DBMS, 모바일 DBMS
데이터 과학의 필요성과 개념
데이터 과학
데이터 → 정보 → 지식 → 지혜
데이터를 수집한 후 분석을 통해 데이터를 정확히 이해(정보)하고 의미를 부여함으로써
거기에 숨겨진 새로운 지식을 발견한 후 이를 문제 해결에 활용(지혜)하는 모든 과정의 활동을 의미
데이터 - 관찰하거나 측정하여 수집한 사실이나 값
정보 - 데이터를 상황에 대한 이해를 바탕으로 목적에 맞게 가공한 것
지식 - 규칙과 패턴을 통해 찾아낸 의미 있고 유용한 정보
지혜 - 지식에 통찰력을 더해 새롭고 창의적인 아이디어를 도출한 것
빅데이터
- 수십 TB 이상
- 실시간, 스트림 처리
- 정형(테이블), 반정형(XML), 비정형(SNS)
- 정확하고 신뢰할 수 있어야 함
- 문제 해결을 위한 의사 결정에 활용될 만한 가치
- 이해하기 쉽게 그림이나 도표로 시각화
- 가변성을 인식하고 수집과 분석 작업에서 데이터의 원래 의미가 그대로 반영될 수 있도록 노력해야 함
- 저장 기술, 분석 기술, 표현 기술
빅데이터의 특징
3V
- Volume (규모) : 데이터의 크기
- Variety (다양성) : 다양한 종류의 데이터를 수용하는 특성
- Velocity (속도) : 데이터가 얼마나 빠르게 처리/분석되는지에 대한 특성
5V
- Veracity (진실성)
- Value (가치)
7V
- Validity (정확성)
- Volatility (휘발성)
빅데이터 저장 기술
하둡 (Hadoop)
- 대용량 데이터를 분산 처리할 수 있는 자바 기반의 프레임워크
- 분산 파일 시스템인 HDFS에 데이터를 저장하고, 분산 처리 시스템인 MapReduce를 이용해 데이터를 처리
- 오픈 소스이므로 비용이 적게 들고, 여러 대의 서버에 데이터를 분산해서 저장하므로 속도가 빠름
NoSQL (Not only SQL)
- 관계 데베의 일관성보다는 가용성과 확장성에 중점을 둠
- 비정형 데이터를 저장하기 위해 유연한 데이터 모델을 지원
- 확장성이 중요한 클러스터 환경에 적합
- 저렴한 비용으로 분산 처리와 병렬 처리 가능
- 특징
- 일관성이 중요하고 조인과 같은 복잡한 질의 처리가 필요한 용도라면 관계 데베를 사용하는 것이 적합
- 대용량의 비정형 데이터에 대해 삽입 위주의 데이터를 저장하고 관리하는 용도라면 NoSQL 이 적합
빅데이터 분석 기술
데이터 마이닝
- 대량의 데이터에서 실제로 존재하지 않는 정보를 얻어내는 것
- 고객 관련 정보를 토대로 미래의 구매 형태를 예측하거나 변수 간 인과관계를 분석하는 마케팅 기법
- One-to-One Marketing, Personalization (개별 맞춤 마케팅)
- 고객 관계 관리 CRM (Customer Relationship Management)
- 20/80 Rule, VVIP Marketing
- Royalty : 한번 고객은 영원한 고객
데이터 마이닝의 분석 기법
- 연관 분석 (Association Analysis)
- 군집 분석 (Cluster Analysis)
- 분류 분석 (Classification Analysis)
연관 분석
- 하나의 거래나 사건에 포함되어 있는 품목들의 상호 연관성을 발견하는 것
- 연관성은 어떤 item 집합의 존재가 다른 item 존재를 암시하는 것을 의미
- 함께 구매하는 상품의 조합이나 서비스 패턴 발견
- A->B (만일 A가 발생하면 B가 발생함) : A라는 물품을 구매하면 B라는 물품도 구매함
- ex. 미국 월마트 : 수요일 남편 퇴근 때 기저귀 사면서 맥주도 같이 구매 -> 두 개 같이 진열해서 매출 5배 증가
연관 규칙 분석 방법
Apriori 알고리즘
지지도 (Support)
- 전체 거래 N 중에서 X와 Y를 동시에 포함하는 거래가 어느 정도인가?
신뢰도 (Confidence)
- X를 포함하는 거래 중 X와 Y를 동시에 포함하는 거래가 어느 정도인가?
군집 분석
의견이 유사한 사용자들을 발견하고,
특정한 사용자의 특정한 아이템에 대한 의견을 유사 그룹의 의견을 참조하여 예측해 냄
- 아이템에 대한 사전 분류나 파악에 의존하기 보다 사용자들의 의견을 참조함
- 사용자가 예상하지 않았지만 자신의 취향에 맞는 새로운 아이템을 발견할 가능성이 있음
→ 시스템에서 자동화될 가능성이 매우 높음
분류 분석
- 새로운 데이터가 어떤 그룹 또는 등급에 속하는지를 판단하는데 사용되는 분석 기법
- 군집 분석과 달리 미리 정의된 기준에 따라 기존 데이터의 그룹이 나뉘어져 있음
ex. 의사가 기존 환자들의 데이터를 토대로 새로운 환자의 증상을 듣고 병명을 진단하는 것
빅데이터 표현 기술
데이터 시각화
- 이해하기 쉽게 시각적으로 정보를 제시하여 분석에 활용
- 시각화 전에는 보이지 않던 규칙이나 패턴을 찾는데도 활용
데이터 시각화 방법
(시간, 분포, 관계, 비교, 공간)
시간 시각화
- 시간의 흐름에 따른 데이터의 변화나 경향을 표현
- 편의점의 요일 별 매출을 표현한 막대 그래프
분포 시각화
- 분류 기준에 따라 데이터의 분포 상태를 표현
- 스마트폰 시장 점유율을 표현한 원 그래프
관계 시각화
- 데이터 간의 상관관계를 표현
- 빵과 버터 판매량의 상관관계를 표현하는 산점도 (좌표 평면의 점)
비교 시각화
- 여러 데이터 값의 유사성이나 차이를 표현
- 운동 선수들의 기록 별 점수를 표현한 히트맵 (지도에 열 분포 색상)
공간 시각화
- 지도 위에 장소나 지역에 따른 데이터 분포를 표현
- 교통사고 발생 현황을 표현한 통계 주제도
R
프로그래밍 언어이자 데이터 분석을 위한 소프트웨어
다양한 패키지를 제공하여 시각화는 물론 데이터 분석에 특화된 도구로 평가받으며 큰 인기를 얻음
함수를 이용해 명령문을 작성하면 바로 실행 결과를 확인할 수 있는 대화형 방식으로 운영
R 스튜디오를 추가로 설치하여 gui에서 보다 편하게 작업을 수행할 수 있음
데이터베이스 응용
데이터 웨어하우스
(데이터 + 창고)
- 조직이나 기업체의 중심이 되는 주요 업무 시스템에서 추출되어 새로이 생성된 데이터베이스
- 효율적인 의사결정지원 시스템을 지원하는 데이터의 집합체
- 의사 결정을 위해 현재 데이터와 과거 데이터를 함께 유지
- 특징
- 주제지향성 subject-oriented
- 통합성 intergrated
- 시계열성 time-variant
- 비휘발성 nonvolatile
데이터 호수 (Data Lake)
다양한 환경에서 수집한 모든 데이터
→ 가공되지 않은 원래의 형태로 저장, 공유
공통 데이터 저장소
조직 내의 모든 데이터가 흘러 들어 모이는 호수와 같음
데이터 사일로
- 한 조직 내의 데이터가 격리되는 것.
- 특정 부서에서만 정보 접근 및 공유가 가능하다.
데이터 웨어하우스 vs 데이터 호수
데이터 웨어하우스 | 데이터 호수 |
특정 스키마를 기준으로 데이터를 정제하여 저장, 활용 | 저장 : 가공되지 않은 원래의 형태로 저장 활용 : 데이터 스키마를 정의 → 필요한 형태로 변환하여 사용 |
저장 시에 스키마를 충족해야 해서 데이터 정제 시간이 오래 걸리고 비용이 많이 듬 → 빠른 데이터 수집 어려움 |
일단 저장 → 그 후에 데이터 활용을 고민 대용량 실시간 데이터를 빠르게 저장하는 데 유리 범용 장비로 구축 가능 → 구축 비용이 저렴 |
데이터 관리와 거버넌스가 명확 | 데이터 관리가 어렵고, 지속적인 유지 관리를 하지 않으면 쓸모없는 데이터가 많아지게 됨 |
데이터 댐
한국 정부는 데이터 호수의 개념을 확장하여 공공과 민간 네트워크 데이터들을 모으고, 그것을 표준화하고 가공 및 활용하여 인공지능을 만들어서
- 기존 산업에 혁신을 주고, 혁신적인 서비스를 개발하여
- 일자리 창출을 목표로 함
데이터 마트
데이터 웨어하우스의 축소판
데이터의 한 부분에서 사용자가 관심을 갖는 데이터들을 담은 작은 규모의 데이터 웨어하우스
- 대량의 다양한 정보를 사용자의 요구에 따라 체계적으로 분석하여 기업의 경영 활동을 돕기 위한 시스템
ex) 쇼핑몰 사이트에서 판매되는 무수히 많은 제품 중에서 내가 필요하거나 관심 있는 것을 장바구니에 담아두는 것
데이터 튜닝
데베의 성능 향상과 사용자의 요구에 따라 빠른 검색을 통한 신속한 서비스 제공, 저장 공간의 효율을 향상시키는 등
데이터베이스 시스템을 최적화하기 위해 재조정하는 것
- 데이터 검색 시 자료가 저장된 블록의 이동과 접근 횟수를 줄일 수 있도록 저장 공간을 조정하여 신속한 검색이 이루어지도록 함
- SQL 명령어 작성 시 쉽게 이해할 수 있도록 표준화된 형태로 작성함
- 트랜잭션의 무결성을 유지하면서 정보 공유를 위해 적정한 수준의 Locking 기법을 사용함
멀티미디어 DBMS
멀티미디어 데이터의 특성
대용량 데이터
- 압축하여 별도의 저장 공간을 구성하여 관리
복잡한 검색 방법
- 설명 기반 검색
- 멀티미디어 데이터의 특성을 나타내는 키워드, 자세한 설명 등을 함께 저장하여 검색에 이용하는 방법
- 단점
- 대용량 멀티미디어 데이터 처리에 적합하지 않음
- 설명 작성자의 주관적인 관점이 반영되어 같은 멀티미디어 데이터에 대한 설명이 달라질 수 있음
- 내용 기반 검색
- 특정 객체를 포함한 멀티미디어 데이터를 검색
- 별도 기술 필요
- 멀티미디어 데이터가 포함된 내용에 대한 정보를 추출해 DB에 저장하는 기술
- 멀티미디어 데이터용 질의 처리 기법
복잡한 구조
- 원시 데이터 (Raw Data)
- 텍스트, 그래픽, 이미지, 오디오 등 기본 타입의 데이터
- 서술 데이터 (Description Data)
- 멀티미디어 데이터를 검색할 때 사용되는 것
- 멀티미디어 데이터에 지정된 키워드나 자세한 설명
- 등록 데이터 (Registration Data)
- 멀티미디어 데이터의 특성과 필요한 정보를 별도로 추출한 데이터
- 이미지에서 해상도, 픽셀 수, 색상, 크기, 포맷 등의 정보를 추출한 데이터
- 원시 데이터 처리에 도움
→ 멀티미디어 데이터의 복잡한 관계성을 표현하고 관리할 수 있는 기술이 필요
모바일 DBMS
PDA, 스마트폰, 노트북과 같은 다양한 모바일 기기를 이용하여 현장 업무에서 발생한 데이터를 가공 후,
동기화 기능을 통해 중앙 서버로 전송하는 능력을 갖춘 데이터베이스 관리 시스템
특징
- 저사양 기기에 탑재 가능
- 내장형 데이터베이스
- 서버 측 데베의 복제 및 동기화 기능
종류
- CloudScape
- DB2 Everyplace
- ASA
- PointBase Mobile Edition
- SQLite
- 대표적인 오픈소스 파일 데베
- 안정적이며 크로스 플랫폼을 지원
Summary
데이터 웨어하우스
- 한 조직이나 사용자의 의사 결정에 도움을 주기 위하여, 기간 내의 저장된 대량의 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스
데이터 마트
- 데이터 웨어하우스의 축소판
- 데이터의 한 부분에서 사용자가 관심을 갖는 데이터들을 담은 작은 규모의 데이터 웨어하우스
'Computer Study' 카테고리의 다른 글
[Database] 트랜잭션, 회복과 병행 제어 (1) | 2023.12.12 |
---|---|
[Database] 스키마 정제와 정규화 (1) | 2023.12.12 |
[Database] 데이터베이스 설계 (1) | 2023.12.12 |
[Database] 데이터 모델링 (0) | 2023.12.12 |
[Database] 데이터베이스 보안과 권한 관리 (0) | 2023.12.12 |