PART 3. 빅데이터 기술
5장 빅데이터 처리 기술
1절 빅데이터 기술 이해의 필요성
빅데이터 처리 과정에서 가장 중요한 것은 바로 직전의 기획 단계에서 가설을 수립하고 이에 대한 필요 데이터의 항목과 조건을 명확하게 수립하는 것이다.
경영학도의 입장에서는 구체적인 기술의 이해까지는 아니더라고 빅데이터 활용과정 전반을 이해하고 적용과정을 리뷰하기 위해서 최소한의 기술적인 개념을 이해할 필요성이 있다.
2절 빅데이터의 종류
빅데이터의 종류를 구분하는 관점은 정보 추출, 데이터 추가・삭제 등 데이터 관리 용이성이며,
정형 데이터, 반정형 데이터, 비정형 데이터로 나뉜다.
- 정형 데이터 : 데이터가 속성에 따라 분류된 형태. 표의 형태로 정리될 수 있다.
- 반정형 데이터 : 메타 데이터의 규칙에 따라 표현된 데이터
- 비정형 데이터 : 세부 속성간의 관계 파악이 힘들기 때문에 활용하기 어려운 데이터를 의미
3절 빅데이터 수집 기술
기업 외부의 빅데이터를 수집 할 때 ETL, OPEN API, FTP, 크롤링 등이 존재.
가장 중요한 것은 외부 기관에서 제공하는 데이터의 유형을 먼저 파악하고 이에 맞퉈 대응하는 것이다.
4절 빅데이터 저장 기술
빅데이터를 저장한다는 것은 수집된 데이터의 ‘전처리과정’과 ‘후처리과정’을 진행한다는 의미다.
■ 빅데이터 저장 유형
- 관계형 데이터베이스 : 테이블과 같은 데이터 항목으로 구성돔. 자료 접근・수정이 정혀 데이터보다 용이한 데이터베이스
- 비관계형 데이터베이스 : 반정형 또는 비정형 데이터를 통합하기 위해서 도입된 개념. - 컬럼형 DB, 문서형 DB
■ 빅데이터 저장방식 - 분산 컴퓨팅(Hadoop)
Hadoop 분산 컴퓨팅은 여러 대의 컴퓨터를 연결 후 동시 처리를 통해 데이터 처리 효율성을 높이는 것을 말한다. 인프라 구축 투자 비용이 적게 들고, 대용량 파일 신속 처리 가능하며 고장 방지 기능 존재
■ 빅데이터 처리 주기와 대응 기술
데이터의 처리 속도가 빠르다는 것은 입력된 데이터를 빠르게 저장할 뿐 아니라, 이를 빠르게 분석하여 처리하는 것까지 포괄적인 개념으로 다룬다. 실시간 분석을 위해 주목받는 기술 두가지
- 실시간으로 유입되는 데이터의 대응을 높이는 프로그램
- 데이터가 저장되고 분석되는 프로세스 자체에 대한 혁신
■ 데이터 통합 과정
비정형, 반정형 데이터의 경우 비관계형 DB 에 저장하거나, 구조화를 통해 정형 데이터로 변환하여 저장하는 방식이 있다. 관련된 기술로는 Scribe, Flumn, chuckwa 등의 오픈 소스 솔루션이 활용된다.
6장 빅데이터 분석 기술
1절 빅데이터 분석
(빅)데이터 분석이란 처리된 데이터 사이에서 의미 있는 패턴, 규칙을 찾는 과정이다.빅데이터 분석 방법인 통계 분석과 데이터 마이닝의 활용 방안을 익히고, 분석기법의 바탕이 되는 통계적 검증방안, 시각화 개념, 최근 많이 활용되고 있는 프로그램에 대해서 알아본다.
2절 빅데이터 분석 기법 - 통계학
■ 기술 통계학과 추론 통계학
- 기술통계학(Descriptive Statistics) : 데이터 집단에서 특징을 뽑아내서 기술하는 학문. 특정 데이터 집단의 특성 파악에 주력.
- 추론 통계학(Inferential Statistics) : 부분(표본)을 통해 전체(모집단)를 추측하는 학문. 세 집단 이상의 관련성을 분석하는 것까지 포함.
■ 인과관계와 상관관계
- 인과관계 : 두 변수가 원인과 결과의 관계로서 연결된다는 것이다.
- 상관관계 : 두 변수 증감에 일정한 방향성이 있는 경우
■ 통계 분석 기법의 종류
<통계 변수 유형>
- 명목 척도 : 셀 수 없는 척도
- 범주형 척도 : 남자=1, 여자=2 처럼 측정대상을 단지 분류할 목적으로 숫자를 부여 한 척도
- 서열 척도 : 학력처럼 측정 대상 간에 높고 낮은 순서가 있는 척도
- 연속형 자료 : 온도처럼 양적인 크기가 존재하여 비교 가능한 변수를 의미
(1) 회귀분석 : 연속 변수들 간에 인과관계를 검증하는 방식
- 1개의 독립 변수 + 1개의 종속 변수의 회귀 분석 모델 => 단순 회귀 분석
- 2개 이상의 독립 변수 + 종속 변수의 회귀 분석 모델 => 다중 회기 분석
- 종속 변수가 시간에 따른 변동 흐름을 보여 시간적 특성을 반영한 독립변수를 설정 => 시계열 분석
(2) 분산 분석 : 두 개 이상 집단의 분산을 비교하여 평균의 차이가 유의미한지 분석하는 방법론
(3) 판별 분석 : 2개 이상의 모집단이 존재하고 표본이 섞여 있을 때 개별 표본이 속해있는 모집단을 판별하는 분석방법
(4) 주성분 분석 : 변수들의 분석을 통해 결과에 영향을 미치는 중요한 요인들을 도출하는 분석
(5) 요인분석 : 변수들간의 상호 의존도를 분석하여 유사한 변수끼리 그룹핑하는 분석 방법
(6) 다차원 척도법 : 변수들간의 관계 분석을 통해 새로운 차원을 정의하는 분석 방법
3절 데이터 마이닝
■ 데이터마이닝의 이해
대용량의 데이터로부터 자동 또는 거의 반자동적인 방법을 통하여 패턴을 찾아내는 방법을 말한다.
■ 데이터마이닝 기법의 종류
(1) 연관관계 분석 : 한가지 대상과 다른 대상의 관련성을 분석한 것
(2) 의사결정 나무 : 목표 대상이 여러 입력 변수들에 의해서 어떻게 분류되는지를 마치 나무 구조의 그래프처럼 표현하는 방식
(3) 인공 신경망 : 사람 뇌의 신경망 구조를 모방하여 데이터의 패턴과 구조를 인식, 이를 분석 및 예측에 활용하는 방법
(4) 사례 기반 추론 : 과거 사례를 기반으로 새로운 사례의 결과를 예측하는 방식
(5) 텍스트 마이닝 : 자연어 처리 기술이란 인간의 언어를 컴퓨터가 이해할 수 있게 가공하는 기술로써 형태소 분석, 구문 분석, 의미 분석 등의 기초 기술 존재.
- 형태소 분석 : 문장을 의미 기능을 부여하는 최소의 단위로 분리하는 기술
- 구문 분석 : 문장에서 주, 술어, 목적어와 같은 주요 성분을 도출하고, 이를 기반으로 문법적 구조를 결장하는 기술을 말한다.
- 의미 분석 : 형태소 분석과 구문 분석을 통해 문장의 의미를 이해하는 기술을 말한다.
(6) 웹 마이닝 : 인터넷 웹 페이지의 패턴을 분석하거나 원하는 정보를 파악하는 기술
(7) 오피니언 마이닝 : 어떤 대상에 대해 포털 게시판, 블로그, 쇼핑몰 등 대규모 웹 문서를 기반으로 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것
(8) 소셜 네트워크 분석 : SNS 와 같은 네트워크 구조의 정보에 대하여 다양한 대상들 간의 링크 형태와 정도를 도출하는 것을 말한다.
4절 빅데이터 분석 기술
- 엑셀
- SPSS
- SAS
- R
5절 빅데이터 시각화
데이터 시각화는 빅데이터 결과를 쉽게 이해하기 위해 시각적으로 표현하여 전달하는 과정을 말한다.
'IT > 빅데이터' 카테고리의 다른 글
[빅데이터] 빅데이터 분석과 활용 (V 정리) (0) | 2022.10.24 |
---|---|
[빅데이터] 인공지능 시대의 비즈니스 전략 (3부 정리) (0) | 2022.09.18 |
[빅데이터] 인공지능 시대의 비즈니스 전략 (2부 정리) (0) | 2022.09.02 |
[빅데이터] 인공지능 시대의 비즈니스 전략 (1부 정리) (0) | 2022.08.31 |
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 8장 정리) (0) | 2022.08.28 |
댓글