본문 바로가기
IT/빅데이터

[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 8장 정리)

by uzzing' 2022. 8. 28.

제 8장 빅데이터 분석 기법

정량적 분석

정량적 분석은 데이터에서 발견되는 패턴과 상관관계를 정량화하는 데 초점을 맞춘 분석 기법이다. 통계적 방법을 기반으로 하여 데이터 세트에서 관측한 많은 값들을 분석한다. 표본의 크기가 크다면 결과를 전체 데이터 집합에 일반화해서 적용 가능

정성적 분석

다양한 품질을 설명하는 데 중점을 둔 서술적 분석 기법이다. 더 작은 표본을 더 깊게 분석하고 일반화할 수 없다.

데이터 마이닝

데이터 디스커버리라고도 한다. 대규모 데이터 세트를 대상으로 하는 특수한 형태의 분석 기법이다. 빅데이터 분석과 관련하여 데이터 마이닝은 일반적으로 대규모 데이터 세트에서 패턴과 경향을 찾아내는 자동화된 소프트웨어 기술을 의미한다.


통계적 분석

데이터를 분석하는 수단으로 통계를 사용한다. 데이터 세트와 관려된 통계의 평균, 중앙값 또는 최빈값을 제공하는 것과 같이 요약을 통해 데이터 세트를 설명하는 데 사용된다.

A/B 테스트

분할 테스트 혹은 버킷 테스트라고도 한다. 요소의 두 버전을 비교하여 어떤 버전이 더 우수한지 사전 정의된 측정기준을 가지고 확인한다. 현재 버전을 대조군, 수정된 버전을 실험군이라 하고 실험을 한다.

상관관계 분석

두 변수가 서로 관계가 있는지 판단하는 분석기법이다. 만약 두 변수가 관련성이 있는 것으로 판명되면 다음단계는 관계가 무엇인지 판단하는 것이다.

회귀 분석

종속 변수가 데이터 세트 내의 독립 변수와 어떻게 관련되는지를 확인한다. 독립 변수 값이 변할 때 종속 변수의 값이 어떻게 변하는지를 결정하는 데 도움이 된다.


기계학습

인간은 패턴과 관계를 발견하는 데 능숙하다. 그러나 대용량 데이터를 빠르게 처리할 수 없다. 기계는 대용량 데이터를 신속하게 처리하는 데 능숙하지만 방법을 알고 있는 경우에만 가능하다.

인간 지식이 기계의 처리 속도와 결합될 수 있다면 기계는 인간의 개입 없이도 많은 양의 데이터를 처리할 수 있을 것이다. 이것이 기계학습의 기본 개념이다.

분류(지도 기계 학습)

분류는 데이터를 미리 학습되어 있는 범주들 가운데, 연관성이 있는 범주로 분류하는 지도 학습 기법이다.

클러스터링(비지도 기계 학습)

클러스터링은 데이터를 여러 그룹으로 나누어 각 클러스터의 데이터가 비슷한 속성을 갖도록 하는 비지도 기계 학습 기법이다.

이상치 탐지

주어진 데이터 세트 내의 나머지 데이터와 유의미하게 상이하거나 일치하지 않는 데이터를 찾는 기법이다.

필터링

수많은 후보 아이템 가운데에서 자동적으로 관련 아이템을 찾는 기법이다.


의미 분석

기계가 텍스트와 음성 데이터에서 유의미한 정보를 추출하기 위해서는 인간과 같은 방식으로 이해해야한다. 텍스트 및 음성에서 의미 있는 정보를 추출하는 방법을 나타낸다.

자연어 처리

사람의 말과 문자를 사람이 이해하는 것처럼 컴퓨터가 이해할 수 있게 하는 과정이다. 음성을 인식하기 위해서 시스템은 음성 데이터를 발음 기호르 나타내는 등의 작업을 수행하여, 이를 이해하려고 한다.

텍스트 분석

텍스트 분석은 데이터마이닝, 기계 학습 및 자연어 처리 기술을 적용하여 비정형 택스트에서 가치를 추출하는 분석이다. 텍스트의 의미를 발견하는 기능을 제공한다.

정서 분석

정서 분석은 개인의 편견이나 감정을 판단하는 데 초점을 둔 텍스트 분석의 특수한 형태이다. 개인의 감정에 대한 정보뿐만 아니라 감정의 정도 또한 제공하고자 한다.


시각화 분석

시각화 분석은 시각적으로 인식을 가능하게 하거나 향상시키기 위해 데이터를 그림으로 표현하는 데이터 분석의 한 형태이다.

히트맵

히트맵은 패턴이나 데이터 구성을 표현하기 위해 부분-전체 관계와 데이터의 지리적 분포를 활용하는 효과적인 시각화 분석 기법이다. 데이터 세트 내에서 관심 영역을 식별하고 데이터 세트 내의 극도로 높거나 낮은 부분을 찾을 수 있다.

시계열 그래프

시계열 그래프를 사용하면 주기적으로 기록된 데이터를 분석할 수 있다. 이러한 유형의 분석을 시계열 데이터를 사용한다.

네트워크 그래프

시각화 분석의 맥락에서 네트워크 그래프는 상호 연결된 개체들의 집합을 나타낸다. 각 개체들은 직간접적으로 서로 연결될 수 있다. 네트워크 내 개체들의 관계를 분석하는 데 초점을 맞춘 기법이다.

공간 데이터 매핑

공간 또는 지형 공간 데이터는 개인적 개체들의 지리적 위치를 식별하고자 할 때 일반적으로 사용된다. 공간 데이터 분석은 개체 간의 다양한 지리적 관계와 패턴을 찾기 위해 위치 기반 데이터를 분석하는 데 초점을 맞춘다.

 

 

반응형

댓글