본문 바로가기
IT/빅데이터

[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 5장 정리)

by uzzing' 2022. 8. 24.

제 5장 빅데이터 저장에 대한 개념

빅데이터 저장 기술의 기본 메커니즘 이해

클러스터(Clusters)

컴퓨팅에서 클러스터는 밀접하게 결합된 서버 또는 노드들의 모음

파일시스템 및 분산 파일 시스템

파일시스템은 플레시 드라이브, DVD 및 하드리아브와 같은 저장 장치에 데이터를 저장하고 구성하는 방법

분산 파일 시스템은 클러스터 노드에 분산된 대용량 파일을 저장할 수 있는 파일 시스템

NoSQL

NoSQL 데이터베이스는 반정형, 비정형 데이터를 수용할 수 있도록 설계되었으며, 높은 확장성과 결함 포용성을 가진 비관계형 데이터베이스

샤딩

샤딩(sharding)이란 대규모의 데이터 세트를 샤드라 불리는 더 작고 관리하기 쉬운 데이터 세트로 수평분할 하는 프로세스를 말한다.

복제

복제는 여러 노드에 레플리가(replica)라고 하는 데이터 세트의 복사본을 저장하는 것

< 복제를 구현하는 데 사용되는 방법 > 

- 마스터 슬레이브

복제 도중에, 노드들은 마스터 슬레이브 구성으로 정렬되고, 모든 데이터는 마스터 노드에 써진다. 그리고 일단 데이터가 마스터 노드에 저장되면 데이터는 여러 슬레이브 노드로 복제 된다.

- 피어 투 피어

복제를 하용하면 모든 노드가 동일한 수준에서 작동한다. 노드 간에는 마스터 슬레이브 관계가 없는 것이다.

CAP 정리

브루어의 정리라고도 알려진 CAP 정리는 분산 데이터베이스 시스템과 관련된 세가지 제약 조건을 보여준다.

  • 일관성 - 노드에 무관하게 읽기 작업은 동일한 데이터를 생성한다.
  • 가용성 - 읽기 및 쓰기 요청은 항상 성공 또는 실패의 형태로 확인된다.
  • 분할 포용성 - 데이터베이스 시스템은 클러스터를 여러 개의 사일로(silo)로 분할시키는 통신 중단에도 불구하고 읽기 및 쓰기 요청을 처리한다.

ACID

ACID 는 트랜잭션 관리와 관련된 데이터베이스 설계 원리

  • 원자성(Atomicity) : 모든 작업이 항상 완전 성공하거나 완전 실패하도록 한다.
  • 일관성(Consistency) : 스키마 조건을 준수하는 데이터만 기록할 수 있도록 한다.
  • 고립성(Isolation) : 트랜잭션 결과가 완료될 때까지 다른 작업에서 확인 할 수 없도록 한다.
  • 지속성(Durability) : 작업결과가 영구적으로 지속되는 것을 보장(트랜잭션 실행 후 되돌릴 수 없다.)

→ 가용성을 희생하고 일관성을 보장

BASE

BASE 는 CAP 이론을 기반으로 분산 기술을 사용하는 데이터 베이스 시스템을 설계하는 데 사용되는 원리이다.

  • 이용 가능한(Basically Available) : 클라이언트의 요청을 항상 확인한다.
  • 소프트 상태(Soft state) : 데이터를 읽어들일 때 데이터베이스가 일관성 없는 상태일 수 있음을 의미한다.
  • 궁극적 일관성(Eventual consistency) : 쓰기작업을 수행한 직후 다른 읽기 작업을 요청했을 때 일관된 결과를 반환하지 못할 수도 있는 상태

→ 가용성을 강조

 

반응형

댓글