제 5장 빅데이터 저장에 대한 개념
빅데이터 저장 기술의 기본 메커니즘 이해
클러스터(Clusters)
컴퓨팅에서 클러스터는 밀접하게 결합된 서버 또는 노드들의 모음
파일시스템 및 분산 파일 시스템
파일시스템은 플레시 드라이브, DVD 및 하드리아브와 같은 저장 장치에 데이터를 저장하고 구성하는 방법
분산 파일 시스템은 클러스터 노드에 분산된 대용량 파일을 저장할 수 있는 파일 시스템
NoSQL
NoSQL 데이터베이스는 반정형, 비정형 데이터를 수용할 수 있도록 설계되었으며, 높은 확장성과 결함 포용성을 가진 비관계형 데이터베이스
샤딩
샤딩(sharding)이란 대규모의 데이터 세트를 샤드라 불리는 더 작고 관리하기 쉬운 데이터 세트로 수평분할 하는 프로세스를 말한다.
복제
복제는 여러 노드에 레플리가(replica)라고 하는 데이터 세트의 복사본을 저장하는 것
< 복제를 구현하는 데 사용되는 방법 >
- 마스터 슬레이브
복제 도중에, 노드들은 마스터 슬레이브 구성으로 정렬되고, 모든 데이터는 마스터 노드에 써진다. 그리고 일단 데이터가 마스터 노드에 저장되면 데이터는 여러 슬레이브 노드로 복제 된다.
- 피어 투 피어
복제를 하용하면 모든 노드가 동일한 수준에서 작동한다. 노드 간에는 마스터 슬레이브 관계가 없는 것이다.
CAP 정리
브루어의 정리라고도 알려진 CAP 정리는 분산 데이터베이스 시스템과 관련된 세가지 제약 조건을 보여준다.
- 일관성 - 노드에 무관하게 읽기 작업은 동일한 데이터를 생성한다.
- 가용성 - 읽기 및 쓰기 요청은 항상 성공 또는 실패의 형태로 확인된다.
- 분할 포용성 - 데이터베이스 시스템은 클러스터를 여러 개의 사일로(silo)로 분할시키는 통신 중단에도 불구하고 읽기 및 쓰기 요청을 처리한다.
ACID
ACID 는 트랜잭션 관리와 관련된 데이터베이스 설계 원리
- 원자성(Atomicity) : 모든 작업이 항상 완전 성공하거나 완전 실패하도록 한다.
- 일관성(Consistency) : 스키마 조건을 준수하는 데이터만 기록할 수 있도록 한다.
- 고립성(Isolation) : 트랜잭션 결과가 완료될 때까지 다른 작업에서 확인 할 수 없도록 한다.
- 지속성(Durability) : 작업결과가 영구적으로 지속되는 것을 보장(트랜잭션 실행 후 되돌릴 수 없다.)
→ 가용성을 희생하고 일관성을 보장
BASE
BASE 는 CAP 이론을 기반으로 분산 기술을 사용하는 데이터 베이스 시스템을 설계하는 데 사용되는 원리이다.
- 이용 가능한(Basically Available) : 클라이언트의 요청을 항상 확인한다.
- 소프트 상태(Soft state) : 데이터를 읽어들일 때 데이터베이스가 일관성 없는 상태일 수 있음을 의미한다.
- 궁극적 일관성(Eventual consistency) : 쓰기작업을 수행한 직후 다른 읽기 작업을 요청했을 때 일관된 결과를 반환하지 못할 수도 있는 상태
→ 가용성을 강조
반응형
'IT > 빅데이터' 카테고리의 다른 글
[빅데이터] 인공지능 시대의 비즈니스 전략 (2부 정리) (0) | 2022.09.02 |
---|---|
[빅데이터] 인공지능 시대의 비즈니스 전략 (1부 정리) (0) | 2022.08.31 |
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 8장 정리) (0) | 2022.08.28 |
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 7장 정리) (2) | 2022.08.27 |
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 6장 정리) (0) | 2022.08.25 |
댓글