본문 바로가기

IT/빅데이터9

[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 7장 정리) 제 7장 빅데이터 저장 기술 온디스크 저장 장치 온디스크 저장 장치는 일반적으로 장기간 저장을 위해 저렴한 하드 디스크 드라이브를 사용한다. 분산 파일 시스템 분산 파일 시스템은 저장되는 데이터에 대해 종속적이지 않으므로 스키마가 없는 데이터 저장소를 지원한다. 일반적으로 복제를 통해 데이터를 여러 위치에 복사하여 중복성 및 높은 가용성을 제공한다. 반정형 및 비 정형 데이터와 같은 데이터 세트를 저장할 수 있다. 관계형 데이터베이스 관리 시스템 관계형 데이터베이스 관리 시스템(Relational Database Management System, RDBMS) 은 임의의 읽기/쓰기 특성을 사용하여 소량의 데이터가 포함된 트랙잭션 작업부하를 처리하는 데 적합하다. ACID 를 준수하며, 일반적으로 단일노드로.. 2022. 8. 27.
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 6장 정리) 제 6장 빅데이터 처리에 대한 개념 빅데이터 처리에 대한 개념 정리 병렬 데이터 처리 벙렬 데이터 처리는 하나의 큰 작업을 구성하는 여러 하위 작업의 동시 처리 개념이다. 분산 데이터 처리 분산 데이터 처리는 동일하게 ‘분할-정복(divide and conquer)’원리가 사용된다는 점에서 병렬 데이터 처리와 매우 연관성이 높다. 그러나 분산 데이터 처리는 물리적으로 분할되어 있는 장치들이 네트워크화되어 하나의 클러스터를 이룬 형태에서만 이루어진다. 하둡 하둡(Hadoop)은 대규모의 데이터를 저장하고 처리하기 위한 오픈소스 프레임워크로, 별도의 하드웨어 없이 범용 하드웨어로 구성이 가능하다. 작업부하 처리 빅데이터에서의 작업부하 처리는 일정시간 내에 처리되는 데이터의 양과 특성으로 정의된다. < 두 종.. 2022. 8. 25.
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 5장 정리) 제 5장 빅데이터 저장에 대한 개념 빅데이터 저장 기술의 기본 메커니즘 이해 클러스터(Clusters) 컴퓨팅에서 클러스터는 밀접하게 결합된 서버 또는 노드들의 모음 파일시스템 및 분산 파일 시스템 파일시스템은 플레시 드라이브, DVD 및 하드리아브와 같은 저장 장치에 데이터를 저장하고 구성하는 방법 분산 파일 시스템은 클러스터 노드에 분산된 대용량 파일을 저장할 수 있는 파일 시스템 NoSQL NoSQL 데이터베이스는 반정형, 비정형 데이터를 수용할 수 있도록 설계되었으며, 높은 확장성과 결함 포용성을 가진 비관계형 데이터베이스 샤딩 샤딩(sharding)이란 대규모의 데이터 세트를 샤드라 불리는 더 작고 관리하기 쉬운 데이터 세트로 수평분할 하는 프로세스를 말한다. 복제 복제는 여러 노드에 레플리가(.. 2022. 8. 24.
반응형