본문 바로가기

IT33

[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 5장 정리) 제 5장 빅데이터 저장에 대한 개념 빅데이터 저장 기술의 기본 메커니즘 이해 클러스터(Clusters) 컴퓨팅에서 클러스터는 밀접하게 결합된 서버 또는 노드들의 모음 파일시스템 및 분산 파일 시스템 파일시스템은 플레시 드라이브, DVD 및 하드리아브와 같은 저장 장치에 데이터를 저장하고 구성하는 방법 분산 파일 시스템은 클러스터 노드에 분산된 대용량 파일을 저장할 수 있는 파일 시스템 NoSQL NoSQL 데이터베이스는 반정형, 비정형 데이터를 수용할 수 있도록 설계되었으며, 높은 확장성과 결함 포용성을 가진 비관계형 데이터베이스 샤딩 샤딩(sharding)이란 대규모의 데이터 세트를 샤드라 불리는 더 작고 관리하기 쉬운 데이터 세트로 수평분할 하는 프로세스를 말한다. 복제 복제는 여러 노드에 레플리가(.. 2022. 8. 24.
[오픈소스SW 라이선스] BSD형 라이선스 오픈소스 소프트웨어 라이선스 가이드 3.0 의 내용 중 일부를 가져와서 정리한 것으로 더 자세한 내용을 파일을 참고하면 좋을 것 같다. 라이선스의 종류라던지 어떤 것들이 어느 분류에 포함되는 지 보려고 한다. BSD형 라이선스 BSD형 라이선스에는 BSD, MIT, Apache 라이선스 등이 포함되며, 비교적 오랜 역사를 가진 라이선스들이다. 이들 라이선스는 카피레프트(Copyleft) 조항을 포함하지 않으며, 의무사항도 비교적 간단하다. BSD 라이선스 BSD 라이선스는 버클리 대학에서 만든 라이선스로, 소프트웨어를 재배포할 때 저작권 표시를 할 것과 준수 조건 및 보증부인에 대한 고지사항을 소스코드 또는 문서 및 기타자료에 포함할 것을 요구하고 있다. 4개의 조항으로 구성된 BSD 4-Clause 라.. 2022. 8. 13.
[matplotlib] 데이터 별 시각화 처리 시각화의 목적 시각화는 데이터를 더 쉽게 이해하기 위해서 수행되는 작업이다. 숫자로 늘여진 테이블만 보는 것보다는 그래프로 보는 것이 우리가 더 직관적으로 보기 쉽다. 데이터마다 특성이 전부 다를텐데 이러한 각각의 데이터를 이해하기 위해서는 어떤 시각화가 필요한 지에 대해 학습한 내용을 정리해본다. 데이터를 이해하기 위해서 데이터마다 적합한 시각화가 있을 것 데이터 분류 데이터를 분류하고 나면 카테고리와 같은 데이터, 또는 연속된 숫자 값으로 된 데이터로 거의 분류된다. 카테고리 연속된 숫자 데이터 상황에 따른 시각화 처리 정리 카테고리 데이터 - sns.countplot 연속된 숫자데이터 - sns.histplot, sns.distplot 카테고리, 숫자 - sns.boxplot, sns.violinp.. 2022. 8. 12.
[Pandas] DataFrame 기초 앞서 Series 의 기초를 정리해보았는데 이어서 DataFrame 을 알아보고자 한다. DataFrame 2차원 자료구조 이며 컬럼, 인덱스, 데이터값 3가지의 구성요소로 이루어져있다. 행방향으로 순서를 보고, 컬럼으로 속성을 본다. # A, B, C, D, E math = [90, 92, 89, 90, 91] eng = [89, 90, 93, 91, 88] kor = [92, 91, 92, 90, 92] temp = {'math':math, 'eng':eng, 'kor':kor} grade_df = pd.DataFrame( temp, index=['A', 'B', 'C', 'D', 'E'] ) 위 예시와 같이 DataFrame 을 생성한다. 마치 리스트로 이루어진 딕셔너리를 생성한 것 같아 보인다. .. 2022. 8. 11.
[Pandas] Series 기초 Pandas pandas 는 새로운 자료구조 Series, DataFrame 를 제공한다. 파이썬에서 기본으로 제공해주는 리스트와 딕셔너리를 사용할 수 있지만 이것들을 사용하는 것은 마치 요리를 하기 전 칼과 도마와 같은 장비들을 직접 만드는 것에 빗댈 수 있을 것 같다. 데이터를 이리저리 쉽게 다룰 수 있도록 도와주는 것이 Series 와 DataFrame 이다. 이에 대해 간단한 것들에 대해서 정리하고자 한다. 필요한 것들이 있다면 그때그때 구글링해서 찾아쓰면 되기 때문이다. 우선, pands를 사용하기 위해서는 아래와 같이 import 를 해줘야한다. import pandas as pd 이제 Series 와 DataFrame 에 대해서 알아보자. Series 순서가 있는 1차원 자료구조이며 구성요소.. 2022. 8. 10.
[오픈소스SW 라이선스] 라이선스 소개 2 오픈소스SW 라이선스의 구체적 내용 공통적 준수사항 오픈소스SW 라이선스의 의무사항은 각각의 라이선스마다 조금씩 차이가 있지만 크게 나누어 보면 공통적으로 '저작권 관련 문구 유지', '제품명 중복 방지', '서로 다른 라이선스의 SW 조합 시 조합 가능 여부 확인' 등이 있고, 선택적으로는 '소스코드 공개', '특허관련 사항 준수' 등이 있다. 저작권 관련 문구 유지 저작권이란 표현된 결과물에 대해 발생하는 권리이며 저작물의 창작과 함께 자동적으로 부여된다. SW의 경우는 소스코드에 프로그램의 이름과 개발자, 버전, 연락처 등을 포함하고 있는 경우가 많으며 이러한 것들은 저작인격권으로 보호받는다. 오픈소스SW는 거의 대부분 소스코드 상단에 개발자 정보와 연락처 등이 기록되어 있으며 개발자 정보를 임의로.. 2022. 8. 8.
반응형