3부 실질적 실행
8장 데이터 활용의 단계
데이터는 분석하는 것이 아니라 활용하는 것
데이터 분석의 의미는 ‘숨겨진 인사이트를 찾아내서 의사결정에 사용하기 위해서’라고 생각한다. 데이터 분석은 데이터 활용의 여러 형태 중 하나이다. 데이터 분석보다 중요한 것이 데이터 가치화이다. 기존 데이터를 통해 전에 없던 새로운 가치를 갖는 데이터를 만들어내는 것이 더 좋은 데이터 활용 방법이다. 데이터 가치화에서 끝나는 것이 아니다.
진정한 데이터 활용은 분석을 통해 알게된 인사이트와 새로 만들어낸 가치를 통해 ‘비즈니스를 변회'시키는 것이다.
반드시 거쳐야 하는 단계
- 1단계 데이터 파악: 아주 구체적으로
- 2단계 파일럿 프로젝트: 프로세스 변경 중심으로 작고 빠르게
- 3단계 데이터 수집 및 저장: 원시 데이터를 한곳에
- 4단계 본격적 활용 및 기술・기술・노하우의 성술: 데이터 가치화, 개선 요소 발굴, 업무 프로세스 변경, 업무 효율화, 의사결정 방식 변경, 차변화된 경쟁 확보, 수익 증대, 비용 절감 등을 위한 데이터 활용 추진
- 5단계 비즈니스 확장 및 신규 비즈니스 개발: 기업 내에서 범용화된 기법을 바탕으로 기존 비즈니스를 확장하고, 새로운 비즈니스 모델을 개발
3단계 데이터 수집 및 저장
- 중요 1 - 각 시스템의 데이터를 별도의 단일 저장 공간에 모아서 저장해야한다.
- 중요 2 - ‘원래 모습 그대로의 원시데이터'로 데이터 레이크에 변형되지 않은 원래 모습 그대로의 데이터를 저장해야한다.
데이터 레이크(data lake) : 전사의 모든 혹은 중요 데이터를 모아놓는 데이터 저장・관리 시스템
데이터 거버넌스(data governance) : 전사의 데이터를 어떻게 잘 관리할 것인가를 다루는 분야
9장 현실적인 이슈
데이터 전문 조직의 구성
IT 조직의 일이 아니다
데이터 활용에서 IT 부서의 역할을 필수적이다. 그러나,
- IT 의 역할은 각종 IT 시스템의 구축과 운영인데 이때 가장 중요한 가치는 안정성이다.
- 데이터 조직의 역할은 그 전에는 알지 못했던 어떤 것을 찾고, 없던 것을 만들어서 기업을 변화시키는 것이다. 이때 가장 중요한 가치는 변화이다.
안정과 변화, IT와 데이터 부서가 상반된 가치를 추구하는 집단이다 보니 서로를 인식하는 것도 다를 수밖에 없다. 차이를 강조하기 위해 많이 과장하였다. (그러나 그 과장이 굉장히 인상 깊다.)
- IT 담당자 입장에서 데이터 담당자란 → 시스템에 부담을 주는 존재, 머신러닝을 돌린다며 시스템 자원이나 축내는 존재
- 데이터 담당자 입장에서 IT 담당자란 → 앞뒤 꽉 막힌 변화의 방해자, 기존 환경만 계속 유지하려는 수구 세력
데이터 관련 직종
- 데이터 사이언티스트(Data Scientist) : 데이터를 직접 다룰 수 있고 통계와 머신러닝 등의 광범위한 분석 분야를 아우르며, 프로그래밍 능력도 어느정도 있어야한다. 창의성을 필요로 한다.
- 현업 데이터 분석가(Citizen Data Scientist) : 기존에 사업 조직에서 사업 운영에 필요한 분석 리포트를 만들던 담당자들이 시티즌 데이터 사이언티스트로 발전하는 경우가 많아질 것
- 데이터 기획자(Data Businessperson) : 데이터 사업가라고도 한다. 프로젝트 관리 역할을 하면서 데이터 사이언티스트팀을 이끌어나간다. 기술보다는 경영에 주안점을 두고, 전반적인 방향 설정을 한다.
- 데이터 엔지니어(Data Engineer) : 데이터 개발자라고도 한다. 데이터를 수집하고 데이터 관련 시스템을 개발하고 체계화하는 일을 한다.
- 데이터 스튜어드(Data Steward) : 각 부서에 존재하는 데이터 관리자이다. 비즈니스 관점에서 데이터 생성・가공・활용 등 단계별 데이터 관리를 한다.
위 직종들은 비즈니스 리더, 트랜슬레이터, 시각화 분석가, 워크플로우 조정자, 딜리버리 매니저 등으로 더 세분화 될 수 있다.
데이터 전문가 채용과 취업
데이터 분석 경력자를 채용할 때는 자신이 했던 일을 구체적으로 준비해서 발표하게 하는 프레젠테이션 면접이 좋다.
머신러닝 운영의 새로운 문제들
개발 서버와 운영 서버를 분리함으로써 얻는 이점이 분명하기 때문에 이런 서버 분리 체계는 일반화되어 있다. 그러나 머신러닝 운영은 개발, 운영의 분리가 마냥 쉽지 않다.
- 문제 : 머신러닝을 일부 샘플 데이터나 통계화된 데이터가 아니라 원래의 모습 그대로의 전체 데이터를 사용해야 더 효과 적이다. 개발이든, 테스트이든, 실제 운영이든 모두 전체 데이터가 필요하다는 것이 문제의 원인이다.
- 방안 : 데이터 세트 및 서버 구성의 경우에는 운영 서버에 하나의 데이터 세트를 놓고, 나머지 머신러닝용 데이터 세트 하나만 더 구성한 후에, 권한 제어를 통해 이 하나로 머신러닝을 위한 운영・개발・테스트를 다 소화하는 방법이 있다.
10장 데이터 분석
데이터 분석이 뒤처진 이유
탐색적 분석
EDA(Exploratory Data Analyitcs)라고 하는 탐색적 분석은 형사가 수사를 하듯이 데이터를 탐색하는 것이다. 인간이 무엇인가를 찾고 이해하려는 과정이다. 그래프를 그려 눈으로 보면서 감을 잡고 데이터를 이런 관점으로 보고 저런 관점으로 본다. 분석을 위한 분석에 빠져들지 않도록 조심해야하며, 명확한 분석 범위와 방향을 정하면 창의적 접근이 어려워지므로 탐색적 분석이 어려운 이유이다.
'IT > 빅데이터' 카테고리의 다른 글
[빅데이터] 빅데이터 분석과 활용 (V 정리) (0) | 2022.10.24 |
---|---|
[빅데이터] 빅데이터 비즈니스 이해와 활용 (PART 3 정리) (0) | 2022.09.24 |
[빅데이터] 인공지능 시대의 비즈니스 전략 (2부 정리) (0) | 2022.09.02 |
[빅데이터] 인공지능 시대의 비즈니스 전략 (1부 정리) (0) | 2022.08.31 |
[빅데이터] 빅데이터 기초: 개념, 동인, 기법 (제 8장 정리) (0) | 2022.08.28 |
댓글