인사이트
데이터 분석, 이렇게 시작해 보자
2023-09-05
✏️ 이런 분들은 꼭 읽어보세요!
- 데이터 분석을 어떻게 활용하는지 알고 싶은 분
- 다양한 유형의 데이터 분석을 정리하고 싶은 분
💡 데이터 분석에 중요한 3가지
데이터를 분석하기 위해서 중요하게 생각해야 할 포인트가 몇 개 있습니다. 그저 분석을 위한 데이터 분석이 되어서는 안 됩니다.
1. 데이터에 대한 이해가 중요합니다.
내가 분석해야 할 데이터의 흐름을 잘 살피고, 업무에 대한 분석도 함께 되어야 합니다. 업무에 대한 이해가 선행되어야 데이터를 이해할 수 있으며, 그 이후에 분석이 이루어질 수 있기 때문입니다. 데이터에는 생명이 있습니다.
예를 들어 어떤 상품을 생산하는 라인을 가진 공장이라고 가정해 보겠습니다. 어떠한 상품이 나오기까지 데이터는 어떤 생명주기를 가지게 될까요? 1) 먼저 어떤 상품 코드가 있을 거고, 2) 그 상품을 구성하는 부품이나 원자재 코드나 고유 번호가 있을 겁니다. 3) 그런 기준정보나 코드 테이블로부터 데이터의 생명이 시작됩니다.
그 데이터들이 만나서 제조공정 데이터를 만들어 낼 겁니다. 처음 조립이 되는 부품들이 언제, 어떤 라인에서 어떤 직원에 의해 조립이 되었다는 로그 데이터들이 쌓일 것이고요. 그 데이터는 하나의 제품 코드를 가지고 각 공정을 지나게 됩니다. 그렇게 데이터는 처음 코드 데이터에서 다양한 공정의 로그 테이블에 쌓이게 될 것이고요. 그리고 마침내 완성품이라는 플래그를 가지게 될 것입니다. 그리고 고객에게 출하가 되면 해당 데이터의 생명 주기는 끝이 나게 됩니다.
물론 저는 이렇게 상품 생산에 대한 데이터를 예를 들었지만, 어떤 회사든지 그들이 가지고 있는 데이터 생명 주기를 정확하게 인지하고 있어야 정확한 데이터 분석을 하실 수 있습니다.
2. 두 번째, 목적입니다.
데이터를 분석해서 결국 어떤 결과를 도출하고 싶은지를 명확하게 하고 데이터 분석을 시작해야 합니다. 목적이 매출 증진인지, 공정 불량률 감소인지, 새로운 서비스 개발인지에 따라 봐야 하는 지표들이 달라지고 데이터가 달라질 것입니다.
이렇게 목적을 정하고 나면 목표도 함께 설정해야 합니다. 불량률을 감소시킬 거면 얼마나 감소시키는 게 목적인지 정확하게 설정해야 합니다. 그렇게 지표를 선정하고 해당 지표에 대한 분석을 시작해야 목적에 부합하는 정확한 데이터 분석을 할 수 있게 되는 겁니다. 그때, 구성원이 있다면 지표마다 구성원에게 오너쉽(=메트릭 오너)을 부여합니다. 그래야 해당 지표에 대하여 깊게 이해할 수 있으며, 지표의 변화를 잘 도출할 수 있으며, 해당 지표는 물론이고 관련 지표까지 파악할 수 있게 됩니다. 그리고서 제일 마지막 성과 또한 측정해야 합니다. ‘어떤 이슈가 있었고, 해당 이슈로 인하여 어떤 데이터 분석을 하게 되었고, 이 분석의 처방으로 일정한 조치를 하였더니 이 조치의 이전, 이후 변화가 얼마나 되었다’. 이것이 성과라고 볼 수 있을 겁니다. 물론 성과 측정 방법은 소속된 산업이나 업무의 특성상 달라질 수 있습니다.
3. 세 번째, 책임감입니다.
데이터 분석은 잘 드는 칼과도 같습니다. 이를 잘 쓰면 죽어가던 서비스도 살릴 수 있으며, 회사의 사명을 바꿀 수도 있습니다. 거꾸로 된다면 그 반대가 되겠죠? 데이터는 매우 객관적인 지표로 알고 있지만, 사실은 그렇지 않습니다. 어떤 한 사람이 회사 전체의 서비스와 기획을 모조리 다 이해할 수는 없을 것이고 그간 어떤 경험을 했는지, 어떤 목적을 가진 데이터인지에 따라 같은 지표를 보더라도 다른 해석을 할 수 있기 때문입니다. 그리고 정작 중요한 지표는 발굴하지 못해 못 보고 잘못된 결과를 내릴 수도 있습니다.
이를 위해서 데이터 분석가라면 다양한 업무의 경험과 많은 업무 도메인에 익숙해져 있어야 합니다. 직접적인 경험도 좋고 독서, 세미나 등을 통한 간접적인 경험도 중요하다고 생각합니다. 이렇게 잘된 분석이든 잘못된 분석이든 결론이 나고 나면 이는 회사에서 정책적으로 사용될 가능성이 커집니다. 그래서 데이터 분석을 할 때는 책임감을 느끼고 작은 것 하나 놓치지 않는 꼼꼼함이 필요하다고 생각합니다.
💡 데이터 분석, 이렇게 시작해 보자
데이터 분석을 공부한다는 것이 막연할 수 있습니다. IT 프로그래밍 언어도 공부해야 하고, SQL도 잘해야 하고, 데이터라는 도메인, 그리고 수학적 통계적 지식 등도 필요하다고 생각할 수 있습니다. 사실 틀린 말은 아닙니다. 하지만 이미 직장을 다니고 있으시다거나, 다른 시간적 여유가 없다면, 남들의 분석을 통해 공부할 수 있을 겁니다.
가장 먼저 해야 하는 건 데이터와 친해지는 일입니다. 데이터와 친해지기 위해서는 SQL을 공부하는 방법이 가장 확실하다고 생각합니다. SQL을 공부하면서 데이터라는 도메인과 친해지고, 그리고 차후 데이터를 분석하기 위해서 데이터를 전처리해야 하는데 이때 SQL만큼 확실하고 편리한 언어는 없다고 생각합니다. 가장 데이터 가까이서 데이터를 직접 핸들링하는 도구이기 때문입니다.
그러고 나서 저는 데이터 분석 공부를 처음 시작했을 때 우선 파이썬과 친해지기 위해 유튜브와 기본서를 가지고 무작정 따라 했습니다. 그리고 데이터 분석 기술 향상을 위해 kaggle 과 공공데이터포털(www.data.go.kr) 을 매일 접속했습니다.
kaggle은 특히 다른 훌륭한 데이터 분석가들이 직접 한 데이터 분석 소스를 그대로 볼 수 있고, 그들이 작성한 주석들까지도 친절하게 볼 수 있습니다. 그렇게 python을 통해 어떤 분석 결과를 도출하는지 직접 따라 하며 익혔습니다. 그리고 나서 공공데이터포털에 가서 비슷한 데이터를 찾아서 같은 방식으로 분석하는 연습을 했었습니다. 이런 식으로 연습하면서 데이터 분석에 대한 레퍼런스를 쌓아가는 것이 데이터 분석이라는 영역에 쉽게 다가가는 방법이라고 생각합니다. 물론 그 뒤에는 수많은 연습이 필요하겠죠.
자, 오늘은 ‘데이터 분석’에 대해서 데이터 분석이 가진 의미와 접근 방법에 대해서 설명해드렸고 간단한 예시도 보여드렸습니다. 여러분들이 이 글을 통해서 조금이나마 데이터 분석에 대해서 이해하셨으면 좋겠습니다. 그리고 데이터에 대한 이해도 함께 높아졌길 기대해 봅니다. 이런 기회를 통해서 여러분들과 제가 함께 성장하는 계기가 되길 바랍니다.
database전문가
프리랜서 히어로(크몽 블로그 필진)
저는 DBA, DA, 그리고 SQL 강사로 활동 중인 한종구입니다.
SQL 강의와 DB 관련 프로젝트들을 의뢰 받아 활동하고 있습니다.
SQL 관련된 책도 출간했습니다.