DevGround 2019 세션 요약

2019-06-27

conference

Summary

세션1: 데이터와 머신러닝이 비즈니스와 만날 때 발생할 수 있는 비극들 - 하용호님 (Kakao)

비즈니스에서 데이터 분석과 머신러닝 도입에서 장애와 성공적인 밸류를 만드는 법
세션2: AI 프로젝트 간지나게 잘 진행하는 법 - 백정상님 (Google)

AI 프로젝트 셋업을 위해 필요한 것들
세션3: 온라인 게임 데이터 분석 사례와 향후 과제 - 이은조님 (NCSoft)

현업에서 데이터 분석을 적용하면서 맞닥뜨리는 현실적인 문제들과 해결 아이디어
세션 5: 맛있는 데이터를 물어다주는 멍멍이 - 노상래님 (마켓컬리)

엑셀 시대에서 실시간 대시보드 & 예측 시스템 시대까지 데이터 분석을 비즈니즈에 도입한 과정
세션 6: MOBILITY X DATA : 모빌리티 산업의 도전 과제 - 변성윤님 (쏘카)

모빌리티 산업의 데이터와 다양한 문제들에 대해 소개
세션 7: 데이터가 흐르는 조직 만들기 - 양승화님 (마이리얼트립)

데이터가 흐르는 조직을 위해 시도한 실질적인 노력들

세션1: 데이터와 머신러닝이 비즈니스와 만날 때 발생할 수 있는 비극들 - 하용호님

데이터에서 패턴을 찾아내어 비지니스 기회로

많은 회사들이 업무에 데이터와 머신러닝을 도입하고 싶어하지만 잘 안됨.

왜 -> 많은 사람들이 데이터로 일을 해본 적이 없기 때문

대표적인 잘못된 회사의 데이터 사업 계획 데이터를 모아서 추천도하고 프로파일링도하고.. 유저의 성향을 파악하고 인사이트를 도출 후, 마법의 뿅

구슬이 서말이어도 꿰어야 보배

일단 서말이 안된다 (데이터가 없다)
꿰는 기술이 없다 (관련 전문가가 없다)
보배 (뭐가 보배인지 모른다)

구슬이 서말이어도 꿰어야 보배 -> 가능하려면

-> 엄청난 데이터 필요 -> 엄청난 서버 -> 엄청난 엔지니어 —-> 다없다

1. 일단 서말이 없다.

데이터로 뭐하지 > 추천이나 광고에 쓸거에요 -> 사실 엄청난 데이터가 필요하다

기업의 데이터는 2가지 폼으로 존재 -> 없거나, 쓸 수 없거나 ex) 사장님: 우리 회사 데이터 진짜 많다 오면 뭐든지 할 수 있다. ~다 거짓말이다…~
추천으로 의미가 있기 위해서는 MAU 20만은 필요 (다운로드 기준 100만)
광고기준으로는 적어도 MAU 200민 (다운로드 기준 1000만)
유저마다 수십 수백건 서비스 사용기록이 필요

회사는 노력을 본질에 집중해야 한다.

초기라면 그냥 인기 순위로도 충분하다.
더 쉽고 빠르고 편한 유저 플로우를 만드는 것이 좋다.

2. 꿰는 기술이 없다.

인력 -> 일단 비싸고 구하기 힘듦

머신러닝 엔지니어 6천
좋은 엔지니어 1억
훌륭한 엔지니어 싯가 -> 일반 대기업은 매력적인 직장이 아님

데이터도 없고 회사의 핵심이 다른 곳에 있기때문에 가지 않음.

선호도: 카카오 > 네이버 > 스타트업 > 통신사들 > 전자회사들 > 그외…

3. 보배: 비지니스와 만남 기술은 이익을 만들어내야함

실패하는 환상적인 만남

뭔가 새로운 것을 도전하고 싶은 상위권자
빅데이터와 머신러닝도 쓰는 간지나는 서비스를 꿈구는 기획자
데이터와 머신러닝을 공부했지만 현업적용은 못해본 열정적인 엔지니어

실패하는 이유

머신러닝을 쓰고 싶다 -> 우리 문제에 어떻게 구겨넣지 (x)

잘못된 곳에 적용하거나 필요하지 않은 상황에 적용

핵심: 메인 비즈니스의 밸류 체인에서 비효율 구간을 찾아야 한다

비지니스 밸류 체인

회사의 메인비지니스 ———————–>
뭔가 멋진것 (새롭게 데이터로 하는 비지니스) —>
새로운 비지니스는 시간이 걸리고 파급이 적다

회사에서 데이터로 밸류를 만들 수 있는 부분: 메인 비지니스 밸류 체인에서 비효율 적인 부분을 효율적으로 하는 것

사람이 감으로 하거나
사람이 하기에 느려지는 부분 (병목인 부분) -> 머신러닝과 데이터를 이용해, 대체하여 자동화 하거나, 판단을 보조하여 빠르게 한다.

복잡해 보인다고 답은 아니다.

예제: 매출을 올리기 위해, 메인 상품 진열 순서는 어떻게 하는게 좋을까? 간단한 데이터 활용 멋있고 간지나는 머신러닝: 유저마다 프로파일하여, 최적을 추천

세상 모든 것은 ROI

1) 룰 베이스 접근으로 60짜리를 빠르게 10개 만들 수 있음 > 600개 2) 머신러닝 접근으로 80짜리를 1개 만들 수 있음 > 80개

기회비용 일단 가장 심플한 방법을 방치하고 말고 빨리 하는 것 심플에서 충분히 뽑아내고 있을 때 머신러닝을 시도하는 것이 좋음

그럼 언제,왜 머신러닝 하는가? 규모가 커지면서, 심플한 방법을 도저히 매니지할 수 없을 때

카카오에서 한 것: 플러스 친구 메시지 최적화

카카오는 뭐로 돈 벌지? 광고(이미 잘하고 있음), 메시지(돈버는 것 -> 플러스 친구 메시지)

플러스 친구 메시지 > 본질과 밸류 체인이 뭐지?

무엇을 보낼 것인가: 컨텐츠 셀렉터
누구에게 보낼 것인가: 반을 잘 할 유저를 선택
효과는 어땠나: 사람이 일일히 분석하지 않도록 로봇 분석가를 개발

세션2: AI 프로젝트 간지나게 잘 진행하는 법 - 백정상님

1. 성공 & 실패하는 머신러닝 프로젝트

멋지고 분위기 좋은 팀(like Brain팀)의 성공조건

세계 최고 수준의 팀을 기반으로
해결하고자 하는 비즈니스 문제가 굉장ㅎ ㅣ크고 아름답고
그 문제를 해결하면 생기는 비즈니스 임팩트가 커야 함
무조건 성공한다는 확신이 있어야함
실패 가능성을 최소화 해야함

실패하는 머신러닝 프로젝트의 이유들

비즈니스에 대한 이해 부족
낮은 데이터 품질 (로그를 쌓는 시간은 전체 개발 시간에 비해 턱없이 부족)
잘못된 머신러닝 사용
편견 또는 확증편향
부족한 인프라 지원
부실한 계획과 거버넌스 부재

머신러닝 프로젝트를 실패하지 않으려면

풀어야 하는 비즈니스의 임팩트가 충분히 크고
비즈니스 도메인 지식이 충분해야 하고
높은 품질의 데이터를 쉽게 획득할 수 있어야 하며
머신러닝이 실제 프로젝트에 도움이 되어야하고
편견이 생기지 않도록 중심을 잡아줄 데이터 사이언티스트가 필요하며
비용 효율적이며 충분한 인프라를 확보하고
충분한 프로젝트 여정에 대한 계획을 기반으로
최고 의사 결정자의 서포트를 충분히 받아 진행해야하며, 그로 인해 충분히 일정이 쪼야여 됨 (기본 유지비가 꽤 큼)

2. AI 프로젝트 셋업

비즈니스 케이스 탐색

크게 생각해야함. Think x 10
팀 유지비 배비 최소 10배를 더 벌어주는 프로젝트여야 함

최초 머신러닝 팀 빌딩

프러덕트 -> 프로덕트 매니저 (1)
비즈니스 -> 비즈니스 분석가 (1)
데이터 사이언스 -> 데이터 사이언티스트 (1)
머신러닝 -> 머신러닝 엔지니어 (1)

프로젝트 예산 => 8억 (투자비용)

팀 인건비 -> 4명 월급 4000만원
인프라 비용 -> 3억 (하둡 클러스터 온프레미스)
소프트웨어 구입 및 구독 (1000만원)
예상 개발 기간 (1년) => 8억 ==> 80억을 버는 프로젝트를 찾아야함

프로덕트 디자인 및 마일스톤 플래닝

쉽게 말하면 제품 기획
풀어야 할 비즈니스 문제를 명확하게 정의
프로적트를 통해 얻는 비즈니스 임팩트를 계측 가능하도록 정의

데이터 디자인

데이터 = 돈
프로턱트에서 필요로 하는 모든 데이터는 수집할 수 있어야 함
비교적 유연하게 변경 가능한 JSON으로 디자인 하는 경우가 많음

밸류 임팩트가 큰 데이터

구조화된 데이터
시계열
이미지
비디오
텍스트
오디오

데이터 파이프라인 구축

데이터의 유실이 없어야 함
중복된 데이터 허용 및 dedup
가급적이면 매니지드 서비스 혹은 ETL플랫폼을 활용

데이터 분석

EDA
데이터 상관관계 분석
통계적 검증: 빈도검증, 타당도 검증, z 스코어 검증, t 스코어 검증
고전적 머신러닝 회귀모형 클러스터링
데이터의 품질과 특징을 분석해야 한다
데이터 분석만으로도 문제를 해결하는 경우가 많음. 이 경우에는 바로 비즈니스 임팩트를 만들고 다음 프로젝트를 간지나게 시작한다.
통계나 머신러닝으로 threshold를 구할 수 있다면 룰 베이스 모델 구현

머신러닝 시작

분석 결과에 따른 최적의 모델 선택
AI툴셋 - AI hub
모델 개발: 텐서플로, pytorch

모델 학습 및 평가

피쳐 셀렉션의 두 가지 전략: 다 넣자 vs 상관관계에 따라 선택하자
절충안: 다 넣고 상관관계가 높은 피쳐에 웨잇을 더 가하자
피쳐 엔지니어링 & 셀렉션 작업 시작 (data prep등 활용)
모델 배포 > 아무거나 써도 됨

비즈니스 임팩트 실현

데이터 QA의 경우 예전에는 QA 엔지니어가 하다가 최근에는 데이터 엔지니어가 데이터 검증 레이어를 만들어서 ETL툴에서 Validation를 자동화 하는 경우가 많음.

세션 3: 온라인 게임 데이터 분석 사례와 향후 과제 - 이은조님

1. 온라인 게임 데이터의 특징

현실세계와 매우 유사한 환경과 경험 제공

성장 활동: 퀘스트, 레벨얼, …
경제 활동: 사냥/채집, 거래, 경매, …
사회 관계: 친구, 파티, 길드/혈맹, …

거의 모든 종류의 데이터 분석 가능

소셜 네트워크 분석
텍스트 분석
이미지 및 동영상 분석

데이터 활용 사례

게임 현황 지표 및 심화 분석
- 주요 업데이트 전/후 효과 및 동향파악
- 매출, 게임 활동 관련 지표
기계 학습 및 통계 모델링
- 재화 이상 탐지
- 작업장 탐지
- 모바일 광고 어뷰징 탐지

2. 불쾌한 골짜기 (Uncanny valley) - Robotics

Uncanny valley: 로봇 외형을 점점 인간과 비슷하게 만들다 보면 오히려 이질감이 커지는 지점이 발생함.
데이터 분석 기법을 고도화 하다 보면 오히려 활용성이 떨어지는 순간이 발생함 (처음에는 현황 지표만 볼 수 있게 되어도 성과가 있지만, 고도화된 기법을 도입하다 보니 성과가 떨어지게되었음)

무엇이 불쾌한 골짜기를 만드는가?

데이터
- 부정확한 레이블
- Concep drift
모델링
- 비용을 고려하지 않은 예측 분석
- 잘못된 테스트 셋 선정
- 모델의 복잡함
서비스 구현
- 테스팅 및 디버깅의 어려움

3. 어떻게 불쾌한 골짜기를 해결할 것인가?

데이터

오류의 원인

주관적 편향
불일치
사소한 실수

레이블 오류는 모델의 신뢰도에 직접적인 영향을 끼침

학습할 레이블 양이 많지 않다면?
오탐이 있으면 안되는 민감한 분야라면? (ex. 리니지 일부 영구정지자들 소송 사례)

엄밀한 레이블링 프로세스 구축하기

2인 이상의 운영자가 같은 데이터에 대해 독립적인 판단 후 레이블 결과가 같은 데이터만 학습에 활용
판정 사유 기입 후 누적된 판정 사유를 정형화 및 목록화 하여 활용
Leave One Out Cross Validation 사용 -> 99개의 데이터로 모델을 만들고 1개를 판정 -> 데이터가 이상하거나 잘못 레이블링 된 데이터

Weak supervision

낮은 신뢰도를 갖는 레이블로 어떻게 하면 높은 신뢰도의 모델을 만들 수 있을까?

Snorkel: labeling runction과 generative model로 이루어진 기계학습 시스템

레이블에 신뢰도를 부여하여 신뢰도가 높은 데이터는 높은 학습 가중치를 부여하고, 신뢰도가 낮은 데이터는 낮은 학습 가중치를 부여함

불명확한 레이블 문제 -> 확률로 표현

애초에 레이블 기준이 모호한 경우도 있음

이탈 예측: 가입/탈퇴가 불명확한 상황
이탈을 확률로 표현 -> Pareto/NBD model

Concep drift: 시간이 지남에 따라 대상 데이터의 통계적 특성이 변하는 상황

왜 Concept drift 문제가 많이 논의되지 않을까?

학계의 경우 지속성에 대해 고민할 필요가 없음
분야에 따라 데이터의 특성이 변하지 않을 경우: 개와 사람 이미지를 구분하는 모델

온라인 게임의 경우 콘텐츠의 소비속도가 어마어마하게 빠름

빈번한 게임 업데이트 및 이벤트
- 게임 밸런스의 변화
- 주요 컨텐츠 삭제 및 추가
- 비즈니스 모델 변경

어떻게 대처해야 하나?

Robust modeling
- 시간에 영향을 받지 않는 피처로만 모델 구축 (정교함이 떨어짐)
Change detection
- 예측 성능을 지속적으로 모니터링하다가 성능이 떨어지는 시점에 재학습
Online learning
- 학습 / 적용 과정을 분리하지 않고 라이브 환경에서 지속적으로 모델 개선 (추천 분야)
Citizen data scientist > 도메인 전문가들이 직접 데이터 분석에 참여 (분석도구, 인프라 제공)

2. 모델링

비용을 고려하지 않은 예측 분석

구매예측 ex. A 상품을 구매할 고객 > 마케팅과 상관없이 구매 (불필요한 마케팅 비용 발생)
이탈예측: 악성 고객이나 잔존 가치가 낮은 고객을 예측 대상에 포함해야 할까? 잔존 가치가 높은 고객에 대한 이탈을 잘 맞추는 것이 중요

사례: 전체 고객을 예측 대상에 포함 vs 충성 고객만 예측 대상에 포함

예측 성능: 1 > 2
기대 이익: 1 « 2

아이디어: 애초에 목적에 맞는 비용함수를 사용할 수는 없을까?

잘못된 테스트 셋 선정

모델 성능 측정에 사용해야 하는 테스트 데이터는 가장 최근 시점의 데이터

모델이 복잡할수록 유관 부서에서 사용할 가능성은 떨어짐

고객 세그멘테이션할때 k-means clustergin을 많이씀 (설명하기 쉬움)

3. 서비스 구현: 테스팅과 디버깅의 어려움

문명 6 AI오류 사건: 산출량(Yield) 관련 설정치 이름 오타

심지어 오류가 있어도 결과가 나온다..(심지어 잘..)

word2vec 윈도우 사이즈 사례

세션 5: 맛있는 데이터를 물어다주는 멍멍이 - 노상래님

1. 소개: 마켓컬리와 데이터 농장

마켓 컬리(식료품 전문 유통업체)

최적의 서비스 제공을 위한 상품 소싱/제조, 주문처리, 재고관리, 배송, 데이터 분석, 큐레이션

데이터 농장

하는 업무

Ad-hoc
IR제작
데이터 프로덕트
알고리즘 프로덕트
대시보드
분석용 데이터베이스 구축

(달리는 차 위에서 바퀴를 교체하는 사진) -> 빠르게 변화하는 회사에서 데이터 시스템 구축

2. 마켓컬리 데이터 시스템의 과거와 현재

지난 4년동안 시행착오

수기로 운영하던 엑셀의 시대

데이터 분석 & 운영 업무에 관련된 대부분의 데이터가 엑셀 자료로 이루어진 시기
데이터 분석에 너무 많은 시간이 소요
통합이 어려움
데이터 수집을 위한 발품팔이

AWS 시대

회사의 급성장으로 인한 예측 시스템의 필요성 대두
인프라를 도입하며 분석용 데이터 인프라 설계
슬랙에서 주요 지표와 전사 공유 시스템 도입: 데멍이

문제점:

데이터 인프라 설계 경험과 지식 부족
데이터 추출이 가속화되면서 추출 업무만 하루에 20개씩 진행 -> 대시보드 개발의 필요성 대두

자체 봇 & 실시간 대시보드 시대

데이터 플랫폼 인프라 확대
주요 지표 대시보드 운영 (고객 현황, 상품 현황, 배송현황 등)
각 기능별 팀별 실시간 대시보드를 통한 업무 효율화
- 30분 단위 현황 공유
- D-1 전일 주요 현황 전사공유
- 운영 데이터 수집 관리
- 예상 매출액

피드백을 기다리는 야옹이 -> 데이터 운영 시스템에 대한 피드백

데이터와 비즈니스 이해 집중 -> 데이터 인프라 관리 집중 -> 데이터의 가치 활용 집중

3. 데이터를 물어다주는 멍멍이 ‘데멍이’: 데멍이의 역할과 예측 퍼포먼스

데이터 과학으로서의 가치: 예측 시스템 (매출 예측, 물류 예측)

주 예측(과소 예측 경향), 일 예측(과대 예측 경향) > 결합해서 사용 (페이스북 prophet 활용)

퍼포먼스 성과: 월간 예측 성과 오차율 3% (실제값-예측값/실제값) 달성

조직 문화로서의 가치: 공유 시스템: 전사 지표 공유 (담당 팀에게 실시간 지표 공유)

4. 급성장하는 회사에서 데이터는 우리 조직문화에 어떤 기여를 하였는가

데이터 업무의 효율화 > 인사이트 도출 > 같은 눈높이의 공유 문화 > 조직 문화 발전

초기에 인사이트에 집중하지 않고 운영업무 자동화를 먼저 진행했음

세션 6: MOBILITY X DATA : 모빌리티 산업의 도전 과제 - 변성윤님 (쏘카)

주제: 모빌리티에서 어떤 데이터가 있고, 어떤 문제를 풀고 있을까요?

모빌리티 업계 (Car sharing / Ride hailing)의 데이터
모빌리티 업계에서 풀고 있는 문제가 어떤 것이 있을까?

1. Mobility?

사람들의 이동을 편리하게 만드는 각종 서비스 (전통적인 교통 수단 + IT를 결합해 효율과 편의성을 높임)

CES 2019 -> 주요화두로 Concepted Car, Self Driving Car 등

Concepted Car: 컨셉을 가지는 차량

컨텐츠를 즐기는 차량, 회의를 위한 차량 등
Map: 고정밀 지도 데이터

디테일한 정보를 가진 지도데이터가 필요함. 1차선인지 2차선인지, 정보 등
Driver Status Monitoring

운전자가 흡연을 하는지, 졸고 있는지 등 상태를 모니터링해서 알람 및 사고 예방 (주로 컴퓨터 비전 활용)
Car Maintenance with AI 차량 유지보수에 소요되는 다양한 것들을 자동으로 탐지하고 Report작성 (오일 누수, 부품 미스매치, 차량 스크래치 등 등)

모빌리티 회사들

서비스

Car Sharing: 자동차 공유 비즈니스를 하는 회사
- Station Base: 지정된 곳에 차량을 반납하는 역 기반의 카셰어링
- Free Floating: 자동차 반납처가 지정되지 않은 유동식 카셰어링
Ride Hailing: 이동을 원하는 소비자와 이동 서비스를 제공하는 사업자를 실시간으로 연결해주는 회사
- 우버, 타다, 그랩 등등

차량

주차장
자율주행
안전 & 보안
센서

2. 모빌리티의 데이터

데이터의 종류

차량 데이터
좌표, 지리데이터 (GPS, 지리 데이터 등)
센서 데이터 (엔진 상태, 배터리 전압상태, 주유 데이터..)
고객 데이터 (면허 취득 날짜, 사용 이력 패턴, 앱 로그, 결제 데이터)
날씨 데이터 (기상청 날씨 데이터)

왜 재미있을까?

삶과 밀접한 데이터
생활 패턴 반영
큰 의미에서 도시계획 & 사회발전에 밀접
어려워서 매우 재미있음
다양한 데이터의 혼합

모빌리티의 데이터를 보려면

NYC Open DATA (Taxi)
awesome-public-datasets - transportation 데이터

3. 모빌리티의 다양한 문제들

ex. 쏘카 경험 여정

쏘카존에서 차량 대기
차량 예약
쏘카존 방문
차량 탑승
차량 이동
차량 반납

데이터 기반 존 및 차량 운영 전략 수립

특정 존 개발 (어디에) / 차량의 가격 설정
어떤 존에 어떤 차량을 넣어야 할까
수요 예측 및 운영 전략 수립
차량 구매 전략 (성수기)

주로 활용하는 방법: Operation Research (수학적 모델링, 통계적 모형, 최적화 기법 등을 활용해 효율적인 의사결정을 돕는 기법)

차량 예약

개인화된 가격 (쿠폰 및 혜택)

차량 퀄리티 관리

소모품 교환 및 세차 주기 최적화
차량 배터리 수명 관리

차량 이용 과정에서 사고 관련

차량별/ 개인별 / 상황별 보험료 산정

운영 정책 효과 분석

신규 상품 기획 (쏘카 구독제 등)
운영

Ride Hailing

타다 경험 여정

차량 호출
차량 배차
차량 도착
고객 탑승
목적지로 출발
도착

차량이 언제 도착할까? (ETA)

ETA: 도착 예정 시간 (늦는 경우 고객경험에 악 영향)
머신러닝을 통해 정확한 ETA값 예측

차량 수요 예측 시 탄력 요금제 적용

갑자기 비가 내리는 경우
새벽 2시에 월드컵 결승
불금, 연휴 전날 수요증가

우버의 Surge Pricing: 급증하는 시간대, 지역에 탄력 요금제 설정, 차량 구매 전략에 활용

알고리즘을 오프라인에 바로 적용하는데 큰 리스크 존재: 리스크를 줄이고 실험을 다양하게 하기 위해 시뮬레이션 환경을 구현

머신러닝 모델을 테스트하기 위해 과거 데이터를 기반으로 확률 분포를 통해 시뮬레이션 환경 생성
실제 환경과 비슷하게 구축하는 것이 매우 중요

(SimPY: 간단히 체험할 수 있는 라이브러리)

지도, 네비게이션 문제

Route Planning
- 출발지에서 목적지까지 어떤 경로로 갈 것인가 (최소 시간, 최단 시간)
- 교통량 예측
- Map Matching: GPS 데이터와 도로 데이터를 매칭

산업의 성숙도에 따라서 풀어야 하는 문제 단계가 다름

세션 7: 데이터가 흐르는 조직 만들기 - 양승화님 (마이리얼트립)

마이리얼트립 매출이 급성장 중이었는데 데이터에 대한 고민을 하고 있었음.

데이터를 기반으로 일하는 회사를 만들자
데이터를 바탕으로 000 문제를 해결하자

Growth팀에 기대하는 역할

핵심지표 선정 및 관리
데이터 파이프라인 설계 및 구축
주제별 데이터 분석 (차근차근 하면 되는 것)
데이터 추출 및 분석 요청 대응 (당장 시간을 제일 많이 쓰는 것)
데이터 기반으로 일하는 문화 (어떻게 해야 할 지 막막한 것)

혼자 였음.. 분석하려면 야근을 해야되…

1. 데이터 분석 팀과 실무자와의 갈등

실무자 입장

어떤 데이터가 있는지 모르겠음
간단한 요청인데 오래걸려..
요청하고 받았더니 단순 합계, 평균인데,..
업무에 쓸만한 건 없네

분석가 입장

여기저기서 쏟아지는 데이터 추출 요청에 정신이 없다
목적이 000인 것 같은데, 이 데이터를 달라고?
대시보드 만들면 고쳐달라고 하고 잘못했다고 하고
데이터 분석 좀 해보고 싶다 ㅜㅠ

2. 뭐가 문제인가?

문제가 아님

대시보드가 잘 되어 있는데도 계속 요청한다 > 보다보면 궁금한게 생김
조금씩 조건을 바꿔서 자꾸 요청한다 > 쓸만한 인사이트나 아이디어는 데이터를 다양한 각도에서 살펴봐야 답이 나옴

이건 문제

데이터 분석가들이 추출만 하고 있다. > 다른일 할 시간이 없다.
데이터 추출 요청이 명확하지 않아 추출에 시간이 오래걸린다.
데이터 추출 요청하는게 번거롭고 데이터팀의 눈치를 본다.
데이터 분석을 데이터팀에서한 한다.
데이터팀에서 분석한 결과가 서비스에 반영되지 않는다.

3. 지향하는 조직

프로세스와 역량을 갖춘 회사

복잡한 절차 없이, 필요한 데이터를 누구든 찾아볼 수 있고 가공해서 인사이트를 찾을 수 있다.
데이터 분석가들이 본업에 집중할 수 있다.
분석 결과물들이 체계적으로 쌓이고 실제 서비스에 반영된다.

요청자와 분석가의 역할이 명확하게 구분되지 않는 조직

4. 데이터가 흐르는 조직을 만들기 위한 노력

1) 사내교육: 데이터 추출과 분석을 위한 기본 지식 쌓기

데이터 분석을 위한 마인드셋

왜 데이터 분석이 필요하고 내 업무에 어떻게 적용할 것인가

데이터 분석의 목표: 서비스를 운영하면서 쌓이는 유저 데이터를 바탕으로 서비스를 지속적으로 개선해 나가는 것

SQL

동영상 강의를 지정해서 수강하게 함 (자기주도 학습)
서비스 DB에 대해 설명
써먹을 수 있는 과제를 출제

Excel

실제 업무에서 필요한 문제들을 풀기 위한 스킬들

사내교육이 의미 있으려면

주기적으로 해야함
리더의 의지와 지원이 필요함
배운 걸 즉시 써먹을 수 있는 환경이 지원되어야 함
배운 걸 실제 업무에 써먹고 있는지 체크해야 함 (업무에서 잘 활용하고 있어야 함)

2) 시스템

데이터 파이프라인 만들기

구성원들이 자유롭게 쿼리할 수 있는 환경을 만드는 게 시작

간단한 BI툴에서부터 시작

(추천: redash)
(추천: Stitch > 데이터 엔지니어 없이 ETL하기)
(추천: 빅쿼리)

3) 조직문화

업무환경

리더의 의지 (매우 중요함)
데이터에 대한 폭넓은 접근성

조직구조

낮은 부서간 업무 장벽
고립되지 않은 분석 조직 (R&R이 모호한 구조)

일하는 방식

지표를 명확하게 정의하고 사용해야 함 (사람마다 정의가 다름)
반복되는 실패, 지속적인 실험

좋은 질문을 찾는 노력

(조직구성)

그로스팀 > 데이터 기반 회사를 만드는 조직
크로스셀TF > 데이터에 기반해서 핵심지표를 개선하는 팀

(꼭 데이터가 있어야 시작할 수 있는 건 아님 > 데이터가 없어도 연역적으로 예측했던 사례도 있었음)

 Time Series Analysis & Forecasting (1) 글또 3기를 시작하며 