본문 바로가기
IT 와 Social 이야기

[ciokorea] 우리회사는 AI. 머신러닝에 준비돼 있을까? - 10가지 체크리스트 - Martin Heller | CIO

by manga0713 2017. 9. 1.

[이미지 출처: vectorportal.com]

 

 

 

[원본기사: [ciokorea] 우리회사는 AI. 머신러닝에 준비돼 있을까? - 10가지 체크리스트 - Martin Heller | CIO]

 

 

 

1. 충분한 데이터는 확보했는가?

 

- 관련 데이터가 충분한지 여부는 예측 및 기능 식별의 필요 조건

 

- 더 많은 요소를 고려하고 있을수록 필요한 데이터 양도 많아진다.

 

- 다음 달 "마이애미에서 네이비 색상 반팔 블라우스의 판매 예측"시 과거 수 년 동안 축적되어 온 월별 판매 통계 데이터가 있어야만 월별, 그리고 연간 트렌드를 정확히 파악할 수 있게 된다. 물론 이는 어디까지나 표준적인 시계열 분석일 때의 이야기이고, 머신러닝을 이용하려면 통계 모델보다 더 많은 데이터를, 딥러닝은 그보다 몇 배는 더 많은 데이터를 필요로 한다. (날씨나 패션 트렌드와 같은 외생 변수 고려)

 

 

 

2. 데이터 과학자를 충분히 채용하고 있는가?

 

- 데이터 분석은 ~ 사용하는 툴과 관계 없이, 머신러닝을 통해 유의미한 결과물을 얻기 위해서는 경험과 직관, 프로그램 능력과 통계학에 대한 수준 높은 지식이 요구된다.

 

 

 

3. 중요 요인들을 추적하고 관찰할 수 있는가?

 

- 모든 관련 변수들에 대한 데이터를 다 확보하고 있는 것은 아닐 것이다. ~ 열은 다 찼는데 행은 여기저기 비어 있는 상황

 

 

 

4. 데이터를 청소, 변형할 수 있는 방법을 보유하고 있는가?

 

- 데이터에는 언제나 변수가 존재한다. 측정에는 언제나 한두 가지 값이 빠져 있을 수 있고, 개별 값들이 독립적으로 다른 값들과 조화를 이루지 못하거나 일관성이 없을 수 있다.

 

- 모든 분석 프로세스에서 데이터 필터링은 가장 많은 노력이 요구되는 단계이다. (필자의 경험상 전체 분석 시간의 80~90%)

 

- 필터링을 거친 정확한 데이터조차도 분석 전에 약간의 변형이 필요할 수 있다.

 

 

 

5. 데이터에 통계 분석을 마쳤는가?

 

- 문제 해결 과정에서 가장 경계해야 할 것이 곧바로 원인 공략에 나서는 것이다.

 

- 어떤 일이 왜 일어났는가 파악하기에 앞서 한 걸음 물러서서 모든 변수와 그들간의 관계를 살펴보아야 한다.

 

 

 

6. 최적의 모델을 찾기 위해서 다양한 접근을 시도하고 있는가?

 

- 주어진 데이터 세트에 대한 최적의 모델을 찾아내는 방법은 단 하나, 모든 모델을 다 시도해보는 것 뿐이다.

 

 

 

7. 딥러닝 모델 교육을 위한 컴퓨팅 역량을 확보했는가?

 

- 데이터 세트의 규모가 커질수록 모델이 포함하는 레이어 양과 교육 시간이 늘어난다는 단점이 있다.

 

- 시스템적인 극복과 대안이 필요하다.

 

 

 

8. 수립한 ML 모델이 통계 모델을 능가하는가?

 

- 상대적으로 단순한 통계 모델은 머신러닝 및 딥러닝 모델의 효율성을 측정하는 기준이된다. 기존 모델을 통해 그 기준을 향상시킬 수 없다면 방법을 수정하거나 새로운 접근방식을 찾아야 할 것이다.

 

 

 

9. 예측 모델을 배치할 수 있는가?

 

- 실제 상황에 실시간으로 투입할 수 있는가?

 

 

 

10. 주기적으로 모델을 업데이트 할 수 있는가?

 

- 모델 교육을 진행하다보면 모델의 오류 비율이 점차 증가하는 데, 이는 시간이 지남에 따라 데이터가 변화하기 때문이다. 판매량 패턴이 변하고, 경쟁 기업이 변하고, 스타일이 변하고, 경제 상황도 변화한다.

 

- 이러한 변화를 적절히 반영할 수 있어야 한다.