[이미지 출처: vectorportal.com]
[원본기사: [ciokorea] 우리회사는 AI. 머신러닝에 준비돼 있을까? - 10가지 체크리스트 - Martin Heller | CIO]
1. 충분한 데이터는 확보했는가?
- 관련 데이터가 충분한지 여부는 예측 및 기능 식별의 필요 조건
- 더 많은 요소를 고려하고 있을수록 필요한 데이터 양도 많아진다.
- 다음 달 "마이애미에서 네이비 색상 반팔 블라우스의 판매 예측"시 과거 수 년 동안 축적되어 온 월별 판매 통계 데이터가 있어야만 월별, 그리고 연간 트렌드를 정확히 파악할 수 있게 된다. 물론 이는 어디까지나 표준적인 시계열 분석일 때의 이야기이고, 머신러닝을 이용하려면 통계 모델보다 더 많은 데이터를, 딥러닝은 그보다 몇 배는 더 많은 데이터를 필요로 한다. (날씨나 패션 트렌드와 같은 외생 변수 고려)
2. 데이터 과학자를 충분히 채용하고 있는가?
- 데이터 분석은 ~ 사용하는 툴과 관계 없이, 머신러닝을 통해 유의미한 결과물을 얻기 위해서는 경험과 직관, 프로그램 능력과 통계학에 대한 수준 높은 지식이 요구된다.
3. 중요 요인들을 추적하고 관찰할 수 있는가?
- 모든 관련 변수들에 대한 데이터를 다 확보하고 있는 것은 아닐 것이다. ~ 열은 다 찼는데 행은 여기저기 비어 있는 상황
4. 데이터를 청소, 변형할 수 있는 방법을 보유하고 있는가?
- 데이터에는 언제나 변수가 존재한다. 측정에는 언제나 한두 가지 값이 빠져 있을 수 있고, 개별 값들이 독립적으로 다른 값들과 조화를 이루지 못하거나 일관성이 없을 수 있다.
- 모든 분석 프로세스에서 데이터 필터링은 가장 많은 노력이 요구되는 단계이다. (필자의 경험상 전체 분석 시간의 80~90%)
- 필터링을 거친 정확한 데이터조차도 분석 전에 약간의 변형이 필요할 수 있다.
5. 데이터에 통계 분석을 마쳤는가?
- 문제 해결 과정에서 가장 경계해야 할 것이 곧바로 원인 공략에 나서는 것이다.
- 어떤 일이 왜 일어났는가 파악하기에 앞서 한 걸음 물러서서 모든 변수와 그들간의 관계를 살펴보아야 한다.
6. 최적의 모델을 찾기 위해서 다양한 접근을 시도하고 있는가?
- 주어진 데이터 세트에 대한 최적의 모델을 찾아내는 방법은 단 하나, 모든 모델을 다 시도해보는 것 뿐이다.
7. 딥러닝 모델 교육을 위한 컴퓨팅 역량을 확보했는가?
- 데이터 세트의 규모가 커질수록 모델이 포함하는 레이어 양과 교육 시간이 늘어난다는 단점이 있다.
- 시스템적인 극복과 대안이 필요하다.
8. 수립한 ML 모델이 통계 모델을 능가하는가?
- 상대적으로 단순한 통계 모델은 머신러닝 및 딥러닝 모델의 효율성을 측정하는 기준이된다. 기존 모델을 통해 그 기준을 향상시킬 수 없다면 방법을 수정하거나 새로운 접근방식을 찾아야 할 것이다.
9. 예측 모델을 배치할 수 있는가?
- 실제 상황에 실시간으로 투입할 수 있는가?
10. 주기적으로 모델을 업데이트 할 수 있는가?
- 모델 교육을 진행하다보면 모델의 오류 비율이 점차 증가하는 데, 이는 시간이 지남에 따라 데이터가 변화하기 때문이다. 판매량 패턴이 변하고, 경쟁 기업이 변하고, 스타일이 변하고, 경제 상황도 변화한다.
- 이러한 변화를 적절히 반영할 수 있어야 한다.
'IT 와 Social 이야기' 카테고리의 다른 글
[ETRI] Socio-Tech 10대 전망 (0) | 2017.09.04 |
---|---|
[KIF] 금감원 빅데이터 분석을 통한 자동차보험사기 대거 적발 (0) | 2017.09.01 |
[digieco] 가상현실 콘텐츠 확보를 통한 국내 미디어 시장 선도 전략 (0) | 2017.08.31 |
[PAVAN KUMAR BHIMAVARAPU] Apache Pig - 아파치 피그 (0) | 2017.08.31 |
[LX 한국국토정보공사] 4차 산업혁명시대 'LX_Geo고' 탄생 (0) | 2017.08.30 |