본문 바로가기
IT 와 Social 이야기

[NIA] 머신러닝 알고리즘 개발시 발생가능한 문제점과 공공부문의 역할 - 백인수 수석

by manga0713 2017. 11. 30.

 

 

 

 

*** 출처: [NIA] 머신러닝 알고리즘 개발시 발생가능한 문제점과 공공부문의 역할 - 백인수 수석

*** 문서:

9._머신러닝_알고리즘_개발시_발생가능한_문제점과_공공부문의_역할.pdf

 

 

 

 

I. 머신러닝: 데이터로 배우는 시스템

 

 

■ 머신러닝은 컴퓨터가 예시와 경험 즉 데이터로부터 직접 배울 수 있는 기술

 

 

○ 머신러닝의 방법은 크게 3가지

 

- 지도학습(Supervised): 색인이 있는 데이터를 통해 훈련되는 방식으로 트레이닝 데이터를 통해 훈련

 

- 비지도학습(Unsupervised): 색인이 없는 데이터를 통해 비슷한 데이터를 찾아내는 방식으로 분류에 활용

 

- 강화학습(Reinforced): 경험 중심의 학습으로 지도학습과 비지도학습의 중간형태

 

 

○ 머신러닝 개발 파이프라인

 

- 머신러닝 개발은 머신러닝을 위한 데이터 수집 및 전처리, 알고리즘 학습 및 개발, 개발 결과에 대한 공개의 3가지 과정으로 축약 가능

 

 

① 데이터 수집 및 전처리 단계

 

- 데이터 수집: 알고리즘의 학습 훈련을 위한 데이터 셋, 알고리즘 검증을 위한 데이터 셋, 개발 이 후 발생하는 데이터

 

- 전처리(Preprocessing): 수집한 데이터를 시스템에 적합하게 필터링하고 맞는 포맷으로 바꾸는 작업

 

 

② 알고리즘 학습 및 개발

 

- 모델을 학습시키는 단계. 알고리즘 성능 향상과 튜닝이 이루어짐

 

- 분석된 데이터를 기반으로 모델을 정의하고, 일부 데이터를 샘플링하여 선택한 모델을 검증

 

- 지속적인 과정

 

 

③ 개발 결과 공개

 

- 학습 모델이 완성되었으면 학습된 모델을 가지고 예측을 할 수 있는 시스템을 개발하고 이를 배포

 

 

 

■ 머신러닝은 중립적이나 사람이 야기할 수 있는 문제 존재

 

 

○ 머신러닝 개발 파이프라인상 개발자인 사람이 개입해 결과에 영향을 미칠 수 있는 요소가 존재

 

- 데이터를 수집할 때, 알고리즘을 학습 시킬 때, 결과를 공개할 때 등 개발자가 고의적이거나 인식하지 못한 상황에서 문제 발생이 가능

 

 

○ 알고리즘을 개발하는 사람의 주관적인 판단이 반영될 수 있으며, 알고리즘 학습에 제공되는 데이터도 사람의 편향성에 영향을 받을 수 있음

 

 

 

 

II. 머신러닝 파이프라인 내 발생 가능한 문제

 

 

 

1. 데이터 관련 이슈

 

 

■ 편향된 데이터(Biased data)

 

■ 비현실적인 데이터(Unrealistic data)

 

■ 트레이닝 데이터와 테스트 데이터의 혼재(Wrongly partitioned data)

 

■ 테스트 데이터의 과적합(Holdout reuse)

 

■ 데이터 프라이버시 문제(Compromised Privacy)

 

 

 

2. 알고리즘 관련 이슈

 

 

■ 알고리즘의 범용성 문제(Fine-tuned to specific data sets)

 

- 알고리즘 성능이 특정 데이터 셋에 대해서만 최적화 되는 경우가 매우 잦음

 

 

■ 연구실용 알고리즘(Performance is not guaranteed)

 

- 실제 생활에서 사용하는데 어려움이 있는 경우가 많음

 

 

■ 설명하기 어려운 알고리즘(Uninterpretable algorithms)

 

 

■ 악의적인 데이터에 취약한 알고리즘

 

 

 

3. 논문 및 자료 공개 관련 이슈

 

 

4. 대응 방안

 

 

 

 

 

 

III. 공공부문의 역할

 

 

1. 신뢰도, 투명성 등에 대한 가이드라인

 

2. 개인정보와 데이터 활용에 대한 기준

 

3. 데이터 및 머신러닝 거버넌스