본문 바로가기
IT 와 Social 이야기

[KB지식비타민] 인공지능 알고리즘의 발전 방향과 금융산업 적용 - 김예구 선임연구위원

by manga0713 2018. 7. 27.

 

[업종별 인공지능 침투율 및 향후 투자]

 

 

 

 

*** 출처: [KB지식비타민] 인공지능 알고리즘의 발전 방향과 금융산업 적용

*** 문서:

KB지식비타민(18-41) 인공지능 알고리즘의 발전 방향과 금융산업 적용_홈페이지.pdf

 

 

 

 

■ 인공지능 기술은 활용 가능한 데이터와 컴퓨팅 파워의 증대와 함께 혁신적 알고리즘(algorithm)의 개발을 통해 인간과 유사한 방식으로 학습하는 진정한 의미의 인공지능으로 발전

 

 

- 다층의 신경망(Deep Neural Network)을 학습하는 방법(Back-propagation)의 개발과 함께 CNN(Convolutional Neural Network), RNN(Recurrent NN), 딥러닝(Deep Learning) 알고리즘 들이 등장, 대용량 데이터와 컴퓨팅 파워를 통해 실제로 구현되기 시작

 

- '인간의 지식'이 아닌 '생각하는 방식'인 알고리즘을 제공함으로써, 기계가 데이터를 통해 스스로 자신만의 룰을 학습하는 인공지능 시대로 진입

 

- 주요 딥러닝(Deep learning) 알고리즘 구조 및 개요

 

 

 

 

 

 

- 인공지능 기술이 전산업에 큰 영향을 미치는 '보편적 기술(General-Purpose Technology)'로 인식되면서, IT뿐만 아니라 소매업, 미디어, 금융 등 다양한 산업에서 기술 적용 사례 증가

 

- 금융산업은 현재 기술 도입 수준 및 향후 투자 수요의 측면에서 IT·통신, 자동차·부품 산업 등과 함께 인공지능 기술의 영향력이 높은 산업으로 평가

 

 

 

■ 인공지능 알고리즘의 한계와 진화 방향

 

 

○ 정답이 있는 대량의 학습 데이터 필요 (Obtaining labeled & massive training data sets)

 

- 딥러닝 알고리즘은 우수한 수준(ralatively good)의 분류(classification) 성능을 내기 위해서는 수천 개의 데이터가 필요하며, 사람과 비슷한 수준의 성능을 내려면 수백만 개의 데이터 요구

 

- 대부분의 알고리즘이 입력값과 결과값이 모두 이용되어야 하는 '지도학습(Supervised learning)' 방법론이기 때문에, 정답(결과값)이 존재하는 데이터(labeled data)의 확보가 중요

 

- 이에반해 강화학습(Reinforcement learning)은 '지도학습' 알고리즘이 요구하는 (행동 x, 결과 y) 형태의 데이터가 주어지지 않더라도 반복적인 경험을 통해 자신이 처한 상황과 행동 가능한 옵션들을 인지, 정량화된 보상을 극대화하는 방식을 스스로 터득

 

 

 

 

[데이터 규모별 의료 이미지 분류 정확도]

 

 

 

※ JPMorgan 'LOXM' 알고리즘

 

- 단기 보상(호가 스프레드) 및 최종 보상(거래 체결 여부/거래 소요시간/시장충격비용)을 최소화(보상을 '비용'으로 정의)하도록 최적의 주식거래 전략을 학습하는 강화학습 기반 트레이딩 알고리즘

 

- 특히 대량의 주식 매도가 필요한 경우 시장에 미치는 충격(market impact)을 최소화함으로써 투자자의 거래 비용을 낮추는데 벤치마크 대비 탁월한 성과

 

- LOXM 개요 및 성능

 

 

 

 

 

 

 

- GAN(Generative Adversarial Network)은 실제와 매우 유사한 데이터를 직접 생성할 수 있기 때문에, 정답이 존재하는 데이터의 양이 부족한 환경에서도 학습 가능. 이상거래(fraud)에 대한 데이터가 부족한 상황에서 GAN을 통해 실제 이상거래와 유사한 사례를 다수 생성, FDS(이상금융거래탐지시스템)의 고도화 가능

 

 

※ Qraft Technologies 'Q-GAN'

 

- 실제 시장 내 최적 포트폴리오의 특성을 최대한 반영하여 새로운 포트폴리오를 구성하는 솔루션

 

 

 

 

[Q-GAN 포트폴리오]

 

 

 

 

○ 해석력·설명력 문제 (The explainability problem)

 

 

- 딥러닝 등 복잡한 구조의 인공지능 알고리즘들은 도출된 결과의 근거나 영향 변수 등을 확인하기 어려운 '블랙박스(Black box)의 속성을 가짐

 

- 알고리즘의 복잡성이 커질수록 예측의 정확도는 향상되나, 변수간의 다양한 상호작용(interaction effect)을 파악하기 어렵기 때문에 해석력(interpretability)은 하락

 

- 의료·금융산업 등 서비스의 공정성 및 신뢰성이 매우 중요한 산업의 경우에는 알고리즘의 사용 변수, 결과의 도출 근거 등에 대한 설명을 제공할 책임 요구

 

- 해석력 vs. 정확도 기준 알고리즘 비교

 

 

 

 

 

 

 

※ 해석력 강화 모델

 

① 딥러닝을 통해 도출된 결과값을 설명력 높은 모델(회귀분석 등)과 결합하는 방식(Surrogate models)

 

- 딥러닝 등 정확성이 높은 모델을 통해 도출된 결과값을 회귀분석·의사결정나무 등 해석력 높은 모델(대리모형(surrogate models))의 종속변수로 활용, 딥러닝 알고리즘이 도출한 결과에 대한 근거 및 타당성 확인

 

 

② 변수간 상호작용을 제한하는 방식(GAM)

 

- 개별 변수별로 복잡한 구조의 알고리즘을 적용한 후 이를 더하기 형태로 종합(GAM, Generalized Additive Models)함으로써, 변수간 상호작용 효과를 배제해 설명력 제고

 

 

③ 변수를 조정해 결과값의 변화를 파악하는 민감도 분석 방식(LIME)

 

- 특정 변수에 약간의 변화(perturbation)를 주었을 때 결과값이 어떻게 변하는지 확인함으로써 알고리즘이 도출한 결과값에 큰 영향을 미친 요인을 파악 → 특정 모델에 국한되지 않고 유연하게 활용 가능 (Local-Interpretable-Model-agnostic Explanations)

 

 

- 금융회사들은 예측 정확도 향상을 통한 수익성 제고와 높은 설명력에 기반한 신뢰성 제고가 동시에 요구되는 신용평가모형(Credit Scoring System) 개선 시, 해석력 높은 인공지능 알고리즘에 많은 관심

 

 

 

○ 학습 모형의 일반화(Generalizability of learning)

 

 

- 특정 영역의 데이터에 최적화되도록 학습한 인공지능 모형은 속성이 유사한 다른 영역에 적용(generalization)하기 어렵기 때문에, 항상 새로운 모형을 개발해야 하는 비효율성 발생

 

- 지능의 이식(transferring intelligence)이 가능한 '범용 인공지능(General AI)'의 필요성 증대

 

 

※ 범용 인공지능 모델

 

① 특정 영역에서 학습된 모델을 다른 유사 영역으로 이전하는 ‘전이 학습(Transfer learning)'

 

- 영역간 유사성(Similarity), 관련성(Relationality) 등을 추출, 데이터 확보가 용이해 충분히 학습된 기존 영역(source domain)의 지식을 새로운 영역(target domain)으로 이전하고, 해당 영역의 특성에 맞게 재학습(Re-training) → Volkswagen은 차선 유지·서행 등 자율주행을 위한 범용 지능을 우선 구축하고, 주행 우선순위·표지판 등 국가별 차이만을 재학습하는 방식 활용

 

 

② 해당 영역에 맞는 인공지능 시스템 설계를 자동화하는 ‘메타학습(Meta-learning)’

 

- 다양한 영역의 데이터에 맞춤화된 인공지능을 자동으로 구현해주는 인공지능 알고리즘 개발 → Google은 데이터만 있으면 자동으로 딥러닝 모델을 디자인 해주는 ‘AutoML’ 서비스를 자사의 클라우드플랫폼(GCP)과 함께 제공

 

 

- 금융회사들은 데이터가 풍부한 업권 및 국가 등에서 구축된 학습 모형을 데이터가 부족한 영역으로 전이(예: 은행의 콜센터 데이터 분석을 통한 챗봇 시스템 → 저축은행 챗봇)하는 방법에 초점