본문 바로가기
IT 와 Social 이야기

[kif 한국금융연구원] 빅데이터를 이용한 딥러닝 기반의 기업 부도예측 연구 - 오세경, 최정원, 장재원

by manga0713 2018. 1. 22.

[핀테크 산업의 빅데이터 및 인공지능 도입 현황]

 

 

 

*** 출처: [kif 한국금융연구원] 빅데이터를 이용한 딥러닝 기반의 기업 부도예측 연구 - 오세경, 최정원, 장재원

*** 문서:

 

131605558932838295_WP17-08.pdf


 

 

 

■ 목차

 

 

요약

I. 연구배경 및 목적

II. 빅데이터 및 인공지능의 금융 관련 분야 활용 현황

III. 부도예측 연구 방법론

IV. 실증분석

V. 결론 및 시사점

 

 

 

[인공지능, 머신러닝, 딥러닝 개념 비교]

 

 

 

 

III. 부도 예측 연구 방법론

 

 

■ 빅데이터 기법을 활용한 관련 분야 연구

 

 

- 김유신, 김남규, 정승렬(2012)은 뉴스 키워드의 감성 분석을 이용하여 투자의사결정 모형을 구축하고, 이 모형이 시장대비 초과 수익률을 얻을 수 있는 투자 전략임을 실증하였다.

 

- 이광석(2014)은 기존의 재무 정보와 시장 정보 기반으로는 중소기업 대상의 부도예측은 한계가 있음을 지적하고 해당 기업의 신용 거래, 연체 정보 등을 실시간으로 이용하여 부도예측을 수행하는 방법을 제시하였다. 이 연구는 중소기업 및 개인기업을 대상으로 하는 매우 유용한 연구이기는 하나 제시된 주요 분석 정보 데이터가 아직은 공공재로 공개되지 않은 공공기관 내부 데이터로서 타 연구에 적용하기는 어려운 한계가 있다.

 

- 최정원, 한호선, 이미영, 안준모(2015)는 부도 기업과 정상 기업의 인터넷 뉴스 텍스트를 각각 수집하여 부도 기업 뉴스에서 주로 나타나는 키워드를 분석하고 해당 키워드가 포함된 기사가 발생하는 경우를 부도로 예측하였을 때 실질적으로 부도예측이 가능함을 검증하였다.

 

- 조남옥, 신경식(2016)도 뉴스 텍스트에 대한 감성분석 기반의 multiple discriminant analysis(MDA)과 로짓(Logit)분석, 인공신경망, support vector machine(SVM) 등의 방법을 적용한 부도예측 모형을 제시하고 예측 모형으로서 유용성을 실증하였다.

 

- 김민수, 구평회(2013)가 검색 엔진이 제공하는 검색어 추세를 기반으로 주가를 예측하는 연구를 수행함으로써, 전통적인 정보 외에 다른 정보 원천들도 빅데이터 분석으로 기존의 정보 원천을 대체할 수 있음을 연구하였다.

 

- 안성원, 조성배(2010)도 뉴스 텍스트마이닝 기법을 시계열 분석 과정에 적용하여 주가예측 모형에 활용이 가능함을 실증 분석 하였다.

 

 

 

■ 인공지능 기법을 활용한 관련 분야 연구

 

 

- 이재식, 한재홍(1995)은 기존의 재무정보만을 활용한 부도예측에 한계가 있음을 지적하고 이를 보완하기 위하여 비재무정보를 활용한 인공신경망 기반의 부도예측 모형을 제시하였다. 연구 결과, 재무 정보가 불투명한 중소기업의 경우 이러한 예측 모형이 더욱 효과적임을 실증하였다.

 

- Kim and So(2010)는 support vector machines(SVM)을 이용하여 부도 예측을 수행하였다. 이 연구 역시 정보가 상대적으로 부족한 중소기업의 경우 기존의 방법론에 비하여 인공 지능 기법이 예측 성능이 더 우수함을 실증하였다.

 

- 김성진, 안현철(2016)은 기업신용등급 예측 과정에 랜덤 포레스트(Random forester) 방법을 적용하였다. 이 연구는 랜덤 포레스트 방법론이 예측 성능이 우수함을 실증 분석하였다.

 

 

 

 

2. 연구방법론

 

 

■ 분석 데이터 정의

 

 

- 기업 부도예측을 위한 원천 정보 구분 및 특성

 

 

 

 

 

 

 

- 이인로, 김동철(2015)의 연구는 국내 기업의 경우 단순히 장부가격 기준의 재무지표보다 시장 가치로 조정된 재무지표를 사용하는 것이 보다 예측력이 우수하다고 하였다.

 

- 경기에 민감한 업종의 경우 금융위기 기간에 집중적으로 부실이 발생하는 특징이 있기 때문에 거시경제 및 산업 변수를 보다 적극적으로 활용할 경우 과거 연구에 비하여 우수한 예측 모형을 추정할 수 있다.

 

- 비정형 정보는 뉴스 및 인터넷 등의 미디어 데이터를 주로 포함한다. 신뢰도 있는 정보를 위하여 특정 언론사 기사를 선택하여 취합하였다.

 

- 뉴스 텍스트 수집 대상 언론 매체

 

 

 

 

 

 

 

 

■ 예측 방법론

 

 

- 기업 부도예측 방법론

 

 

 

 

 

 

 

- 로지스틱 회귀분석은 재무지표, 시장지표 등의 정보를 설명변수로 활용하여 기업의 부도 여부(1 or 0)를 추정하는 방법이다.

 

- 의사결정 나무는 부도 여부를 결정하는 중요한 요인 및 기준 값을 노드(분류 기점)로 설정하여 분류 나무(tree) 구조를 설계함으로써 부도 여부를 판단하는 모형이다.

 

- 헤저드 모형(hazard model)은 회계 정보와 시장 정보를 통합하여 부도를 예측하는 모형으로 부도 발생시점까지의 시간을 고려하는 방법론이다.

 

- 공변량을 모형에 적용할 수 있는 Cox 비례위험 모형(Cox PH Regression)은 종속 변수가 부도 여부를 판별하는 이진 분석 방법론에 비하여 기업 생존 주기에 따른 부도 발생 확률이라는 추가적인 정보를 적용할 수 있다는 장점이 있다(최정원 외, 2016).

 

- SVM은 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을때, 주어진 데이터의 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모형이다. 만들어지 모형은 데이터 공간에서 경계로 표현되는데 SVM은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다.

 

- Random forests는 독립적인 난수 sample vector로 개별적인 의사결정나무 구조를 반복적으로 구성하고 이를 통합적(앙상블, ensemble)로 대표할 수 있는 모형을 찾아내는 방법이다.

 

- KMV 모형은 기업의 정보가 즉각 반영되는 시장 정보(주가)를 기반으로 부도 확률을 예측하는 체계이기 때문에 재무 정보 변동 공백 기간의 적시성 문제(재무 정보의 생성 주기가 연간이기 때문에 재무지표 공시 기간 동안에는 기업 재무 현황이 변동되어도 재무지표에 반영되지 않는다.)를 보완할 수 있는 특성을 가지고 있다. 다만, 주가를 얻을 수 있는 상장 기업만을 대상으로 분석이 가능하다는 한계점이 있다.

 

 

 

 

■ 텍스트 계량화 방법론

 

 

- 텍스트 데이터를 예측 모형 등에 활용하기 위해서는 계량화된 변수로 측정하는 과정을 필요로 한다.

 

 

 

○ Word2vec 활용

 

- Word2vec는 단어들 간의 연관된 규칙을 찾아서 각 단어의 관계를 계량적으로 산출하는 방법론으로서, 각 단어 앞 뒤 관계를 보고 근접도를 벡터의 형태로 계산하는 알고리즘이다.

 

- 사전적으로 학습시키는 단계를 수행하지 않으므로 '비지도 학습' 기반의 인공지능(머신러닝)의 일종으로 볼 수 있다. 단어 간의 관계에 대한 정확한 벡터를 산출하기 위해서는 분석 대상이 되는 대규모의 텍스트 데이터 문서(corpus) 데이터베이스를 필요로 한다.

 

- Word2vec 방법론 비교