본문 바로가기
IT 와 Social 이야기/Data Science

[KISDI] 텍스트자료를 활용한 ICT이슈 탐지 및 분석 방법론 연구

by manga0713 2020. 6. 10.


[ 연구의 구성 및 개요 ]




*** 출처: [KISDI] 텍스트자료를 활용한 ICT이수 탐지 및 분석 방법론 연구 - ICT정책 지원을 위한 빅데이터 분석 및 예측모형 개발 - 심동녘, 정동찬, 노희윤, 이선희

*** 문서:

텍스트자료를 활용한 ICT 이슈 탐지 및 분석 방법론 연구.pdf




■ 목차


제1장 서 론

제1절 연구의 배경 및 목적
1. 연구의 배경
2. 연구의 목적
제2절 연구의 범위 및 수행 방안
1. 연구의 범위
2. 연구 수행 방안

제2장 경제·사회 분석에서 텍스트자료 활용 사례

제1절 분야별·주제별 사례 분석
제2절 활용목적에 따른 빅데이터 분석 사례

제3장 이머징 이슈 탐색을 위한 텍스트 자료 분석 과정 탐색

제1절 논의 배경
제2절 이머징 이슈 분석을 위한 연구모형 및 연구사례
1. 이머징 이슈 탐색 연구모형
2. 이머징 이슈 탐색 연구사례
제3절 이머징 이슈 탐색 및 심층분석을 위한 텍스트마이닝 프로세스
1. 프로세스 설계 및 적용
2. 자료의 전처리
3. 이머징 이슈 분석과정 개요
4. 결론 및 제언

제4장 ICT 유관기관 간행물 텍스트마이닝 분석

제1절 ICT이슈분석을 위한 데이터로서 텍스트자료의 활용 가능성
제2절 텍스트마이닝 방법론을 적용한 ICT이슈분석
1. 분석 대상 자료 수집
2. 단어사전 성능 비교 및 단어사전 선정
3. 기초 분석
4. 공동출현 네트워크 분석
5. 토픽 모형 분석
6. 섹션별 주요 단어를 기반으로 한 토픽 주제 추론
제3절 텍스트마이닝 방법론을 적용한 ICT이슈분석 가능성

제5장 미·중 통상마찰의 전개과정과 ICT이슈 텍스트마이닝 분석

제1절 사례 개요
1. 사례의 선정
2. 미․중 무역분쟁 배경 및 경과
제2절 연구 방법 및 분석 프로세스
제3절 연구 결과
1. 기초분석
2. 미·중 갈등 외 ICT분야의 이슈 감지 결과

제6장 결 론

제1절 요약 및 결론
제2절 연구의 성과와 한계

참고문헌





■ 이머징 이슈 분석을 위한 연구모형 및 연구사례



1. 이머징 이슈 탐색 연구모형


- 이머징 이슈는 현재 직접적인 영향을 끼치는 것처럼 보이지는 않지만 장차 새로운 트렌드(trend)로 부상할 수 있는 이슈라 정의할 수 있다.

- 최근 들어 이머징 이슈 탐색에 텍스트마이닝 기법을 적용하는 사례가 많아지고 있다.

- 텍스트 마이닝(Text Mining)은 대용량의 데이터에서 사용자가 관심을 가지는 정보를 키워드의 수준이 아니라 문맥 수준에서 의미를 찾아내는 프로세스를 의미한다.

- 이머징 이슈 탐색에 적용되는 텍스트마이닝 알고리즘은 크게 4가지 범주로 구분할 수 있다.



가. 토픽모델링


- 토픽모델링은 문서를 이루고 있는 키워드들을 바탕으로 문서에서 주제(Topic)를 도출하기 위해 사용되는 통계적 분석기법으로 주로 비정형 텍스트 분석에 많이 사용되고 있다.

- 토픽모델링은 확률적 기반으로 구성된 주제별 키워드 분포를 바탕으로 다시 주어진 문서에서 발견된 키워드 분포를 분석함으로써 해당 문서에 사용된 주제들을 추정한다.

- 이를 통해 문서들을 주제별로 분류할 수 있으며, 또한 문서들이 어떤 주제들을 함께 다루고 있는지 예측이 가능하고 시간에 따라 주제들의 동향 파악과 신규 문서가 어느 주제에 대한 것인지 등을 추정할 수 있는 특징이 있다.

- 이러한 특징으로 토픽모델링은 특히 특정 주제와 관련된 연구 동향을 파악하는데 유용하게 활용되고 있다.

- 토픽모델링을 활용하기 위한 기법 중 가장 대표적인 알고리즘은 디리클레 분포를 이용하여 주어진 문서에 숨겨져 있는 주제들을 추론하는 확률모델 알고리즘인 LDA(Latent Dirichlet Allocation)이다.

- LDA는 단어들의 확률분포를 통해 주제를 식별하는 방법론으로서 , 하나의 문서 는 여러 주제로 구성되고, 문서의 주제 분포에 따라 단어의 분포가 계층적으로(hierarchical) 결정된다는 가정 하에 단위 문서가 생성되는 과정을 아래 그림과 같이 가정한다. 이를 통해 문서 전체의 주제, 각 문서별 주제 비율, 그리고 각 주제에 포함될 단어들의 분포를 알아낼 수 있다.





[ LDA graphical notation ]





나. First Story Detection


- First Story Detection(FSD)은 토픽도출 및 추적 연구를 위한 접근 방법 중 하나이다.

- 이는 텍스트데이터에서 새로운 사건이나 이슈에 대한 첫 번째 언급을 자동으로 탐지하는 연구 영역으로 (Allen et al., 2000) 예를 들면 금융 분야에서는 FSD를 통해 주식 거래에서 선두주자의 위치를 확보하는데 사용되거나 안보 영역에서는 테러리스트의 움직임을 사전에 파악해서 테러 방지에 이용되기도 한다.

- FSD는 시계열적 스토리 전개를 통해 새로운 이슈나 토픽들을 감지하게 된다.

- FSD가 이머징 이슈 탐지에 적용될 때 우선 <단어 수준>, <스토리 수준>, <스토리 군집 수준> 등 수준별 분석이 가능하다(아래 그림). 예를 들면, <단어 수준>에서 분석한다면 “불룸버그” 같은 단일어나 복합어의 언급 빈도의 시계열 추이를 중심으로 분석하고 <스토리 수준>에서는 “불룸버그 선거에서 승리”라는 주제 수준에서 이슈 트렌드를 분석 할 수 있다. 나아가 <스토리 군집 수준>에서는 “뉴욕 시장 선거”라는 이슈 트렌드를 분석 할 수 있다.





[ 시계열적 스토리 전개 ]




- 두 번째로는 스토리 언급 횟수와 중요성에 기반하여 이슈 트렌드를 분석 할 수 있다. 시간이 지날수록 스토리가 동시 다발적으로 생성되며, 이를 연속적으로 추적해 나감으로써 스토리의 생성, 발전, 쇠퇴의 과정을 이해할 수 있다(아래 그림).





[ 스토리 분포도 ]




- 세 번째로는 한 윈도우 안에서의 어휘변화를 추적함으로써 이슈를 분석 할 수 있다(Can et al., 2009)(아래 그림). 이 과정에서 어휘변화와 주요사건을 연결한다. 온라인상에서 뉴스 기사나 논문 초록 등을 이용해서 텍스트 마이닝 기법을 적용한 후, 관련된 사건에 이벤트 스래딩(서로 연관된 스토리를 찾아 연결하는 방식)을 수행한다.





[ 한 윈도우 안에서의 처음 사건 추적 ]





다. Outlier Detection (이상치 탐지)


- 일반적으로 다른 관측치랑 비교해서 많이 벗어나 있는 관측치가 이상치라고 정의한다. 여기서 주의해야할 점은 정보(novel data)와 잡음(noise data)은 다르다는 점이다.

- 잡음은 무작위 오차로서 이상치 탐지 전에 데이터 전처리 과정에서 제거되야 하며, 이상치는 찾고자 하는 관측치이다.

- 이상치는 모집단에 포함된 다른 데이터와 공간적으로 볼 때 거리가 있는 데이터 포인트를 의미한다 (Barnett and Lewis, 1994). 그러므로 이상치 관측은 이상치들을 탐지해내는 기법이며 신용카드나 전자 시장에서 범죄 행위 등을 추적하는 사기탐지(fraud detection) 등이 이에 속한다(아래 그림).





[ Outlier 예시 ]




- Outlier detection의 한계점은 다음과 같다. 첫 번째로 정상적, 평균적 데이터 포인트의 밀집지역 규정이 어렵다. 두 번째는 정상적 행동과 비정상적 행동 사이의 경계가 뚜렷하지 못하다. 세 번째는 outlier에 대한 정확한 정의가 없다. 네 번째로는 학습과 평가, 검증을 위한 데이터가 필요하다.




라. Social EntityMetrices


- 계량개체학(Entitymetrics)은 2013년에 Ding and Song 외에 의해서 제안된 개념이다(Ding, Song, et al., 2013).

- 지식 정보의 단위를 미시적 수준, 중간 수준, 거시적 수준으로 나누어 각각의 단위 수준에 속하는 개체들의 영향력을 정량적인 방법으로 측정하였다(아래 그림).





[ 계량개체학 기본 개념 ]




- 예를 들어 미시적 수준에서 질병명, 유전자명, 단백질명 등을 의생명 학술문헌에서 추출해서 이런 바이오 개체명들 사이의 관계를 동시 출현 빈도 및 인용관계를 연결한다. 이를 통해 질병과 유전자 사이의 새로운 관계 예측 등의 개방형 발견(open discovery)이 가능하다.

- 지금까지 계량개체학은 주로 의생명 분야에서 적용되어 왔다(Song et al., 2018; Kim et al., 2018; Baek et al., 2017). 하지만 개체가 사회 문화 도메인에서 추출된다면(예를 들면 인물명, 사건명, 국가명 등) 이들 개체들 간의 관계를 추출하여 지식 그래프(knowledge graph)를 구축이 가능할 것이다.

- 또한, 특정 개체에서 다른 특정 개체까지 이어지는 path들을 추출하여 path안에서 어떤 개체들이 어떻게 연결되었는지를 추적한다면 계량개체학이 사회분야에 적용이 가능할 것으로 보이며, 특정 개체가 미치는 파급력과 영향력을 측정할 수 있을 것이다.

- 이런 사회 계량개체학 (social entitymetrics)는 아직 시도되어 오지 않았고 향후 이 방법론을 이용한 이머징 이슈 탐지는 유의미한 결과를 얻을 수 있을 것으로 기대한다.