[ 연구의 구성 및 개요 ]
*** 출처: [KISDI] 텍스트자료를 활용한 ICT이수 탐지 및 분석 방법론 연구 - ICT정책 지원을 위한 빅데이터 분석 및 예측모형 개발 - 심동녘, 정동찬, 노희윤, 이선희
*** 문서:
텍스트자료를 활용한 ICT 이슈 탐지 및 분석 방법론 연구.pdf
- 이머징 이슈는 현재 직접적인 영향을 끼치는 것처럼 보이지는 않지만 장차 새로운 트렌드(trend)로 부상할 수 있는 이슈라 정의할 수 있다.
- 최근 들어 이머징 이슈 탐색에 텍스트마이닝 기법을 적용하는 사례가 많아지고 있다.
- 텍스트 마이닝(Text Mining)은 대용량의 데이터에서 사용자가 관심을 가지는 정보를 키워드의 수준이 아니라 문맥 수준에서 의미를 찾아내는 프로세스를 의미한다.
- 이머징 이슈 탐색에 적용되는 텍스트마이닝 알고리즘은 크게 4가지 범주로 구분할 수 있다.
- 토픽모델링은 문서를 이루고 있는 키워드들을 바탕으로 문서에서 주제(Topic)를 도출하기 위해 사용되는 통계적 분석기법으로 주로 비정형 텍스트 분석에 많이 사용되고 있다.
- 토픽모델링은 확률적 기반으로 구성된 주제별 키워드 분포를 바탕으로 다시 주어진 문서에서 발견된 키워드 분포를 분석함으로써 해당 문서에 사용된 주제들을 추정한다.
- 이러한 특징으로 토픽모델링은 특히 특정 주제와 관련된 연구 동향을 파악하는데 유용하게 활용되고 있다.
[ LDA graphical notation ]
- First Story Detection(FSD)은 토픽도출 및 추적 연구를 위한 접근 방법 중 하나이다.
- FSD는 시계열적 스토리 전개를 통해 새로운 이슈나 토픽들을 감지하게 된다.
- FSD가 이머징 이슈 탐지에 적용될 때 우선 <단어 수준>, <스토리 수준>, <스토리 군집 수준> 등 수준별 분석이 가능하다(아래 그림). 예를 들면, <단어 수준>에서 분석한다면 “불룸버그” 같은 단일어나 복합어의 언급 빈도의 시계열 추이를 중심으로 분석하고 <스토리 수준>에서는 “불룸버그 선거에서 승리”라는 주제 수준에서 이슈 트렌드를 분석 할 수 있다. 나아가 <스토리 군집 수준>에서는 “뉴욕 시장 선거”라는 이슈 트렌드를 분석 할 수 있다.
[ 시계열적 스토리 전개 ]
- 두 번째로는 스토리 언급 횟수와 중요성에 기반하여 이슈 트렌드를 분석 할 수 있다. 시간이 지날수록 스토리가 동시 다발적으로 생성되며, 이를 연속적으로 추적해 나감으로써 스토리의 생성, 발전, 쇠퇴의 과정을 이해할 수 있다(아래 그림).
[ 스토리 분포도 ]
- 세 번째로는 한 윈도우 안에서의 어휘변화를 추적함으로써 이슈를 분석 할 수 있다(Can et al., 2009)(아래 그림). 이 과정에서 어휘변화와 주요사건을 연결한다. 온라인상에서 뉴스 기사나 논문 초록 등을 이용해서 텍스트 마이닝 기법을 적용한 후, 관련된 사건에 이벤트 스래딩(서로 연관된 스토리를 찾아 연결하는 방식)을 수행한다.
[ 한 윈도우 안에서의 처음 사건 추적 ]
다. Outlier Detection (이상치 탐지)
- 일반적으로 다른 관측치랑 비교해서 많이 벗어나 있는 관측치가 이상치라고 정의한다. 여기서 주의해야할 점은 정보(novel data)와 잡음(noise data)은 다르다는 점이다.
- 잡음은 무작위 오차로서 이상치 탐지 전에 데이터 전처리 과정에서 제거되야 하며, 이상치는 찾고자 하는 관측치이다.
- 이상치는 모집단에 포함된 다른 데이터와 공간적으로 볼 때 거리가 있는 데이터 포인트를 의미한다 (Barnett and Lewis, 1994). 그러므로 이상치 관측은 이상치들을 탐지해내는 기법이며 신용카드나 전자 시장에서 범죄 행위 등을 추적하는 사기탐지(fraud detection) 등이 이에 속한다(아래 그림).
[ Outlier 예시 ]
- Outlier detection의 한계점은 다음과 같다. 첫 번째로 정상적, 평균적 데이터 포인트의 밀집지역 규정이 어렵다. 두 번째는 정상적 행동과 비정상적 행동 사이의 경계가 뚜렷하지 못하다. 세 번째는 outlier에 대한 정확한 정의가 없다. 네 번째로는 학습과 평가, 검증을 위한 데이터가 필요하다.
라. Social EntityMetrices
- 계량개체학(Entitymetrics)은 2013년에 Ding and Song 외에 의해서 제안된 개념이다(Ding, Song, et al., 2013).
- 지식 정보의 단위를 미시적 수준, 중간 수준, 거시적 수준으로 나누어 각각의 단위 수준에 속하는 개체들의 영향력을 정량적인 방법으로 측정하였다(아래 그림).
[ 계량개체학 기본 개념 ]
- 예를 들어 미시적 수준에서 질병명, 유전자명, 단백질명 등을 의생명 학술문헌에서 추출해서 이런 바이오 개체명들 사이의 관계를 동시 출현 빈도 및 인용관계를 연결한다. 이를 통해 질병과 유전자 사이의 새로운 관계 예측 등의 개방형 발견(open discovery)이 가능하다.
- 지금까지 계량개체학은 주로 의생명 분야에서 적용되어 왔다(Song et al., 2018; Kim et al., 2018; Baek et al., 2017). 하지만 개체가 사회 문화 도메인에서 추출된다면(예를 들면 인물명, 사건명, 국가명 등) 이들 개체들 간의 관계를 추출하여 지식 그래프(knowledge graph)를 구축이 가능할 것이다.
- 또한, 특정 개체에서 다른 특정 개체까지 이어지는 path들을 추출하여 path안에서 어떤 개체들이 어떻게 연결되었는지를 추적한다면 계량개체학이 사회분야에 적용이 가능할 것으로 보이며, 특정 개체가 미치는 파급력과 영향력을 측정할 수 있을 것이다.
- 이런 사회 계량개체학 (social entitymetrics)는 아직 시도되어 오지 않았고 향후 이 방법론을 이용한 이머징 이슈 탐지는 유의미한 결과를 얻을 수 있을 것으로 기대한다.
'IT 와 Social 이야기 > Data Science' 카테고리의 다른 글
지도 학습 vs. 비지도 학습 (Supervised Machine Learning vs. Unsupervised Machine Learning) (0) | 2020.06.24 |
---|---|
데이터 라벨링 Data Labeling (0) | 2020.06.15 |
[엔코아, 김옥기 데이터서비스센터장] 저성장 시대, 데이터 경제만이 살길 이다! (0) | 2015.10.30 |
What Is the Future of Data Sharing? - Data sharing의 미래 전망 설문 보고서 (0) | 2015.10.29 |
[Pivotal] Data Science - 데이터가 이끄는 세상, 데이터 사이언스의 역할 (0) | 2015.10.29 |