본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 1304 개체명 인식의 BIO 표현 이해하기

by manga0713 2021. 5. 27.

1. BIO 표현

 

- 코퍼스로부터 개체명을 인식하기 위한 방법중 가장 보편적인 방법 중 하나

 

  • B : Begin, 개체명이 시작되는 부분
  • I : Inside, 개체명의 내부 부분
  • O : Outside, 개체명이 아닌 부분

 

2. 개체명 인식 데이터 이해하기

 

- 활용 데이터 : CONLL2003(개체명 인식을 위한 전통적인 영어 데이터 셋)

- 데이터 형식 :  [단어] [품사 태깅] [청크 태깅] [개체명 태깅]의 형식

- 다운로드 링크 : https://raw.githubusercontent.com/Franck-Dernoncourt/NeuroNER/master/neuroner/data/conll2003/en/train.txt

 

- CONLL2003 데이터를 활용하여 개체명 인식 모델 작성

 

3. 데이터 전처리 하기

 

 

4. 양방향 LSTM(Bi-directional LSTM)으로 개체명 인식기 만들기

 

 

nlp_1304_named_entity_recognition_model_만들기.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 1304 개체명 인식의 BIO 표현 이해하기