본문 바로가기

언어 모델10

[딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency) 1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) - 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 - 우선 DTM을 만든 후, TF-IDF 가중치를 부여 - 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음 - TF-IDF 식의 이해 (d: 문서, t: 단어, n: 문서의 총 개수) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 df(t) : 특정 단어 t가 등장한 문서의 수 idf(d, t) : log(n/1+df(t)) -.. 2021. 5. 17.
[딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW) 1. Bag of Words란? - 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법 - 만드는 과정 우선, 각 단어에 고유한 정수 인덱스를 부여 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 생성 3. CountVectorizer 클래스로 BoW 만들기 4. 블용어를 제거한 BoW 만들기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW) 2021. 5. 16.
[딥러닝을이용한 자연어 처리 입문] 0301 언어 모델 Language Model이란? 1. 언어 모델(Language Model) - 단어 시퀀스(또는 문장)에 확률을 할당(assign) 해 가며 가장 자연스러운 단어 시퀀스를 찾아내는 모델 - 사용하는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측 하도록 하는 것 - 주어진 양쪽의 단어들로부터 가운데 비어있는 단어를 예측 하도록 하는 것 등이 있음 2. 단어 시퀀스의 확률 할당 - 확률을 통해 보다 적절한 문장을 판단 선생님이 교실로 부리나케 P(달려갔다) > P(잘려갔다) 2021. 5. 16.
[데이터 사이언스 스쿨] ml7.1 확률론적 언어 모형 ○ 확률론적 언어 모형(probability language model) : m개의 단어 w1,w2,…,wm 열(word sequence)이 주어졌을 때 문장으로써 성립될 확률 P(w1,w2,…,wm)을 출력함으로써 이 단어 열이 실제로 현실에서 사용될 수 있는 문장(sentence)인지를 판별하는 모형이다. 유니그램 모형(Unigram Model) : 모든 단어의 활용이 완전히 서로 독립 바이그램 모형(Bigram Model) : 단어의 활용이 전 단어에 의존 N그램 모형(N-gram Model) : 단어의 활용이 전 n-1개의 단어에 의존 - 출처 : [데이터 사이언스 스쿨] ml7.1 확률론적 언어 모형 2021. 5. 7.