본문 바로가기

파이썬406

[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization 1. 단어 토큰화(Word Tokenization) - 토큰의 기준이 단어(word). 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 함 - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 함 - 영어와 달리 한국어는 띄어쓰기만으로는 단어 토큰을 구분하기 어려움 2. 토큰화 중 생기는 선택의 순간 - 영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야할까 3. 토큰화에서 고려해야 할 사항 - 구두점이나 특수 문자를 단순 제외해서는 안 된다. - 줄임말과 단어 내에 띄어쓰기가 있는 경우 - 표준 토큰화 예제(Penn Treebank Tokenization의 규칙) 하이푼으로 구성된 단어는 하나로 유지 does.. 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 02. 텍스트 전처리 Text preprocessing 1. 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 2. 정제(Cleaning)와 정규화(Nomalization) 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 3. 어간 추출(Stemming)과 표제어 추출(Lemmatization) 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법으로 의미는 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면.. 2021. 5. 15.
[데이터 사이언스 스쿨] 그래프 이론 기초 Graph theory basic 그래프(graph)는 다음 그림처럼 노드(node, vertex)와 그 사이를 잇는 간선(edge)으로 이루어진 구조를 말한다. 위 그래프는 4 개의 노드 집합(V={0,1,2,3})과 6개의 간선 집합(E={(0,1),(0,2),(0,3),(1,2),(1,3),(2,3)})을 가진다. 만약 간선 (a,b)(a,b)와 (b,a)(b,a)이 있을 때 이 두 간선을 다른 것으로 본다면 간선의 방향이 있는 방향성 그래프(directed graph)이고 두 간선을 같은 것으로 본다면 간선의 방향이 없는 비방향성 그래프(undirected graph)이다. 그래프를 시각화를 할 때 방향성은 화살표로 표시한다. 워크(walk) : 어떤 노드를 출발해서 다른 노드로 도달하기 위한 인접한 노드의 순서열 패스(path).. 2021. 5. 14.
[데이터 사이언스 스쿨] Affinity Propagation 선호도 전파 모든 데이터가 특정한 기준에 따라 자신을 대표할 대표 데이터를 선택한다. 만약 스스로가 자기 자신을 대표하게 되면 클러스터의 중심이 된다. - 출처 : [데이터 사이언스 스쿨] Affinity Propagation 선호도 전파 2021. 5. 14.