본문 바로가기

Python409

[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization 1. 단어 토큰화(Word Tokenization) - 토큰의 기준이 단어(word). 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 함 - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 함 - 영어와 달리 한국어는 띄어쓰기만으로는 단어 토큰을 구분하기 어려움 2. 토큰화 중 생기는 선택의 순간 - 영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야할까 3. 토큰화에서 고려해야 할 사항 - 구두점이나 특수 문자를 단순 제외해서는 안 된다. - 줄임말과 단어 내에 띄어쓰기가 있는 경우 - 표준 토큰화 예제(Penn Treebank Tokenization의 규칙) 하이푼으로 구성된 단어는 하나로 유지 does.. 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 02. 텍스트 전처리 Text preprocessing 1. 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 2. 정제(Cleaning)와 정규화(Nomalization) 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 3. 어간 추출(Stemming)과 표제어 추출(Lemmatization) 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법으로 의미는 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면.. 2021. 5. 15.
[데이터 사이언스 스쿨] 군집화 clustering ○ 주어진 데이터 집합을 유사한 데이터들의 그룹으로 나누는 것을 군집화(clustering)라 한다. ○ 군집화 방법 K-평균 군집화(K-means Clustering) 디비스캔 군집화(DBSCAN Clustering) 유사도 전파 군집화(Affinity Propagation Clustering) 계층적 군집화(Hierarchical Clustering) 스펙트럴 군집화(Spectral Clustering) ○ 군집화 성능기준 조정 랜드지수(Adjusted Rand Index) 조정 상호정보량 (Adjusted Mutual Information) 실루엣계수 (Silhouette Coefficient) - 출처 : [데이터 사이언스 스쿨] 군집화 clustering 2021. 5. 14.
[데이터 사이언스 스쿨] 커널 서포트 벡터 머신 퍼셉트론이나 서포트 벡터 머신과 같은 선형판별함수 분류모형은 XOR(exclusive OR) 문제를 선형판별평면(decision hyperplane)으로 영역을 나눌 수 없기 때문 풀지 못한다. 기저함수를 써서 XOR 문제의 데이터를 변환하면 특성 ϕ2ϕ2를 사용하여 클래스 분류를 할 수 있다. ○ 커널 사용의 장점 : 커널을 사용하면 베이시스 함수를 하나씩 정의하는 수고를 덜 수 있을뿐더러 변환과 내적에 들어가는 계산량이 줄어든다. ○ 많이 사용되는 커널 - 다항 커널 (Polynomial Kernel) - RBF(Radial Basis Function) 또는 가우시안 커널(Gaussian Kernel) - 시그모이드 커널 (Sigmoid Kernel) 2021. 5. 13.