본문 바로가기

IT 와 Social 이야기/Python348

[딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization 1. 표제어 추출(Lemmatization) - Lemma는 '표제어' 또는 '기본 사전형 단어' 정도의 의미 - 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단 - 가장 섬세한 방법은 단어의 형태학적 파싱(형태소 분석)을 먼저 진행하는 것 어간(stem) : 단어의 의미를 담고 있는 핵심 부분 접사(affix) : 단어에 추가적인 의미를 주는 부분 ** 표제어 추출은 해당 단어의 품사 정보를 보존, 어간 추출은 해당 단어의 품사 정보가 보존 되지 않음 2. 어간 추출(Stemming) - 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있으므로 이 작업은 섬세한 작업이 .. 2021. 5. 15.
참된 스승 참된 스승 누가 가장 자유한 인간들일까요? 아이들입니다. 하고 싶은 것 다 하려하지요. 그러나 그런 자유는 결국 스스로를 망가뜨립니다. 본능만 있을뿐, 아직 분별력이 없기 때문이지요. 네. 그러다 죽을 수도 있습니다. 그래서 부모와 선생이 가이드해줍니다. 결국 인간이 참된 자유를 누리려면, 옳고그름의 분별력이 필요하다는 것을 알 수 있습니다. 그런면에서 그리스도인은 단지 부모, 사회적 명사의 기준이 아닌, 세상의 주인의 기준을 받은 자라는 의미에서 자유합니다. 참된 스승되시니까요. [CBS 1분 묵상 20210515] 2021. 5. 15.
[데이터 사이언스 스쿨] 그래프 이론 기초 Graph theory basic 그래프(graph)는 다음 그림처럼 노드(node, vertex)와 그 사이를 잇는 간선(edge)으로 이루어진 구조를 말한다. 위 그래프는 4 개의 노드 집합(V={0,1,2,3})과 6개의 간선 집합(E={(0,1),(0,2),(0,3),(1,2),(1,3),(2,3)})을 가진다. 만약 간선 (a,b)(a,b)와 (b,a)(b,a)이 있을 때 이 두 간선을 다른 것으로 본다면 간선의 방향이 있는 방향성 그래프(directed graph)이고 두 간선을 같은 것으로 본다면 간선의 방향이 없는 비방향성 그래프(undirected graph)이다. 그래프를 시각화를 할 때 방향성은 화살표로 표시한다. 워크(walk) : 어떤 노드를 출발해서 다른 노드로 도달하기 위한 인접한 노드의 순서열 패스(path).. 2021. 5. 14.
[데이터 사이언스 스쿨] Affinity Propagation 선호도 전파 모든 데이터가 특정한 기준에 따라 자신을 대표할 대표 데이터를 선택한다. 만약 스스로가 자기 자신을 대표하게 되면 클러스터의 중심이 된다. - 출처 : [데이터 사이언스 스쿨] Affinity Propagation 선호도 전파 2021. 5. 14.