[딥러닝 기법을 이용한 CNN모델 기반의 워드임베딩 플로우]
*** 출처: [iitp] 딥러닝 기법을 이용한 인공지능 기반의 소비자 선호도 분석 시스템 - 문현준 세종대 교수, 민경복 세종대 박사과정
*** 문서:
file8416087633777103382-185601.pdf
- 여러 SNS 사이트에서 작성된 임의의 불특정한 식품에 대한 맛, 평가, 분석 등을 리뷰한 글들을 자연어 처리를 통해 분석 가능한 빅데이터로 추출한 후 딥러닝 방식을 이용하여, 기존의 대면 방식으로 이루어지는 식품 관능검사를 비대면적이고 저비용으로 할 수 있는 대체 방법안을 제시한다.
II. 연구 내용
1. SNS 리뷰에서 맛에 관한 문장 추출
[데이터 크롤링 과정]
- SNS 상에서 제품 평가에 대한 리뷰들을 자동으로 추출하여 비교할 두 가지 제품의 맛 평가를 분류
- 파이썬(Python)을 활용한 크롤링(Crawling) 진행 (네이버, 다음)
- 크롤링을 통해 추출된 데이터는 각 성별, 나이, 지역 등 SNS 상의 작성자들에 대한 Sub 항목 카테고리를 만들어 추후 각 모집군별의 자세한 분석도 가능하게 프로그램
- 모델 상품은 '짬뽕라면'으로 여러 제품들의 리뷰 검색을 통해 제일 리뷰가 많은 상위 2가지 제품을 최종 선정
2. 형태소 분석
- 크롤링을 거쳐 수집된 문장들은 제품의 특징을 비교할 항목별 단어의 말뭉치로 전환되고 워드 임베딩 작업을 위해 연속적인 스킵그램 모델로 훈련
- KoNLPy 사용
- 어휘의 본질 때문에 문장에 사용된 형용사 및 동사에 따라 명사의 의미가 달라지므로 연속 스킵그램 모델을 위한 훈련을 위해 명사뿐만 아니라 형용사, 동사, 명사 추출
- 형태소 분석을 위한 단어추출의 예
- 더욱 효과적인 선호도 및 특징 분석을 위해 자체적으로 구현한 '맛 표현 사전' 이용. 이는 맛과 관련된 단어로 이루어진 말뭉치를 유효한 단어들로 축약하여 연산 속도를 향상 시킴
- 맛 표현 사전: 맛, 맛있다, 맛집, 음식, 식사 등 범용적인 맛 표현 검출이 가능한 키워드를 이용하여 수집한 SNS의 맛 평가 데이터와 메뉴판, 요기요, 배달통, 배달의 민족 등 음식 평가 사이트에서 데이터를 수집하여 빈도수 측정을 통해 범용적으로 사용되고 있는 맛에 관련된 표현들을 정리해놓은 사전
3. 워드 임베딩
- 형태소 분석 단계에서 선택되고 훈련된 단어들에게 벡터 값을 부여하는 과정
- 이 과정에서 맛과 향 등의 세부적인 비교 항목들을 주고 균등한 가중치를 주거나 변경할 수 있음
- 텍스트 문서에서 추출한 단어의 목록을 보통 10차원에서 1,000차원까지 낮은 차원의 벡터로 변환하는 데 사용자 리뷰를 보다 정확하게 이해하기 위해 단어의 구조적 특성과 의미를 이해하기 위해 적용
- 연속 스킵그램 모델 사용
- 형태소 분석에서 구축된 말뭉치를 이용하여 동일한 두개의 스킵그램 모델을 사용하여 스킵그램 모델을 훈련하고, 단어는 64차원 벡터로 표현
- 워드 임베딩 과정에서 무의미한 값이나 중립적인 값을 가지는 단어들을 검출하는 딥러닝 모델을 추가, 비교 결과를 더욱 선명하게 함
4. 분석 비교 값 추출
- 워드임베딩 과정에서 벡터 값과 가중치를 받은 단어들을 비교하여 비교 제품의 최종 결과 값을 얻음
- 온라인 리뷰에서 제품의 특성을 나타내는 단어들을 선택하고 추출하는 과정 필요
- 사용자들은 맛과 향에 대한 경험을 표현한다. 리뷰에서 주요 맛과 향의 표현을 찾기 위해 '맛'과 '향' 단어를 키워드로 선택하고 각 제품과 제품의 리뷰에 포함된 단어와 연산을 통한 벡터로 표현
- 최종 분석 결과 값에 감정분석 기술 적용
- 워드 임베딩 과정을 통한 분석 비교 값 추출을 위해 CNN모델 기반의 딥러닝 기법 이용
- 특정 종류의 음식에 대한 사용자의 감정에 영향을 미치는 필수 요소인 정서 값을 자동으로 평가하기 위해 단어 삽입 모델 이용
'IT 와 Social 이야기' 카테고리의 다른 글
[US-CERT: Bulletin(SB18-204)] 2018년 7월 16일까지 발표된 보안 취약점 (0) | 2018.07.26 |
---|---|
[iitp] 수조 속 물고기에도 QR코드, 알리바바의 New Retail 매장 '허마시엔셩' (0) | 2018.07.25 |
[금융위원회] 금융분야 마이데이터 산업 도입방안 (0) | 2018.07.24 |
[nipa] 블록체인과 가상화폐 시장의 동향 및 시사점 - 길성원 선임 (0) | 2018.07.24 |
[iitp] 에듀테크(Edutech)의 기술 및 콘텐츠 동향 (0) | 2018.07.20 |