본문 바로가기
IT 와 Social 이야기

[iitp] 소비자 선호도 분석 시스템

by manga0713 2018. 7. 25.

 

[딥러닝 기법을 이용한 CNN모델 기반의 워드임베딩 플로우]

 

 

 

 

*** 출처: [iitp] 딥러닝 기법을 이용한 인공지능 기반의 소비자 선호도 분석 시스템 - 문현준 세종대 교수, 민경복 세종대 박사과정

*** 문서:

file8416087633777103382-185601.pdf

 

 

 

 

 

 

- 여러 SNS 사이트에서 작성된 임의의 불특정한 식품에 대한 맛, 평가, 분석 등을 리뷰한 글들을 자연어 처리를 통해 분석 가능한 빅데이터로 추출한 후 딥러닝 방식을 이용하여, 기존의 대면 방식으로 이루어지는 식품 관능검사를 비대면적이고 저비용으로 할 수 있는 대체 방법안을 제시한다.

 

 

 

II. 연구 내용

 

1. SNS 리뷰에서 맛에 관한 문장 추출

 

 

 

 

[데이터 크롤링 과정]

 

 

 

- SNS 상에서 제품 평가에 대한 리뷰들을 자동으로 추출하여 비교할 두 가지 제품의 맛 평가를 분류

 

- 파이썬(Python)을 활용한 크롤링(Crawling) 진행 (네이버, 다음)

 

- 크롤링을 통해 추출된 데이터는 각 성별, 나이, 지역 등 SNS 상의 작성자들에 대한 Sub 항목 카테고리를 만들어 추후 각 모집군별의 자세한 분석도 가능하게 프로그램

 

- 모델 상품은 '짬뽕라면'으로 여러 제품들의 리뷰 검색을 통해 제일 리뷰가 많은 상위 2가지 제품을 최종 선정

 

 

2. 형태소 분석

 

- 크롤링을 거쳐 수집된 문장들은 제품의 특징을 비교할 항목별 단어의 말뭉치로 전환되고 워드 임베딩 작업을 위해 연속적인 스킵그램 모델로 훈련

 

- KoNLPy 사용

 

- 어휘의 본질 때문에 문장에 사용된 형용사 및 동사에 따라 명사의 의미가 달라지므로 연속 스킵그램 모델을 위한 훈련을 위해 명사뿐만 아니라 형용사, 동사, 명사 추출

 

- 형태소 분석을 위한 단어추출의 예

 

 

 

 

 

 

- 더욱 효과적인 선호도 및 특징 분석을 위해 자체적으로 구현한 '맛 표현 사전' 이용. 이는 맛과 관련된 단어로 이루어진 말뭉치를 유효한 단어들로 축약하여 연산 속도를 향상 시킴

 

- 맛 표현 사전: 맛, 맛있다, 맛집, 음식, 식사 등 범용적인 맛 표현 검출이 가능한 키워드를 이용하여 수집한 SNS의 맛 평가 데이터와 메뉴판, 요기요, 배달통, 배달의 민족 등 음식 평가 사이트에서 데이터를 수집하여 빈도수 측정을 통해 범용적으로 사용되고 있는 맛에 관련된 표현들을 정리해놓은 사전

 

 

3. 워드 임베딩

 

- 형태소 분석 단계에서 선택되고 훈련된 단어들에게 벡터 값을 부여하는 과정

 

- 이 과정에서 맛과 향 등의 세부적인 비교 항목들을 주고 균등한 가중치를 주거나 변경할 수 있음

 

- 텍스트 문서에서 추출한 단어의 목록을 보통 10차원에서 1,000차원까지 낮은 차원의 벡터로 변환하는 데 사용자 리뷰를 보다 정확하게 이해하기 위해 단어의 구조적 특성과 의미를 이해하기 위해 적용

 

- 연속 스킵그램 모델 사용

 

 

 

 

 

 

- 형태소 분석에서 구축된 말뭉치를 이용하여 동일한 두개의 스킵그램 모델을 사용하여 스킵그램 모델을 훈련하고, 단어는 64차원 벡터로 표현

 

- 워드 임베딩 과정에서 무의미한 값이나 중립적인 값을 가지는 단어들을 검출하는 딥러닝 모델을 추가, 비교 결과를 더욱 선명하게 함

 

 

 

4. 분석 비교 값 추출

 

- 워드임베딩 과정에서 벡터 값과 가중치를 받은 단어들을 비교하여 비교 제품의 최종 결과 값을 얻음

 

- 온라인 리뷰에서 제품의 특성을 나타내는 단어들을 선택하고 추출하는 과정 필요

 

- 사용자들은 맛과 향에 대한 경험을 표현한다. 리뷰에서 주요 맛과 향의 표현을 찾기 위해 '맛'과 '향' 단어를 키워드로 선택하고 각 제품과 제품의 리뷰에 포함된 단어와 연산을 통한 벡터로 표현

 

- 최종 분석 결과 값에 감정분석 기술 적용

 

- 워드 임베딩 과정을 통한 분석 비교 값 추출을 위해 CNN모델 기반의 딥러닝 기법 이용

 

- 특정 종류의 음식에 대한 사용자의 감정에 영향을 미치는 필수 요소인 정서 값을 자동으로 평가하기 위해 단어 삽입 모델 이용