수영장의 수영_데이터 분석 블로그

[NLP] 03. Topic Modeling 본문

Goorm 자연어처리 전문가 양성 과정 2기/NLP

[NLP] 03. Topic Modeling

슈빔멘 2022. 1. 5. 23:36

Term-document matrix 

- 행 : term, 즉 vocabulary (단, unique word여야한다)

- 열 : document

으로 이루어진 matrix를 의미한다

 

토픽 모델링이란?

문서 집합의 추상적인 주제를 발결하기 위한 모델 중 하나

간단하게 '말뭉치로부터 토픽을 추출하는 기법'으로 볼 수 있다

 

 

What is a Topic?

- 토픽이란 키워드(단어들)의 확률 분포로 볼 수 있다 => ex. n개의 단어에서 특정 단어 'teacher'의 확률 분포는?

- 즉, 토픽은 키워드들의 가중치가 고려된(weighted) 결합으로 볼 수 있다

 

토픽 모델링은 결국 document에 등장하는 keywords로부터 적절한 토픽을 뽑아내서, 단어들을 그에 맞게 그룹화하는 기법이다.

 

 

- 예를 들어, 여기서 Topic의 개수는 4개이며 각 토픽에 맞게(확률 분포 상으로 가장 적합하게) 단어들을 모아서 그룹화했다

 

 

 

- 더 자세히 보자면, 1) 많은 keywords들이 맨 아래에 주어져 있다

- 2) 각 단어들은 topic 1 or 2 or 3에 할당된다

- 3) topic 내의 BoW 결합으로 Document를 만들어낸다 (여기서 topic은 여러개 사용될 수 있음)

- 4) ground truth인 Document와 비교해 평가한다

 

=> Document 벡터를 Topic 벡터의 '선형결합'을 통해 나타내는 것