[NLP] 03. Topic Modeling

Notice

Recent Posts

Tags more

Archives

관리 메뉴

수영장의 수영_데이터 분석 블로그

Goorm 자연어처리 전문가 양성 과정 2기/NLP

슈빔멘 2022. 1. 5. 23:36

- 행 : term, 즉 vocabulary (단, unique word여야한다)

- 열 : document

으로 이루어진 matrix를 의미한다

문서 집합의 추상적인 주제를 발결하기 위한 모델 중 하나

간단하게 '말뭉치로부터 토픽을 추출하는 기법'으로 볼 수 있다

- 토픽이란 키워드(단어들)의 확률 분포로 볼 수 있다 => ex. n개의 단어에서 특정 단어 'teacher'의 확률 분포는?

- 즉, 토픽은 키워드들의 가중치가 고려된(weighted) 결합으로 볼 수 있다

토픽 모델링은 결국 document에 등장하는 keywords로부터 적절한 토픽을 뽑아내서, 단어들을 그에 맞게 그룹화하는 기법이다.

- 예를 들어, 여기서 Topic의 개수는 4개이며 각 토픽에 맞게(확률 분포 상으로 가장 적합하게) 단어들을 모아서 그룹화했다

- 더 자세히 보자면, 1) 많은 keywords들이 맨 아래에 주어져 있다

- 2) 각 단어들은 topic 1 or 2 or 3에 할당된다

- 3) topic 내의 BoW 결합으로 Document를 만들어낸다 (여기서 topic은 여러개 사용될 수 있음)

- 4) ground truth인 Document와 비교해 평가한다

=> Document 벡터를 Topic 벡터의 '선형결합'을 통해 나타내는 것

[NLP] 06. LSTM & GRU (0)	2022.01.11
[NLP] 05. RNN (0)	2022.01.07
[NLP] 04. Word Embedding - Word2Vec, GloVe, Doc2Vec (0)	2022.01.06
[NLP] 02. Word Embedding, Naïve Bayes Classifier (0)	2022.01.03
[NLP] 01. Intro (0)	2022.01.03

'Goorm 자연어처리 전문가 양성 과정 2기/NLP' Related Articles