Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 구글애널리틱스
- ga4
- microsoft pl-300
- 길벗출판사
- 모두의구글애널리틱스4
- 태블로기초
- pl-300
- 신입일기
- PowerBI
- NLP
- gru
- microsoft power bi
- GA4챌린지
- RNN
- data
- 티스토리챌린지
- 태블로입문
- 오블완
- 인턴일기
- pl300
- 데이터분석
- 태블로
- 파워비아이
- POWER BI
- 파워BI
- LSTM
Archives
- Today
- Total
수영장의 수영_데이터 분석 블로그
[NLP] 03. Topic Modeling 본문
Term-document matrix
- 행 : term, 즉 vocabulary (단, unique word여야한다)
- 열 : document
으로 이루어진 matrix를 의미한다
토픽 모델링이란?
문서 집합의 추상적인 주제를 발결하기 위한 모델 중 하나
간단하게 '말뭉치로부터 토픽을 추출하는 기법'으로 볼 수 있다
What is a Topic?
- 토픽이란 키워드(단어들)의 확률 분포로 볼 수 있다 => ex. n개의 단어에서 특정 단어 'teacher'의 확률 분포는?
- 즉, 토픽은 키워드들의 가중치가 고려된(weighted) 결합으로 볼 수 있다
토픽 모델링은 결국 document에 등장하는 keywords로부터 적절한 토픽을 뽑아내서, 단어들을 그에 맞게 그룹화하는 기법이다.
- 예를 들어, 여기서 Topic의 개수는 4개이며 각 토픽에 맞게(확률 분포 상으로 가장 적합하게) 단어들을 모아서 그룹화했다
- 더 자세히 보자면, 1) 많은 keywords들이 맨 아래에 주어져 있다
- 2) 각 단어들은 topic 1 or 2 or 3에 할당된다
- 3) topic 내의 BoW 결합으로 Document를 만들어낸다 (여기서 topic은 여러개 사용될 수 있음)
- 4) ground truth인 Document와 비교해 평가한다
=> Document 벡터를 Topic 벡터의 '선형결합'을 통해 나타내는 것
'Goorm 자연어처리 전문가 양성 과정 2기 > NLP' 카테고리의 다른 글
[NLP] 06. LSTM & GRU (0) | 2022.01.11 |
---|---|
[NLP] 05. RNN (0) | 2022.01.07 |
[NLP] 04. Word Embedding - Word2Vec, GloVe, Doc2Vec (0) | 2022.01.06 |
[NLP] 02. Word Embedding, Naïve Bayes Classifier (0) | 2022.01.03 |
[NLP] 01. Intro (0) | 2022.01.03 |