수영장의 수영_데이터 분석 블로그

[NLP] 02. Word Embedding, Naïve Bayes Classifier 본문

Goorm 자연어처리 전문가 양성 과정 2기/NLP

[NLP] 02. Word Embedding, Naïve Bayes Classifier

슈빔멘 2022. 1. 3. 19:01

워드 임베딩이란 무엇인가?

간단하게 인간의 언어(문자)를 컴퓨터가 이해할 수 있는 언어(숫자, 데이터, 벡터)로 변환하는 과정

 

- 어찌보면 당연하게도 임베딩을 어떻게 하느냐에 따라 성능이 크게 달라진다

- 현재는 인공신경망을 활용해 학습시킨 워드 임베딩 방식으로 문자를 -> 수치화하게 되었다

 

워드 임베딩의 종류(구분)

1) Bag of Words 가정 : 텍스트의 의미는 단어 사용의 '빈도수'에 의해 드러난다

2) 언어 모델 : 단어의 등장 '순서'를 고려해 단어 시퀀스의 자연스러움에 확률을 부여한다

3) 분포 가정 : 단어 의미는 주변의 문맥을 통해 유추할 수 있다

 

여기서 오늘은 백오브워즈를 자세히 배웠음

Bag of Words 가정

- 문법, 순서 등을 고려하지 않은 채 단어의 '빈도수'로 중요도를 카운트하는 방식

- one-hot 벡터로 인코딩하고 그냥 횟수를 세면 된다

 

 

Naïve Bayes Classifier

베이즈 정리

- 베이즈 정리에 기초한 분류 방식

- 클래스 별로 토큰을 count하는 간단한 방식으로 볼 수 있다

 

- P(d | c)로부터 P(c | d)를 계산

- 즉, 기존 스팸/정상 메일에서 사용된 토큰(단어)의 횟수를 세서 -> Test 메일의 스팸 여부를 분류한다

 

새로운 문장이 spam에 속할 확률과 inbox에 속할 확률을 계산한다
계산 결과 새 문장은 spam으로 분류

 

 

대충 이렇게 된다

수업 끝났으니까 빨리 밥먹으러 가야겠음

'Goorm 자연어처리 전문가 양성 과정 2기 > NLP' 카테고리의 다른 글

[NLP] 06. LSTM & GRU  (0) 2022.01.11
[NLP] 05. RNN  (0) 2022.01.07
[NLP] 04. Word Embedding - Word2Vec, GloVe, Doc2Vec  (0) 2022.01.06
[NLP] 03. Topic Modeling  (0) 2022.01.05
[NLP] 01. Intro  (0) 2022.01.03