수영장의 수영_데이터 분석 블로그

08. 벡터 공간 모델 본문

Study/텍스트마이닝

08. 벡터 공간 모델

슈빔멘 2022. 1. 10. 18:54

벡터 공간 모델

- 문서를 벡터로 표현하는 모델로, 벡터의 각 차원을 개별 단어에 대응시킨다

- 정보검색, 연관검색 등에 활용된다

 

단어 가중치

-> 단순 출현 빈도가 아닌, 단어의 가중치를 고려하여 문서를 분석한다

-> 단어는 단순 키워드, 혹은 더 긴 구가 될 수도 있다

-> 벡터의 Dimension == 단어 개수 Vocabulary가 된다 (단일단어로만 구성되었을 경우)

 

문헌*단어 행렬 (Document*Term Matrix)

행 : unique한 개별 단어가 한 행을 차지하게 됨 -> vocabulary

열 : 문서(document) 하나가 한 열을 차지하게 됨

 

한계

- 긴 문서의 유사도는 제대로 표현되지 않음

- 비슷한 의미의 문서도 정확히 일치하는 단어를 사용하지 않으면 -> 연관성을 갖지 못함

- 단어의 순서가 무시됨 -> 문맥 정보 파악 불가

 


단어 가중치 기법

- 문헌에서 자주 나타나는 단어가 문헌을 대표한다는 가정에서 출발

- 유용한 단어의 집단을 추려내 다른 용어들과 차별적으로 나타낼 수 있다

 

Zipf's Law

- 기능어, 불용어의 경우 의미없이 빈도수만 많이 등장함

- 때문에 단순count 기법은 별로 유용하지 않다

 

1. TF*IDF (Term Frequency * Inverse Document Frequency)

- 가장 대표적인 단어 가중치 기법

- 어떤 문서 내에서의 특정 단어 빈도가 얼마나 높은지 측정하는데, 이때 전체 문서에서는 그 단어를 포함한 횟수가 적어야 함

(ex. the 같은 기능어의 경우 어디서나 많이 등장)

- 모든 문서에 등장하는 흔한 단어는 걸러내고, 특정 단어의 중요도를 측정한다

 

1) TF 단어 빈도

- 해당 단어의 특정문서에서의 중요도

 

2) IDF 역문헌 빈도

- 해당 단어의 일반적(전체문헌)인 중요도

 

 

=> TF * IDF로 가중치를 계산한다

 

2. 엔트로피(Entropy)

- 정보의 불확실성을 나타내는 지표

- 불확실할수록 엔트로피 지수는 높아진다

 

H[x] : 엔트로피 지수, 불확실성 값

p(x) : x가 등장할 확률

 

3. 상호 정보량

사건 A, B가 각각 일어날 확률 중 (분모) 사건 A,B가 동시에 일어날 확률 (분자)

 

4. 카이제곱

- 명목척도를 이용해 측정된 자료에서 연관성을 찾을 때 통상적으로 사용됨

- '실제 관찰값 - 결과 기댓값' 사이의 차이를 찾는 것에 기초한다

=> 중요한 자질을 선택하는 방법으로 사용됨 (중요 단어)

=> 단어의 빈도수와 밀접하게 연관됨

 


동시출현 단어 분석 Co-word Analysis

두 개의 단어가 분석단위 내에서 함께 출현하는 빈도를 통해 다음을 파악한다

1) 단어끼리의 연관성

2) 문헌집단의 특성

 

공기(Co-Occurence)

- 공기 : 두 단어가 같은 문맥에서 함께 드러나는 현상

- 공기어 : 같은 문맥에서 드러나는 두 단어

- 대상어 : 분석하고자 하는 대상 단어

 

관계 척도

우연히 같이 등장하는게 아니라, 두 단어가 실제로 함께 등장하는 빈도수를 측정하는 척도

=> 대상어와 공기어의 의미적 관계성을 찾는 것이 목표

 

1) 토폴로지 유사성

두 단어 사이 유사성을 기반으로, 두 개념의 정보를 포함하는 정규화 요인을 산출한다

솔직히 이부분은 무슨말인지 모르겠음 

수식 설명 안하고 넘어가심

 

2) 통계적 유사성

통계적으로 두 단어 사이 유사성을 계산한다 

LSA가 대표적이다

 

LSA (Latent Semantic Analysis)

- 잠재 의미 분석 : 쉽게 말해서 잠재된 단어의 의미를 이끌어내는 분석이다

- SVD (특이값분해) 방식을 기초로 함

 

 

3) 워드 임베딩 (Word Embedding)

- 1),2)와 달리 '문맥'을 고려하여 단어를 분석할 수 있다

- 대표적으로 Word2Vec

 

'Study > 텍스트마이닝' 카테고리의 다른 글

07. 한글 구문 분석  (0) 2022.01.03
06. 한글 형태소 분석 기법  (0) 2022.01.03
05. 한글 품사 태깅  (0) 2022.01.03
04. 형태소 분석  (0) 2022.01.03
03. 영어 전처리  (0) 2021.12.28