일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- GA4챌린지
- gru
- 티스토리챌린지
- 인턴일기
- pl300
- 태블로
- 태블로기초
- 모두의구글애널리틱스4
- microsoft power bi
- 태블로입문
- 오블완
- 파워BI
- 길벗출판사
- LSTM
- ga4
- 파워비아이
- 신입일기
- RNN
- PowerBI
- microsoft pl-300
- 구글애널리틱스
- data
- NLP
- pl-300
- 데이터분석
- POWER BI
- Today
- Total
수영장의 수영_데이터 분석 블로그
08. 벡터 공간 모델 본문
벡터 공간 모델
- 문서를 벡터로 표현하는 모델로, 벡터의 각 차원을 개별 단어에 대응시킨다
- 정보검색, 연관검색 등에 활용된다
단어 가중치
-> 단순 출현 빈도가 아닌, 단어의 가중치를 고려하여 문서를 분석한다
-> 단어는 단순 키워드, 혹은 더 긴 구가 될 수도 있다
-> 벡터의 Dimension == 단어 개수 Vocabulary가 된다 (단일단어로만 구성되었을 경우)
문헌*단어 행렬 (Document*Term Matrix)
행 : unique한 개별 단어가 한 행을 차지하게 됨 -> vocabulary
열 : 문서(document) 하나가 한 열을 차지하게 됨
한계
- 긴 문서의 유사도는 제대로 표현되지 않음
- 비슷한 의미의 문서도 정확히 일치하는 단어를 사용하지 않으면 -> 연관성을 갖지 못함
- 단어의 순서가 무시됨 -> 문맥 정보 파악 불가
단어 가중치 기법
- 문헌에서 자주 나타나는 단어가 문헌을 대표한다는 가정에서 출발
- 유용한 단어의 집단을 추려내 다른 용어들과 차별적으로 나타낼 수 있다
Zipf's Law
- 기능어, 불용어의 경우 의미없이 빈도수만 많이 등장함
- 때문에 단순count 기법은 별로 유용하지 않다
1. TF*IDF (Term Frequency * Inverse Document Frequency)
- 가장 대표적인 단어 가중치 기법
- 어떤 문서 내에서의 특정 단어 빈도가 얼마나 높은지 측정하는데, 이때 전체 문서에서는 그 단어를 포함한 횟수가 적어야 함
(ex. the 같은 기능어의 경우 어디서나 많이 등장)
- 모든 문서에 등장하는 흔한 단어는 걸러내고, 특정 단어의 중요도를 측정한다
1) TF 단어 빈도
- 해당 단어의 특정문서에서의 중요도
2) IDF 역문헌 빈도
- 해당 단어의 일반적(전체문헌)인 중요도
=> TF * IDF로 가중치를 계산한다
2. 엔트로피(Entropy)
- 정보의 불확실성을 나타내는 지표
- 불확실할수록 엔트로피 지수는 높아진다
H[x] : 엔트로피 지수, 불확실성 값
p(x) : x가 등장할 확률
3. 상호 정보량
사건 A, B가 각각 일어날 확률 중 (분모) 사건 A,B가 동시에 일어날 확률 (분자)
4. 카이제곱
- 명목척도를 이용해 측정된 자료에서 연관성을 찾을 때 통상적으로 사용됨
- '실제 관찰값 - 결과 기댓값' 사이의 차이를 찾는 것에 기초한다
=> 중요한 자질을 선택하는 방법으로 사용됨 (중요 단어)
=> 단어의 빈도수와 밀접하게 연관됨
동시출현 단어 분석 Co-word Analysis
두 개의 단어가 분석단위 내에서 함께 출현하는 빈도를 통해 다음을 파악한다
1) 단어끼리의 연관성
2) 문헌집단의 특성
공기(Co-Occurence)
- 공기 : 두 단어가 같은 문맥에서 함께 드러나는 현상
- 공기어 : 같은 문맥에서 드러나는 두 단어
- 대상어 : 분석하고자 하는 대상 단어
관계 척도
우연히 같이 등장하는게 아니라, 두 단어가 실제로 함께 등장하는 빈도수를 측정하는 척도
=> 대상어와 공기어의 의미적 관계성을 찾는 것이 목표
1) 토폴로지 유사성
두 단어 사이 유사성을 기반으로, 두 개념의 정보를 포함하는 정규화 요인을 산출한다
솔직히 이부분은 무슨말인지 모르겠음
수식 설명 안하고 넘어가심
2) 통계적 유사성
통계적으로 두 단어 사이 유사성을 계산한다
LSA가 대표적이다
LSA (Latent Semantic Analysis)
- 잠재 의미 분석 : 쉽게 말해서 잠재된 단어의 의미를 이끌어내는 분석이다
- SVD (특이값분해) 방식을 기초로 함
3) 워드 임베딩 (Word Embedding)
- 1),2)와 달리 '문맥'을 고려하여 단어를 분석할 수 있다
- 대표적으로 Word2Vec
'Study > 텍스트마이닝' 카테고리의 다른 글
07. 한글 구문 분석 (0) | 2022.01.03 |
---|---|
06. 한글 형태소 분석 기법 (0) | 2022.01.03 |
05. 한글 품사 태깅 (0) | 2022.01.03 |
04. 형태소 분석 (0) | 2022.01.03 |
03. 영어 전처리 (0) | 2021.12.28 |