일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 모두의구글애널리틱스4
- 태블로기초
- 구글애널리틱스
- pl-300
- 데이터분석
- 길벗출판사
- 파워비아이
- PowerBI
- 신입일기
- NLP
- RNN
- 티스토리챌린지
- 인턴일기
- 태블로입문
- microsoft power bi
- 파워BI
- ga4
- LSTM
- POWER BI
- 태블로
- gru
- 오블완
- data
- microsoft pl-300
- pl300
- GA4챌린지
- Today
- Total
수영장의 수영_데이터 분석 블로그
03. 영어 전처리 본문
전처리 Process
(SimpleCountingWordHandler)
전처리
-> 문장으로부터 단어를 추출하고, 문장부호를 분리하며, 숫자 or 특수문자열을 처리
- Normalization 정규화
- Tokenization 토큰화
- Stemming 어간 추출
- Stopword removal 불용어 제거
- Lemmatization 원형복원
1. Normalization
텍스트와 쿼리를 모두 동일한 형식으로 정규화하는 과정
동치관계를 정의해 단어를 정규화
ex. window <- window, windows, Window... ~
이때 운영프로그램 윈도우를 말한다면? Windows -> 정규화해서는 안 됨
2. Tokenization
텍스트가 토큰이라는 단위로 나누어지는 처리단계
영어의 경우 whitespace를 기준으로 자르면 됨
but..
- 문장 경계 -> 문장 부호, 범위의 모호함 문제 (ex. 인용인지, 문장의 끝인지 등)
- 적절한 이름 -> 아주 긴 이름이 주어진다면 어떻게 끊어낼 것인가?
- 축약형 -> That's, Don't do! 등 축약형태의 문제
[단어의 형태변화에 따라 같은 단어인데도 다른 단어처럼 취급될 수 있음 => Lemmatization, Stemming으로 해결]
3. Lemmatization 원형 복원
한 단어가 여러형식으로 표현되어 있는 것을 하나의 형식으로 묶어내는 기법
- Stemming : 어근만 남기고 어미는 삭제함
- Lemmatization : 단어의 의미적 단위를 고려하지 않음, 단순한 원형복원의 의미가 강함
=> 형태소 분석을 통한 처리, stemming보다 정확한 단어 수준분석이 가능하다
1) 굴절 형태론 : cutting, cutter -> cut => 이 단어들은 cut이란 명사(동사)에서 굴절되었다
2) 파생 형태론 : destruction, destructive -> destroy
ex.
am, are, is -> be
car, cars, car's, cars' -> car
4. Stemming 어간 추출
- 정의 : 어형이 변형된 단어로부터 어간을 분리해내는 작업 -> 단어에 공통적으로 나타나는 부분을 어근으로 처리
- 목적 : 관련 단어들이 일정하게 동일한 어간으로 매핑되게 함
- 포터 어간추출 알고리즘
=> 영어 전처리에서 대표적으로 사용됨
=> Convention + Reduction의 5단계
- 특징 : 일부 쿼리에서는 효율적이나, 반대로 오히려 효율성을 감소시키기도 한다
5. Stopword removal 불용어 제거
- 정보를 전달하지 않는 단어를 삭제함
- 관사, 전치사 등
'Study > 텍스트마이닝' 카테고리의 다른 글
06. 한글 형태소 분석 기법 (0) | 2022.01.03 |
---|---|
05. 한글 품사 태깅 (0) | 2022.01.03 |
04. 형태소 분석 (0) | 2022.01.03 |
02. 텍스트 요소 단위별 분석 (0) | 2021.12.28 |
01. 텍스트 마이닝이란? (0) | 2021.12.28 |