수영장의 수영_데이터 분석 블로그

03. 영어 전처리 본문

Study/텍스트마이닝

03. 영어 전처리

슈빔멘 2021. 12. 28. 18:38

전처리 Process

 

(SimpleCountingWordHandler)

 

전처리

-> 문장으로부터 단어를 추출하고, 문장부호를 분리하며, 숫자 or 특수문자열을 처리

 

- Normalization 정규화

- Tokenization 토큰화

- Stemming 어간 추출

- Stopword removal 불용어 제거

- Lemmatization 원형복원

 

 

1. Normalization

텍스트와 쿼리를 모두 동일한 형식으로 정규화하는 과정

동치관계를 정의해 단어를 정규화

 

ex. window <- window, windows, Window... ~

이때 운영프로그램 윈도우를 말한다면? Windows -> 정규화해서는 안 됨

 

2. Tokenization

텍스트가 토큰이라는 단위로 나누어지는 처리단계

영어의 경우 whitespace를 기준으로 자르면 됨

 

but..

- 문장 경계 -> 문장 부호, 범위의 모호함 문제 (ex. 인용인지, 문장의 끝인지 등)

- 적절한 이름 -> 아주 긴 이름이 주어진다면 어떻게 끊어낼 것인가?

- 축약형 -> That's, Don't do! 등 축약형태의 문제

 

 

[단어의 형태변화에 따라 같은 단어인데도 다른 단어처럼 취급될 수 있음 => Lemmatization, Stemming으로 해결]

3. Lemmatization 원형 복원

한 단어가 여러형식으로 표현되어 있는 것을 하나의 형식으로 묶어내는 기법

 

- Stemming : 어근만 남기고 어미는 삭제함

- Lemmatization : 단어의 의미적 단위를 고려하지 않음, 단순한 원형복원의 의미가 강함

=> 형태소 분석을 통한 처리, stemming보다 정확한 단어 수준분석이 가능하다

 

1) 굴절 형태론 : cutting, cutter -> cut => 이 단어들은 cut이란 명사(동사)에서 굴절되었다 

2) 파생 형태론 : destruction, destructive -> destroy

 

ex. 

am, are, is -> be

car, cars, car's, cars' -> car

 

 

4. Stemming 어간 추출

- 정의 : 어형이 변형된 단어로부터 어간을 분리해내는 작업 -> 단어에 공통적으로 나타나는 부분을 어근으로 처리

- 목적 : 관련 단어들이 일정하게 동일한 어간으로 매핑되게 함

 

 

 

- 포터 어간추출 알고리즘 

=> 영어 전처리에서 대표적으로 사용됨

=> Convention + Reduction의 5단계

 

 

 

- 특징 : 일부 쿼리에서는 효율적이나, 반대로 오히려 효율성을 감소시키기도 한다

 

 

5. Stopword removal 불용어 제거

- 정보를 전달하지 않는 단어를 삭제함

- 관사, 전치사 등

 

'Study > 텍스트마이닝' 카테고리의 다른 글

06. 한글 형태소 분석 기법  (0) 2022.01.03
05. 한글 품사 태깅  (0) 2022.01.03
04. 형태소 분석  (0) 2022.01.03
02. 텍스트 요소 단위별 분석  (0) 2021.12.28
01. 텍스트 마이닝이란?  (0) 2021.12.28