03. 영어 전처리

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

수영장의 수영_데이터 분석 블로그

03. 영어 전처리 본문

Study/텍스트마이닝

03. 영어 전처리

슈빔멘 2021. 12. 28. 18:38

전처리 Process

(SimpleCountingWordHandler)

전처리

-> 문장으로부터 단어를 추출하고, 문장부호를 분리하며, 숫자 or 특수문자열을 처리

- Normalization 정규화

- Tokenization 토큰화

- Stemming 어간 추출

- Stopword removal 불용어 제거

- Lemmatization 원형복원

1. Normalization

텍스트와 쿼리를 모두 동일한 형식으로 정규화하는 과정

동치관계를 정의해 단어를 정규화

ex. window <- window, windows, Window... ~

이때 운영프로그램 윈도우를 말한다면? Windows -> 정규화해서는 안 됨

2. Tokenization

텍스트가 토큰이라는 단위로 나누어지는 처리단계

영어의 경우 whitespace를 기준으로 자르면 됨

but..

- 문장 경계 -> 문장 부호, 범위의 모호함 문제 (ex. 인용인지, 문장의 끝인지 등)

- 적절한 이름 -> 아주 긴 이름이 주어진다면 어떻게 끊어낼 것인가?

- 축약형 -> That's, Don't do! 등 축약형태의 문제

[단어의 형태변화에 따라 같은 단어인데도 다른 단어처럼 취급될 수 있음 => Lemmatization, Stemming으로 해결]

3. Lemmatization 원형 복원

한 단어가 여러형식으로 표현되어 있는 것을 하나의 형식으로 묶어내는 기법

- Stemming : 어근만 남기고 어미는 삭제함

- Lemmatization : 단어의 의미적 단위를 고려하지 않음, 단순한 원형복원의 의미가 강함

=> 형태소 분석을 통한 처리, stemming보다 정확한 단어 수준분석이 가능하다

1) 굴절 형태론 : cutting, cutter -> cut => 이 단어들은 cut이란 명사(동사)에서 굴절되었다

2) 파생 형태론 : destruction, destructive -> destroy

ex.

am, are, is -> be

car, cars, car's, cars' -> car

4. Stemming 어간 추출

- 정의 : 어형이 변형된 단어로부터 어간을 분리해내는 작업 -> 단어에 공통적으로 나타나는 부분을 어근으로 처리

- 목적 : 관련 단어들이 일정하게 동일한 어간으로 매핑되게 함

- 포터 어간추출 알고리즘

=> 영어 전처리에서 대표적으로 사용됨

=> Convention + Reduction의 5단계

- 특징 : 일부 쿼리에서는 효율적이나, 반대로 오히려 효율성을 감소시키기도 한다

5. Stopword removal 불용어 제거

- 정보를 전달하지 않는 단어를 삭제함

- 관사, 전치사 등

'Study > 텍스트마이닝' 카테고리의 다른 글

06. 한글 형태소 분석 기법 (0)	2022.01.03
05. 한글 품사 태깅 (0)	2022.01.03
04. 형태소 분석 (0)	2022.01.03
02. 텍스트 요소 단위별 분석 (0)	2021.12.28
01. 텍스트 마이닝이란? (0)	2021.12.28

'Study/텍스트마이닝' Related Articles

수영장의 수영_데이터 분석 블로그

03. 영어 전처리 본문

03. 영어 전처리

전처리 Process

전처리

1. Normalization

2. Tokenization

3. Lemmatization 원형 복원

4. Stemming 어간 추출

5. Stopword removal 불용어 제거

'Study > 텍스트마이닝' 카테고리의 다른 글

티스토리툴바