Study/텍스트마이닝

01. 텍스트 마이닝이란?

슈빔멘 2021. 12. 28. 17:11

정의

- 대량의 텍스트 데이터셋에서 흥미로운 규칙들을 찾아내는 것

- 비정형 텍스트에서 의미있는 정보를 발견하는 연구영역

- 특정 목적에 대해 부합하는 정보를 추출하는 방식으로 이루어짐

 

비정형 데이터의 특징

- 비정형 데이터의 비율은 전체 데이터의 7~80% 이상을 차지한다

- 웹사이트의 증가로 비정형데이터가 많이 증가하고 있다 

- 신문, 잡지, 문서, 이메일, 블로그, SNS 등 무궁무진

 

텍스트 마이닝은 다양한 영역에서 사용되고 있으며,

그 중요도가 비정형 데이터의 증가와 맞물려 증대되고 있다

 

 

텍스트 분석의 접근

1) 요소 단위로의 접근

- 문자, 단어, 구, 문장, 초록, 전문, 전체 문헌집단 등

 

2) 기법 측면의 접근

- 수작업 태깅, 추론학습 ~

- 지도학습/비지도학습

 

3) 임무 수행 측면의 접근

- 기계학습, 시각화, 요약, 번역 등

 

기술적 분석 : 요약

예측적 분석 : 뒤에 나올 단어를 예측하거나 등

지시적 분석 : 행동 추천, 지시 -> 사전에 명시된 결과에 대한 가장 좋은 행동을 추천해줌

 

 

텍스트 마이닝의 기법

1) 자연 언어 이해 (Natural Language Understanding, NLU)

2) 토픽 모델링 (Topic Modeling)

3) 감성 분석 (Sentiment Analysis)

4) 문서 분류 (Document Classification)

5) 군집화 (Clustering)

 

대략적인 순서는...

1. 데이터 수집

2. 전처리

3. 텍스트 마이닝 기법 적용