수영장의 수영_데이터 분석 블로그

07. 한글 구문 분석 본문

Study/텍스트마이닝

07. 한글 구문 분석

슈빔멘 2022. 1. 3. 18:05

구문 분석 syntactical analysis

- 정의: '문장을 듣고 -> 구조를 이해하고 -> 의미를 파악함'의 과정을 컴퓨터가 이해하도록 구현하는 과정

- 인간이 문장구조를 파악하는 법을 기계가 습득하게 하는 것

- Parsing 이라고도 함

- 기본적으로 '품사 태깅'으로부터 시작함 (각 구성요소로 분해하는 것)

 

- Parser (구문 분석기)

- 토큰들을 더 넓은(큰) 단위로 통합하는 일을 한다

- 계층적 데이터 구조를 쌓아가는 역할

 

 

문맥 - 자유문법

 

1) Terminal

2) Non-terminal

3) Start-symbol 

4) Rules

 

- 문장을 구문별로 나누고 있음

 

- Terminal : 텍스트를 구성하는 단어들

- Non-terminal : 구성요소들, NP, VP, NN, TO 등

- Start-symbol : 문장 나무의 뿌리, S

 

 

1. 구성 Constituency 기반 분해

- 구(phrase) 구조를 기본으로, 단어를 중첩된 구성자들로 배열한다

- '구성자'가 핵심이 된다

 

2. 의존 Dependency 기반 분해

- 단어 사이의 이진법적 관계를 나타냄

- 단어 : 노드로 표현

- 관계 : 의존으로 표현

 

 

구문 표지 및 Tree Tagging

1. 문장 : S에 해당, 구범주+문장종결부호로 형성됨

 

2. 구

- 명사구 NP : 명사(N) + (이 가 을 를 와 과 은 는 도 만)

- 후치사구 PP : 명사 + (에게 께 에 에서 부터 까지) - 독립적으로 사용가능

- 관형사구 AP : 독립적으로 사용불가

'Study > 텍스트마이닝' 카테고리의 다른 글

08. 벡터 공간 모델  (0) 2022.01.10
06. 한글 형태소 분석 기법  (0) 2022.01.03
05. 한글 품사 태깅  (0) 2022.01.03
04. 형태소 분석  (0) 2022.01.03
03. 영어 전처리  (0) 2021.12.28