Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 태블로기초
- 데이터분석
- RNN
- 오블완
- pl-300
- 길벗출판사
- 태블로
- GA4챌린지
- LSTM
- 태블로입문
- 인턴일기
- 티스토리챌린지
- NLP
- 파워비아이
- microsoft pl-300
- PowerBI
- 구글애널리틱스
- data
- 모두의구글애널리틱스4
- pl300
- POWER BI
- 신입일기
- gru
- 파워BI
- ga4
- microsoft power bi
Archives
- Today
- Total
수영장의 수영_데이터 분석 블로그
07. 한글 구문 분석 본문
구문 분석 syntactical analysis
- 정의: '문장을 듣고 -> 구조를 이해하고 -> 의미를 파악함'의 과정을 컴퓨터가 이해하도록 구현하는 과정
- 인간이 문장구조를 파악하는 법을 기계가 습득하게 하는 것
- Parsing 이라고도 함
- 기본적으로 '품사 태깅'으로부터 시작함 (각 구성요소로 분해하는 것)
- Parser (구문 분석기)
- 토큰들을 더 넓은(큰) 단위로 통합하는 일을 한다
- 계층적 데이터 구조를 쌓아가는 역할
문맥 - 자유문법
1) Terminal
2) Non-terminal
3) Start-symbol
4) Rules
- 문장을 구문별로 나누고 있음
- Terminal : 텍스트를 구성하는 단어들
- Non-terminal : 구성요소들, NP, VP, NN, TO 등
- Start-symbol : 문장 나무의 뿌리, S
1. 구성 Constituency 기반 분해
- 구(phrase) 구조를 기본으로, 단어를 중첩된 구성자들로 배열한다
- '구성자'가 핵심이 된다
2. 의존 Dependency 기반 분해
- 단어 사이의 이진법적 관계를 나타냄
- 단어 : 노드로 표현
- 관계 : 의존으로 표현
구문 표지 및 Tree Tagging
1. 문장 : S에 해당, 구범주+문장종결부호로 형성됨
2. 구
- 명사구 NP : 명사(N) + (이 가 을 를 와 과 은 는 도 만)
- 후치사구 PP : 명사 + (에게 께 에 에서 부터 까지) - 독립적으로 사용가능
- 관형사구 AP : 독립적으로 사용불가
'Study > 텍스트마이닝' 카테고리의 다른 글
08. 벡터 공간 모델 (0) | 2022.01.10 |
---|---|
06. 한글 형태소 분석 기법 (0) | 2022.01.03 |
05. 한글 품사 태깅 (0) | 2022.01.03 |
04. 형태소 분석 (0) | 2022.01.03 |
03. 영어 전처리 (0) | 2021.12.28 |