일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- PowerBI
- 신입일기
- gru
- microsoft pl-300
- 태블로기초
- pl-300
- GA4챌린지
- 데이터분석
- microsoft power bi
- pl300
- 오블완
- 모두의구글애널리틱스4
- 구글애널리틱스
- 파워BI
- 파워비아이
- LSTM
- RNN
- 인턴일기
- NLP
- 티스토리챌린지
- ga4
- 태블로
- 길벗출판사
- 태블로입문
- data
- POWER BI
- Today
- Total
목록전체 글 (70)
수영장의 수영_데이터 분석 블로그

워드 임베딩이란 무엇인가? 간단하게 인간의 언어(문자)를 컴퓨터가 이해할 수 있는 언어(숫자, 데이터, 벡터)로 변환하는 과정 - 어찌보면 당연하게도 임베딩을 어떻게 하느냐에 따라 성능이 크게 달라진다 - 현재는 인공신경망을 활용해 학습시킨 워드 임베딩 방식으로 문자를 -> 수치화하게 되었다 워드 임베딩의 종류(구분) 1) Bag of Words 가정 : 텍스트의 의미는 단어 사용의 '빈도수'에 의해 드러난다 2) 언어 모델 : 단어의 등장 '순서'를 고려해 단어 시퀀스의 자연스러움에 확률을 부여한다 3) 분포 가정 : 단어 의미는 주변의 문맥을 통해 유추할 수 있다 여기서 오늘은 백오브워즈를 자세히 배웠음 Bag of Words 가정 - 문법, 순서 등을 고려하지 않은 채 단어의 '빈도수'로 중요도를 ..
드디어 NLP 코스 돌입 ~~!! NLP의 적용분야 1. Text Classification - 가장 기본적인 분야이기도 하다 - 스팸 분류, 감성 분석 Sentiment Analysis.. 2. Question Answering - 서치 엔진에 사용되는 질의 - 응답 3. Machine Translation - 기계번역 - 파파고, 구글 번역과 같이 기계에게 통번역을 학습시키는 분야 4. Chatbot - 금융, 상업 분야에서 각광받는,,, 어쩌면 인간을 대체하는 1순위 분야가 될,,, - 콜센터에서 하던 업무를 기계에게 맡기는 것과 같다 5. Personal Assistant - 핸즈프리, 빅스비 등 AI 비서 분야 6. Text Summarization - 텍스트 요약 NLP 단계 1. Low-le..

구문 분석 syntactical analysis - 정의: '문장을 듣고 -> 구조를 이해하고 -> 의미를 파악함'의 과정을 컴퓨터가 이해하도록 구현하는 과정 - 인간이 문장구조를 파악하는 법을 기계가 습득하게 하는 것 - Parsing 이라고도 함 - 기본적으로 '품사 태깅'으로부터 시작함 (각 구성요소로 분해하는 것) - Parser (구문 분석기) - 토큰들을 더 넓은(큰) 단위로 통합하는 일을 한다 - 계층적 데이터 구조를 쌓아가는 역할 문맥 - 자유문법 1) Terminal 2) Non-terminal 3) Start-symbol 4) Rules - 문장을 구문별로 나누고 있음 - Terminal : 텍스트를 구성하는 단어들 - Non-terminal : 구성요소들, NP, VP, NN, TO ..
한글 형태소 분석기 종류 1. Arirang - 검색엔진을 위한 색인작업 목표로 개발됨 (루씬) - 루씬에서 한글만 뽑아내어 아리랑 개발 2. kkma 꼬꼬마 - 휴리스틱 + 히든 마르코프 모델 - NLP 실습에서 종종 본 분석기 3. KLT - 초기 분석기 선두주자 4. 한나눔 - 각 단계를 모듈별로 분할 - 광범위한 한글 태그 제공 - 이 분석기도 자주 보았음 1) 전처리 2) 형태소 분석 3) POS Tagging 5. Komoran - 여러 어절을 하나의 품사로 분석할 수 있음 - 공백이 있는 고유명사를 정확히 분석 - 불규칙 어절에 대한 분석 정확도 up - 이거 많이 사용했다

1. 규칙기반 접근방법 - 정밀하게 고안된 규칙이면 정확도가 높지만 - 현재처럼 많은 새로운 단어가 등장하는 시기엔 맞지 않음 2. 통계적 접근방법 - 충분한 분량의 태그가 제공되는 말뭉치에서 -> 통계 정보를 추출해 활용 - 태그가 부착된 말뭉치를 구축하는 게 어려우나, 그 외엔 자동화가 가능해진다 - Hidden Markov Model 등의 기계학습 방식을 적용 -> 품사 예측 3. 복합적 접근방법 - 여러가지를 복합적으로 활용 세종 말뭉치 태그 세트

정의 - 입력 문자열을 형태소열로 바꾸는 작업 - 한글 자연어처리의 가장 기초 역할 - 단어는 띄어쓰기 단위로 구성된다면, 단어를 구성하는 형태소들을 인식하고 변형된 형태소의 원형을 복원하는 과정이 형태소 분석이다 - 초기 형태소 분석기 : 어휘사전과 규칙에 의존 - 현재 형태소 분석기 : 문맥, 배경지식에 의존 형태소 - 의미의 최소단위 - 더 이상 분석이 불가능한 가장 작은 의미의 요소 1) 체언 : 명사, 대명사, 수사 2) 용언 : 형용사, 동사 3) 독립언 : 부사, 관형사, 감탄사 4) 기능어 : 조사, 어미, 선어말어미, 접사 => 즉, 어근 어미 조사 접두사 접미사 등등이 모두 형태소에 속한다 형태소 분석의 절차 1) 분석 대상이 되는 문헌집단을 선정한다 2) 전처리 - 대상 문장을 추출 ..