일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- data
- pl-300
- 파워비아이
- RNN
- 구글애널리틱스
- gru
- 인턴일기
- PowerBI
- 길벗출판사
- POWER BI
- 데이터분석
- 태블로기초
- 티스토리챌린지
- 태블로입문
- pl300
- microsoft power bi
- 태블로
- 신입일기
- 모두의구글애널리틱스4
- LSTM
- 오블완
- NLP
- microsoft pl-300
- 파워BI
- GA4챌린지
- ga4
- Today
- Total
목록전체 글 (70)
수영장의 수영_데이터 분석 블로그

빡대갈 대략난감지점 고유값분해 오늘 무조건 정복한다 고유벡터와 고유값 고유벡터 : square matrix A에 대하여, x는 영벡터가 아니고 위 식을 만족할 때, x를 람다에 대한 고유벡터라 한다 고유값 : 람다를 행렬 A에 대한 고유값이라 한다 고유값 분해, 왜 하는가? 다만 수업에서 대강 이해한 것을 정리해보자면,, 1. Ax는 행렬과 행렬의 곱이다 2. 하지만 λx는 상수와 행렬의 곱이다 3. 상식적으로 상수 * 행렬이 계산이 더 쉽다 4. 나아가 기하학적으로 생각해보면 λx는 x를 λ배만큼 길이를 늘인 것으로 이해할 수 있다. 아직 이러한 변환이 얼마나 중요하게 사용되는지 감이 안 잡힌다 공간 영공간 Nullspace - Ax = 0을 만족시키는 모든 해의 집합 - 행렬 A의 모든 행벡터와 수직..
2021년.. 많이 발전했다..! 나중에 혹시 뭐 도움될지도 모르니까 올해 결산 때림 1월 ~ 2월 - BruteForce 파이썬 기초/문법 과정 - 10주 - 정보대학원 파이썬을 활용한 데이터 분석 - 5주 - 인문융합교육원 디지털 리터러시/데이터사이언스 - 3주? 3월 ~ 6월 - 응용통계학 부전공 수업 : 수리통계학, 미분적분학 - AI 수업 : 인공지능의이해와활용 7월 ~ 8월 - 놀았음 7월은 - 포스코 AI/빅데이터 아카데미 입과 - 데이터분석준전문가 ADSP 취득 9월 ~ 10월 - 포스코 아카데미 수업 들음 - 팀 프로젝트 2건 -> 빅데이터 : 신용카드사 신용평가모형 개선, AI : 언택트 면접 피드백시스템 - 빅데이터분석기사 필기 취득 - 오픽 IH 11월 ~ 12월 - 데이터분석전문가..

내일이 과제제출이라 일단 과제부분부터 정리 ** 항상 왜 이것을 배우는지, 어디에 사용되는지 짚어가며 !! ** Least Square 사용목적 => Over-determined Linear Systems 경우에 최소제곱법을 사용해 최적 Solution을 찾는다 즉, 1. 방정식의 개수 >> 미지수의 개수 2. 행 >> 렬 3. 샘플 >> 구할 변수 => 쉽게 생각하면 x,y의 연립 방정식을 풀 때 미지수가 2개니까 2개 방정식이 있으면 x,y값을 구할 수 있다. => 그러나 만약 구해야 할 미지수는 n개인데, 방정식은 n보다 많은 m개 라면?? => Usually no solution exists => best approximate solution을 찾는 것이 목표 * Inner Product (내적)..
문제1 데이터셋(basic1.csv)의 'f5' 컬럼을 기준으로 상위 10개의 데이터를 구하고, 'f5'컬럼 10개 중 최소값으로 데이터를 대체한 후, 'age'컬럼에서 80 이상인 데이터의'f5 컬럼 평균값 구하기 # 내림차순 df = df.sort_values('기준열', ascending=False) # 최소값 찾기 min = df['f5'][:10].min() # 최소값으로 대체하기 df['f5'][:10] = min # 평균값 df[df['age'] >= 80]['f5'].mean() 문제2 데이터셋(basic1.csv)의 앞에서 순서대로 70% 데이터만 활용해서, 'f1'컬럼 결측치를 중앙값으로 채우기 전후의 표준편차를 구하고 두 표준편차 차이 계산하기 # 앞의 데이터 70%만 가져오기 df7..

1. Scaling 1) min-max scaling # min-max scaling import pandas as pd from sklearn.preprocessing import minmax_scale df = pd.read_csv('./dataset.csv') # 변환 원하는 열 선택 df['열이름'] = minmax_scale(df['열이름']) # 조건에 맞는 행 걸러내기 sum(df['열이름']>0.5) # true를 더하는 방식 len(df[df['열이름']>0.5]) # 데이터 수의 길이를 구하는 방식 2) standard scaling from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['열'] = s..
그대로 암기해갈 코드를 정리해볼 것이다 2일의 기적.. # 라이브러리 import pandas as pd import numpy as np # 데이터 불러오기 (생략) X_train.shape, y_train.shape, X_test.shape 일단 데이터를 받아와서 형태를 본다 # 기본 정보 확인 X_train.head() y_train.value_counts() X_train.info() # 결측치 X_train.isnull().sum() X_test.isnull().sum() # 기술통계 X_train.describe() 데이터셋을 탐색한다 데이터 구조나 빠진 값, 평균, 최대최소 등등 # 결측치 처리 X_train.isnull().sum() X_test.isnull().sum() # 1. 0으로 ..