일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 파워비아이
- data
- GA4챌린지
- 티스토리챌린지
- POWER BI
- 신입일기
- ga4
- 파워BI
- 길벗출판사
- RNN
- 인턴일기
- pl-300
- gru
- LSTM
- 태블로기초
- 태블로입문
- 모두의구글애널리틱스4
- 태블로
- 오블완
- pl300
- microsoft pl-300
- 데이터분석
- microsoft power bi
- PowerBI
- NLP
- 구글애널리틱스
- Today
- Total
목록전체 글 (70)
수영장의 수영_데이터 분석 블로그
import requests from bs4 import BeautifulSoup as bs 크롤링을 위해서 냅다 임포트 1. 데이터셋 가져오기 - 네이버 영화리뷰 url = 'https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20210503' # 가져오기 data = requests.get(url) soup = bs(data.text) requests로 url 가져오고 bs로 텍스트를 읽는 것 2. 파싱데이터 찾아서 저장하기 # 어떤 구역(테이블)의 모든 파싱데이터 가져오기 A = soup.find(class_='이름') # soup.find_all 아닌감? 나중에 찾아보고 수정하기 # 메타데이터의 모든 파싱데이터 가져오기 B = soup...
from scipy import stats 일단 검정이라면 냅다 scipy 임포트 해주고 일표본 t-검정 Diamond의 평균가격은 3932로 알려져있다. 다이아몬드 집단의 평균에 대한 일표본 t검정을 시행하려한다. 통계량과 pvalue값을 구하시오. stats.ttest_1samp(df['price'], 3932) df = pd.read_csv('data/diamonds.csv') static, p_val = stats.ttest_1samp(df['price'], 3932) # static : 통계량 # p_val : 유의확률 등분산성 검정 그래프상에서 ‘F’와 ‘G’ 그룹(['group'])은 평균 가격(['price'])이 유사해보인다. 이를 확인하기 위해 집단간 등분산(levene,fligner,..
matplotlib import matplotlib.pyplot as plt 일단 맷플롯립은 냅다 임포트하고 봐야한다 plt.figure(figsize=(10,10)) # 가로 세로 10*10인 좌표 배경 그리기 어떤 명령어로 그래프를 그리든 plt.figure로 기본 배경을 만들어줘야하기 때문임 scatterplot plt.scatter(df['열1'],df['열2']) plt.xlabel('x축에 표시할 이름') plt.ylabel('y축에 표시할 이름') plt.title('제목으로 표시할 이름') plt.show() 산점도 boxplot import seaborn as sns # 색상에 따른(color) 가격(price) 그래프를 보고 싶을 때 sns.boxplot(data=df, x='color..
데이터셋 mtcars 이상치, IQR q75,q50 ,q25 = np.percentile(df.wt, [75 ,50,25]) iqr = q75 - q25 outlier = df.wt[(df.wt>= q75 + iqr*1.5) | (df.wt

걍 기본적인 것들 Data Set 코로나 백신 https://www.kaggle.com/moonssong/1-covid-vaccination 작업형1 예상문제 - covid vaccination Explore and run machine learning code with Kaggle Notebooks | Using data from COVID vaccination vs. mortality www.kaggle.com 1. 데이터 셋 보기 문자/숫자 데이터가 골고루 있다 1열의 경우 의미없는 열이므로 drop 해줘야겠다 날짜도 있네... 시계열 분석도 나오면 난 뒤졋다 1도할줄모르는대,,, 최대/최소값 df = pd.read_csv('data/corona.csv') df['ratio'].min() # rat..
돌았나 ㅠ 그래도 일주일도 안 남았으므로 끝내야만 함 당연함 작업형 1유형 개요 사실 1유형은 처음부터 끝까지 완성된 분석결과를 내는 문제가 아니기 때문에 그리 어렵지 않다 문제는 라이브러리 함수... 다들 외우진 않ㅇ잔아여? 그때그때 구글링하지 않나요,,,? 난 loc / iloc도 종종 헷갈리는데 문제는 실기시험에선 검색이 불가능하다 어찌보면 당연함 암튼 그래서 1유형의 관건은 신속정확히 함수를 외우는 것이 되겠다. 예제 1) 공식예제 mtcars.csv 문제 : mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. 1. 데이터를 읽는다 import pandas as pd df = pd.re..