수영장의 수영_데이터 분석 블로그

[빅분기 실기] 하루에 끝내는 작업형 1유형 - 검정 본문

자격증/빅데이터분석기사

[빅분기 실기] 하루에 끝내는 작업형 1유형 - 검정

슈빔멘 2021. 11. 28. 22:05
from scipy import stats

 

일단 검정이라면 냅다 scipy 임포트 해주고

 

일표본 t-검정

Diamond의 평균가격은 3932로 알려져있다. 다이아몬드 집단의 평균에 대한 일표본 t검정을 시행하려한다. 통계량과 pvalue값을 구하시오.

 

stats.ttest_1samp(df['price'], 3932)

df = pd.read_csv('data/diamonds.csv')

static, p_val = stats.ttest_1samp(df['price'], 3932)

# static : 통계량
# p_val : 유의확률

 

등분산성 검정

그래프상에서 ‘F’와 ‘G’ 그룹(['group'])은 평균 가격(['price'])이 유사해보인다. 이를 확인하기 위해 집단간 등분산(levene,fligner,bartlett) 검정을 시행하라

 

stats.levene(F['price'], G['price'])

flinger, bartlett

F = df[df['group'] == 'F']
G = df[df['group'] == 'G']

leve = stats.levene(F['price'], G['price'])
fli = stats.fligner(F['price'], G['price'])
bartlet= stats.bartlett(F['price'], G['price'])

 

독립표본 t-검정

‘F’와 ‘G’ 그룹의 독립표본 t검정을 시행하라

# 등분산을 만족하지 않는 경우
stats.ttest_ind(G['price'], F['price'], equal_var = False)

# 등분산을 만족하는 경우
stats.ttest_ind(G['price'], F['price'], equal_var = True)

p-value <0.05

귀무 가설 기각하게 되는거임

 

다 아는데도 이거 >인지 <인지 자꾸 헷갈려..

 

 

ANOVA 

1) 등분산 검정을 한다

2) 정규성 검정을 한다

3) ANOVA 돌린다

 

stats.f_oneway(1그룹, 2그룹, 3그룹)

D = df[df['group'] == 'D']

anova = stats.f_oneway(F['price'], D['price'], G['price'])

 

헷갈리는 포인트!!

p_val > 0.05 : 귀무가설 채택 => 세집단 평균은 차이가 없다

p_val < 0.05 : 귀무가설 기각 => 세집단 중 어느 두집단 평균은 차이가 있다 (뭐랑 뭐인지 알려면 사후검정 필요함)

 

정규성 검정