통계분석 5

[통계분석] 다중회귀분석(예제 위주)

다중회귀분석¶ 주어진 데이터를 이용하여 다중선형회귀 문제를 해결하시오. In [100]: import pandas as pd df =pd.read_csv('data/data_6_3_2.csv') df.head(3) Out[100]: Ozone Solar Wind Temp Month Day 0 41.0 190.0 7.4 67 5 1 1 36.0 118.0 8.0 72 5 2 2 12.0 149.0 12.6 74 5 3 문제 1.¶ 선형회귀 모델을 만들어 독립변수 Ozone의 회귀계수(Regression coefficient)를 구하시오. 독립변수 : Solar(태양 에너지), Wind(바람의 세기), Ozone(오존 농도) 종속변수 : Temp(온도) In [101]: df.columns Out[101]:..

데이터분석 2024.01.19

[통계분석] 단순선형회귀분석, 카이제곱검정

단순선형 회귀분석¶ In [2]: import numpy as np import matplotlib.pyplot as plt import statsmodels import statsmodels.formula.api as smf In [3]: import seaborn as sns iris = sns.load_dataset('iris') iris.head(3) Out[3]: sepal_length sepal_width petal_length petal_width species 0 5.1 3.5 1.4 0.2 setosa 1 4.9 3.0 1.4 0.2 setosa 2 4.7 3.2 1.3 0.2 setosa In [4]: # formula = "sepal_length ~ sepal_width" #반응/종속..

데이터분석 2024.01.19

[통계분석] 2표본 가설검정, 등분산 검정

2표본 문제에 대한 가설검정¶ 대응표본: 두 데이터에게 서로 대응하는 각각 다른 조건으로 측정한 표본 예시: 동일한 피검자에게 약물 투약 전과 약물 투약 후라는 다른 조건으로 측정한 경우 정규성 검정을 통과(정규분포를 가정 가능) -> 대응비교 t 검정 정규성 검정 통과 실패 -> 윌콕슨 부호순위 검정. 윌콕슨 부호순위 검정: 평균이 아닌 중앙값 차이에 대한 검정 독립표본: 두 데이터에서 개체가 다른 데이터로 되어 있는 표본 예시: A조와 B조의 시험 점수 비교 정규성 검정을 통과(정규분포를 가정 가능) -> 독립비교 t 검정 정규성 검정 통과 실패 -> 만 위트니 U 검정 만 위트니 U 검정: 평균이 아닌 중앙값 차이에 대한 검정 In [1]: import numpy as np import pandas..

데이터분석 2024.01.18

[통계분석] 정규성 검정, 가설검정의 기본, 단일표본 가설검정

정규성 검정¶ 시나리오: 어느 회사의 직원들의 월급 데이터가 있다. 이 데이터가 정규 분포를 따르는지 확인하고 싶다. 주어진 월급 데이터를 사용하여 정규성 검정을 수행하고 결과를 해석하기 가설설정 귀무가설 : 대립가설 : 코드 작성 후 p-value 값을 구하시고 정규성 여부를 조건문으로 구하세요 귀무가설, 대립가설, 정규성 만족 유무 print() 만들기 (형식 자유) 예) print("abc 만족합니다!") In [73]: salaries = [3500, 4000, 4000, 4500, 5000, 5000, 5500, 6000, 6500, 7000] In [ ]: from scipy import stats t_statistic, p_value = stats.shapiro(salaries) # t_st..

데이터분석 2024.01.18

[통계분석] 데이터 분석 연습하기

0. Input 데이터 더보기 https://www.kaggle.com/competitions/playground-series-s4e1 Binary Classification with a Bank Churn Dataset | Kaggle www.kaggle.com https://www.kaggle.com/datasets/shantanudhakadd/bank-customer-churn-prediction Bank Customer Churn Prediction Bank Customer Dataset for Churn prediction www.kaggle.com 1. 변수 간의 상관 분석 상대적으로 유의미한 상관관계를 보이는 변수들은 다음과 같다. (상관계수 = 0.01) E..

데이터분석 2024.01.17