데이터분석 10

오차 행렬 - 정확도, 정밀도, 재현도, 특이도, F1 Score

예측 양성 음성 실제 양성 1 1 음성 3 5 정확도: (1+5)/(1+1+3+5) = 0.6 정밀도: 1/(1+3) = 0.25 재현도: 1/(1+1) = 0.5 F1 score = 0.33 오차 행렬(Confusion Matrix)이란? 오차 행렬은 분류 모델의 성능을 시각적으로 보여주는 표입니다. 이 표는 모델이 예측한 값과 실제 값이 얼마나 일치하는지를 나타내며, 특히 이진 분류 문제에서 많이 사용됩니다. 오차 행렬은 다음과 같이 4분면으로 구성됩니다. TN (True Negative): 예측을 Negative라고 했고 실제로 Negative인 경우 FP (False Positive): 예측을 Positive라고 했는데 실제로 Negative인 경우 FN (False Negative): 예측을 N..

데이터분석 2024.02.20

[ADsP/2과목] 문제 21 ~ 40

문제 21 ~ 30 더보기 21. KDD 분석 절차 중 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 과정은? a. 데이터셋 선택(Selection) b. 데이터 전처리(Processing) c. 데이터 변환(Transformation) d. 데이터 마이닝 (Data Mining) 22. 분석 과제를 도출하기 위한 상향식 접근방식에 대한 설명으로 옳지 않은 것은? a. 상향식 접근방식의 데이터 분석은 비지도 학습방법에 의해 수행된다. b. 분석적으로 사물을 인식하려는 Why관점에서 접근한다. c. 인과관계로부터 상관관계분석으로 이동이라는 변화를 만들었다. d. 사물을 있는 그대로 인식하는 what 관점에서 접근한다. 23. 분석과제의 주요 관리 영역이 아닌 것은? a. Data Size b. Da..

[ADsP/2과목] 문제 1 ~ 20

문제 1 ~ 10 더보기 1. 분석대상이 명확하지만 분석방식이 명확하지 않은 경우 수행하는 주제 유형은? a. 최적화 b. 발견 c. 통찰 d. 솔루션 2. 분석기획 고려사항 중 장애요소에 대한 설명으로 부적절한 것은? a. 비용대비 효과의 적정한 비용 b. 분석 모형의 안정적인 성능확보 c. 이해도 높은 모형보다 복잡하고 정교한 모형 d. 조직 역량으로 내재화를 위한 변화 관리 3. 다양한 데이터 유형 중 정형, 반정형, 비정형 데이터들을 분류하시오 a. Demand Forecasts /// b.Competitor pricing c. Email Records /// d.Facebook Status e. Weather Data /// f. Web Log g. RFID /// h. IoT Sensing i..

[ADsP/1과목] 문제 1 ~15

문제 1 ~ 10 더보기 1. 데이터베이스의 특징으로 가장 부적절한 것은? a. 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있게 구성됨 b. 통합된 데이터임 c. 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 함 d. 검색기능이 있어서 다양한 방법으로 필요한 정보를 검색할 수 있음 2. 데이터 사이언티스트에게 요구되는 소프트 스킬이 아닌 것은? a. 이론적 지식 b. 창의적 사고 c. 커뮤니케이션 기술 d. 시각화를 통한 설득력 3. 다음 중 빅데이터 분석에 경제성을 제공해 준 결정적인 기술로 가장 결정적인 것은? a. 저장장치 비용의 지속적 하락 b. 텍스트 마이닝 c. 클라우드 컴퓨팅 d. 스마트폰의 급속한 확장 4. 데이터와 정보의 차이를 구..

[selenium] 동적 웹크롤링 루틴

일반적인 크롤링 실행¶ 패키지 호출 및 전체적인 틀 짜기 In [4]: import selenium import pandas as pd import time import random # 크롬 드라이버 다운로드 후 세팅 # https://chromedriver.chromium.org/downloads from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By # 크롬 드라이버 설정 CHROME_DRIVER_PATH = './chromedriver.exe' service = Service(executable_path=CHROME_DRIVE..

데이터분석 2024.02.17

[통계분석] 다중회귀분석(예제 위주)

다중회귀분석¶ 주어진 데이터를 이용하여 다중선형회귀 문제를 해결하시오. In [100]: import pandas as pd df =pd.read_csv('data/data_6_3_2.csv') df.head(3) Out[100]: Ozone Solar Wind Temp Month Day 0 41.0 190.0 7.4 67 5 1 1 36.0 118.0 8.0 72 5 2 2 12.0 149.0 12.6 74 5 3 문제 1.¶ 선형회귀 모델을 만들어 독립변수 Ozone의 회귀계수(Regression coefficient)를 구하시오. 독립변수 : Solar(태양 에너지), Wind(바람의 세기), Ozone(오존 농도) 종속변수 : Temp(온도) In [101]: df.columns Out[101]:..

데이터분석 2024.01.19

[통계분석] 단순선형회귀분석, 카이제곱검정

단순선형 회귀분석¶ In [2]: import numpy as np import matplotlib.pyplot as plt import statsmodels import statsmodels.formula.api as smf In [3]: import seaborn as sns iris = sns.load_dataset('iris') iris.head(3) Out[3]: sepal_length sepal_width petal_length petal_width species 0 5.1 3.5 1.4 0.2 setosa 1 4.9 3.0 1.4 0.2 setosa 2 4.7 3.2 1.3 0.2 setosa In [4]: # formula = "sepal_length ~ sepal_width" #반응/종속..

데이터분석 2024.01.19

[통계분석] 2표본 가설검정, 등분산 검정

2표본 문제에 대한 가설검정¶ 대응표본: 두 데이터에게 서로 대응하는 각각 다른 조건으로 측정한 표본 예시: 동일한 피검자에게 약물 투약 전과 약물 투약 후라는 다른 조건으로 측정한 경우 정규성 검정을 통과(정규분포를 가정 가능) -> 대응비교 t 검정 정규성 검정 통과 실패 -> 윌콕슨 부호순위 검정. 윌콕슨 부호순위 검정: 평균이 아닌 중앙값 차이에 대한 검정 독립표본: 두 데이터에서 개체가 다른 데이터로 되어 있는 표본 예시: A조와 B조의 시험 점수 비교 정규성 검정을 통과(정규분포를 가정 가능) -> 독립비교 t 검정 정규성 검정 통과 실패 -> 만 위트니 U 검정 만 위트니 U 검정: 평균이 아닌 중앙값 차이에 대한 검정 In [1]: import numpy as np import pandas..

데이터분석 2024.01.18

[통계분석] 정규성 검정, 가설검정의 기본, 단일표본 가설검정

정규성 검정¶ 시나리오: 어느 회사의 직원들의 월급 데이터가 있다. 이 데이터가 정규 분포를 따르는지 확인하고 싶다. 주어진 월급 데이터를 사용하여 정규성 검정을 수행하고 결과를 해석하기 가설설정 귀무가설 : 대립가설 : 코드 작성 후 p-value 값을 구하시고 정규성 여부를 조건문으로 구하세요 귀무가설, 대립가설, 정규성 만족 유무 print() 만들기 (형식 자유) 예) print("abc 만족합니다!") In [73]: salaries = [3500, 4000, 4000, 4500, 5000, 5000, 5500, 6000, 6500, 7000] In [ ]: from scipy import stats t_statistic, p_value = stats.shapiro(salaries) # t_st..

데이터분석 2024.01.18

[통계분석] 데이터 분석 연습하기

0. Input 데이터 더보기 https://www.kaggle.com/competitions/playground-series-s4e1 Binary Classification with a Bank Churn Dataset | Kaggle www.kaggle.com https://www.kaggle.com/datasets/shantanudhakadd/bank-customer-churn-prediction Bank Customer Churn Prediction Bank Customer Dataset for Churn prediction www.kaggle.com 1. 변수 간의 상관 분석 상대적으로 유의미한 상관관계를 보이는 변수들은 다음과 같다. (상관계수 = 0.01) E..

데이터분석 2024.01.17