전체 글 49

오차 행렬 - 정확도, 정밀도, 재현도, 특이도, F1 Score

예측 양성 음성 실제 양성 1 1 음성 3 5 정확도: (1+5)/(1+1+3+5) = 0.6 정밀도: 1/(1+3) = 0.25 재현도: 1/(1+1) = 0.5 F1 score = 0.33 오차 행렬(Confusion Matrix)이란? 오차 행렬은 분류 모델의 성능을 시각적으로 보여주는 표입니다. 이 표는 모델이 예측한 값과 실제 값이 얼마나 일치하는지를 나타내며, 특히 이진 분류 문제에서 많이 사용됩니다. 오차 행렬은 다음과 같이 4분면으로 구성됩니다. TN (True Negative): 예측을 Negative라고 했고 실제로 Negative인 경우 FP (False Positive): 예측을 Positive라고 했는데 실제로 Negative인 경우 FN (False Negative): 예측을 N..

데이터분석 2024.02.20

[ADsP/2과목] 문제 21 ~ 40

문제 21 ~ 30 더보기 21. KDD 분석 절차 중 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 과정은? a. 데이터셋 선택(Selection) b. 데이터 전처리(Processing) c. 데이터 변환(Transformation) d. 데이터 마이닝 (Data Mining) 22. 분석 과제를 도출하기 위한 상향식 접근방식에 대한 설명으로 옳지 않은 것은? a. 상향식 접근방식의 데이터 분석은 비지도 학습방법에 의해 수행된다. b. 분석적으로 사물을 인식하려는 Why관점에서 접근한다. c. 인과관계로부터 상관관계분석으로 이동이라는 변화를 만들었다. d. 사물을 있는 그대로 인식하는 what 관점에서 접근한다. 23. 분석과제의 주요 관리 영역이 아닌 것은? a. Data Size b. Da..

[ADsP/2과목] 문제 1 ~ 20

문제 1 ~ 10 더보기 1. 분석대상이 명확하지만 분석방식이 명확하지 않은 경우 수행하는 주제 유형은? a. 최적화 b. 발견 c. 통찰 d. 솔루션 2. 분석기획 고려사항 중 장애요소에 대한 설명으로 부적절한 것은? a. 비용대비 효과의 적정한 비용 b. 분석 모형의 안정적인 성능확보 c. 이해도 높은 모형보다 복잡하고 정교한 모형 d. 조직 역량으로 내재화를 위한 변화 관리 3. 다양한 데이터 유형 중 정형, 반정형, 비정형 데이터들을 분류하시오 a. Demand Forecasts /// b.Competitor pricing c. Email Records /// d.Facebook Status e. Weather Data /// f. Web Log g. RFID /// h. IoT Sensing i..

[ADsP/1과목] 문제 1 ~15

문제 1 ~ 10 더보기 1. 데이터베이스의 특징으로 가장 부적절한 것은? a. 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있게 구성됨 b. 통합된 데이터임 c. 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 함 d. 검색기능이 있어서 다양한 방법으로 필요한 정보를 검색할 수 있음 2. 데이터 사이언티스트에게 요구되는 소프트 스킬이 아닌 것은? a. 이론적 지식 b. 창의적 사고 c. 커뮤니케이션 기술 d. 시각화를 통한 설득력 3. 다음 중 빅데이터 분석에 경제성을 제공해 준 결정적인 기술로 가장 결정적인 것은? a. 저장장치 비용의 지속적 하락 b. 텍스트 마이닝 c. 클라우드 컴퓨팅 d. 스마트폰의 급속한 확장 4. 데이터와 정보의 차이를 구..

[selenium] 동적 웹크롤링 루틴

일반적인 크롤링 실행¶ 패키지 호출 및 전체적인 틀 짜기 In [4]: import selenium import pandas as pd import time import random # 크롬 드라이버 다운로드 후 세팅 # https://chromedriver.chromium.org/downloads from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By # 크롬 드라이버 설정 CHROME_DRIVER_PATH = './chromedriver.exe' service = Service(executable_path=CHROME_DRIVE..

데이터분석 2024.02.17

requirements.txt의 패키지 버전 확인 및 업데이트하기

결과물 import importlib.metadata def update_requirements_txt(file_path): # Open file_path and read each lines with open(file_path, 'r') as file: lines = file.readlines() #List to store the results results = [] # Flag tio check if all packages are installed. If not False. all_installed = True for line in lines: if '==' in line: package_name = line.split('==')[0] else: package_name = line.strip() try..

Chat GPT 기록 2024.02.09

[데이터분석]api key 숨기기

1., .gitignor파일과 같은 폴더에 .env 파일을 생성한다. 2. API KEY가 abcd1234라고 하면 env 파일에 다음과 같이 작성한다. //.env PUBLIC_API_KEY = ""abcd1234" 3. .gitignore에 .env을 입력해서 push를 방지한다 // .gitignore .env 4. 이후 다른 파일을 사용할 때는 다음과 같이 코드를 작성해준다. # 원래 쓰던 방법 SERVICE_KEY = "abcd1234" # 새로운 방법 SERVICE_KEY = os.getenv("PUBLIC_API_KEY") 5. 아래를 통해서 프로젝트 파일에 env 파일 활성화 시켜준다. # 라이브러리 설치 pip install python-dotenv from dotenv import lo..

카테고리 없음 2024.02.01

[Python] 코딩 도장 복습: for, while, break, continue

break와 continue break: 조건식이 True이면 반복문을 완전히 끝냄 continue: 조건식이 True이면 코드의 실행을 중지, 반복문은 유지 아래의 for문을 예시로 이해가 가능하다. while도 마찬가지. for i in '시퀀스': 반복할 코드 #0 if 조건식#1: break 반복할 코드#1 if 조건식#2: continue 반복할 코드#2 예제 표준 입력으로 정수 두 개가 입력됩니다(첫 번째 입력 값의 범위는 1~200, 두 번째 입력 값의 범위는 10~200이며 첫 번째 입력 값은 두 번째 입력 값보다 항상 작습니다). 다음 소스 코드를 완성하여 첫 번째 정수와 두 번째 정수 사이의 숫자 중 3으로 끝나지 않는 숫자가 출력되게 만드세요. 정답에 코드를 작성할 때는 while T..

IT학습/Python 2024.01.21