전체 글 49

[pandas] 데이터프레임 정보 보기, 수정하기, groupby

In [1]: import numpy as np import pandas as pd import seaborn as sns 데이터프레임의 정보 파악하기¶ info(): 데이터프레임의 정보를 보여줌 전체 데이터와 특정 column의 데이터 개수를 비교하는 방식으로 결측치의 존재를 파악. describe(): 기술 통계 데이터 확인 df[].value_count(): 특정 column의 각 값의 개수 파악 In [2]: lemonade = pd.read_csv('data/Lemonade2016.csv') lemonade.head(3) Out[2]: Date Location Lemon Orange Temperature Leaflets Price 0 7/1/2016 Park 97 67 70 90.0 0.25 1..

IT학습/Library 2024.01.18

[pandas] concat, join, merge

데이터 통합하기¶ cocat: 단순 병합 concat을 하면 디폴트로 axis = 0을 기준으로 병합한다. (위아래) 만약 column이나 index의 개수가 맞지 않으면 빈 값은 NaN으로 처리된다. ignore_index = True: 인덱스 번호를 합쳐진 데이터프레임을 기준으로 다시 생성 통합할 때 같은 이름의 index, column을 기준으로 통합한다. In [9]: import pandas as pd import numpy as np num_df1 = pd.DataFrame({ 'Class1' : [1, 2, 3, 4], 'Class2' : [5, 6, 7, 8] }) str_df = pd.DataFrame({ 'Class1' : ['John', 'Doe'], 'Class2' : ['Cat',..

IT학습/Library 2024.01.17

[pandas] csv파일 입출력, 데이터값 수정, concat/merge

In [42]: import numpy as np import pandas as pd import seaborn as sns 파일의 입출력¶ 참고: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html DATA_PATH를 지정해서 파일의 위치를 효율적으로 호출할 수 있다. to_csv() : In [43]: DATA_PATH = 'data/' air_quality_no2 = pd.read_csv('data/air_quality_no2_long.csv', parse_dates = True) air_quality_pm25 = pd.read_csv(DATA_PATH + 'air_quality_pm25_long.csv', parse_dates = Tr..

IT학습/Library 2024.01.17

[통계분석] 데이터 분석 연습하기

0. Input 데이터 더보기 https://www.kaggle.com/competitions/playground-series-s4e1 Binary Classification with a Bank Churn Dataset | Kaggle www.kaggle.com https://www.kaggle.com/datasets/shantanudhakadd/bank-customer-churn-prediction Bank Customer Churn Prediction Bank Customer Dataset for Churn prediction www.kaggle.com 1. 변수 간의 상관 분석 상대적으로 유의미한 상관관계를 보이는 변수들은 다음과 같다. (상관계수 = 0.01) E..

데이터분석 2024.01.17

[백준/Bronze V] 새싹 - 25083

https://www.acmicpc.net/problem/25083 25083번: 새싹 아래 예제와 같이 새싹을 출력하시오. www.acmicpc.net 문제 아래 예제와 같이 새싹을 출력하시오. 입력 없음 출력 새싹을 출력한다. 예제 출력 ,r'"7 r`-_ ,' ,/ \. ". L_r' `~\/ | | 코드 print(" ,r\'\"7") print("r`-_ ,\' ,/") print(" \\. \". L_r\'") print(" `~\\/") print(" |") print(" |") 메모) ' 와 " 같은 제어문자를 출력하기 위해서 \ 를 써야한다. print(\') print(\")

IT학습/CodingTest 2024.01.14

[pandas] DataFrame 기본연산, 기본 기술통계

In [62]: import numpy as np import pandas as pd import seaborn as sns print(np.__version__) print(pd.__version__) print(sns.__version__) 1.26.3 2.1.4 0.13.1 데이터프레임을 이용한 데이터 생성¶ In [63]: #다차원 데이터 만들기 table_data = { '연도' : [2015, 2016, 2016, 2017, 2017], '지사' : ['한국', '한국', '미국', '한국', '미국'], '고객수' : [200, 250, 450, 300, 500] } table_data Out[63]: {'연도': [2015, 2016, 2016, 2017, 2017], '지사': ['한국'..

IT학습/Library 2024.01.12

[pandas] Series 데이터 구조, 날짜 데이터

주요 메서드: pd.Series, date_range In [4]: import numpy as np import pandas as pd import seaborn as sns print(np.__version__) print(pd.__version__) print(sns.__version__) 1.26.3 2.1.4 0.13.1 pandas의 데이터구조¶ Series: 1차원 데이터, 컬럼이 1개 DataFrame: 다차원 데이터, 컬럼이 여러개 In [5]: s1 = pd.Series([10, 20, 30, 40, 50]) s1 #dtype: int64 Out[5]: 0 10 1 20 2 30 3 40 4 50 dtype: int64 In [6]: print(s1.index) #인덱스 print(s1..

IT학습/Library 2024.01.12

[Python] 코딩 도장 복습: if 조건문, else, elif

if 조건문에서 pass 사용하기 조건문에서 아무 일도 하지 않고 그냥 넘어감. 나중에 작성할 코드를 표시하는 방식으로 사용 가능(주석 활용) if x == 10: pass # TODO: x가 10일 때 처리가 필요함 예시 표준 입력으로 나이(만 나이)가 입력됩니다(입력 값은 7 이상 입력됨). 교통카드 시스템에서 시내버스 요금은 다음과 같으며 각 나이에 맞게 요금을 차감한 뒤 잔액이 출력되게 만드세요(if, elif 사용). 현재 교통카드에는 9,000원이 들어있습니다. 어린이(초등학생, 만 7세 이상 12세 이하): 650원 청소년(중∙고등학생, 만 13세 이상 18세 이하): 1,050원 어른(일반, 만 19세 이상): 1,250원 더보기 age = int(input()) balance = 9000..

IT학습/Python 2024.01.12

[Python] 코딩 도장 복습: 딕셔너리, zip()

딕셔너리 = {키1 : 값 1, 키2 : 값2} 딕셔너리 만들기 빈 딕셔너리 만드는 방법: dict0 = {} 딕셔너리의 value 값에는 문자열, 정수, 실수, bool, 리스트, 튜플, range, 딕셔너리가 들어갈 수 있다. 그러나 key 값에는 문자열, 정수, 실수, bool만 가능하다. 리스트, 딕셔너리, 튜플, range는 불가능. 딕셔너리의 key 업데이트하기 dict['new_key'] = 'new_value' : 새로운 key와 값을 딕셔너리 맨 뒤에 업데이트 dict['old_key'] = 'new_value' : 기존 key에 새로운 값을 업데이트 그외 key in 딕셔너리 : 키가 딕셔너리에 있는지 없는지 확인. True나 False를 반환함 len(딕셔너리) : 딕셔너리의 키 개수..

IT학습/Python 2024.01.11