pandas 6

[pandas] 데이터프레임 정보 보기, 수정하기, groupby

In [1]: import numpy as np import pandas as pd import seaborn as sns 데이터프레임의 정보 파악하기¶ info(): 데이터프레임의 정보를 보여줌 전체 데이터와 특정 column의 데이터 개수를 비교하는 방식으로 결측치의 존재를 파악. describe(): 기술 통계 데이터 확인 df[].value_count(): 특정 column의 각 값의 개수 파악 In [2]: lemonade = pd.read_csv('data/Lemonade2016.csv') lemonade.head(3) Out[2]: Date Location Lemon Orange Temperature Leaflets Price 0 7/1/2016 Park 97 67 70 90.0 0.25 1..

IT학습/Library 2024.01.18

[pandas] concat, join, merge

데이터 통합하기¶ cocat: 단순 병합 concat을 하면 디폴트로 axis = 0을 기준으로 병합한다. (위아래) 만약 column이나 index의 개수가 맞지 않으면 빈 값은 NaN으로 처리된다. ignore_index = True: 인덱스 번호를 합쳐진 데이터프레임을 기준으로 다시 생성 통합할 때 같은 이름의 index, column을 기준으로 통합한다. In [9]: import pandas as pd import numpy as np num_df1 = pd.DataFrame({ 'Class1' : [1, 2, 3, 4], 'Class2' : [5, 6, 7, 8] }) str_df = pd.DataFrame({ 'Class1' : ['John', 'Doe'], 'Class2' : ['Cat',..

IT학습/Library 2024.01.17

[pandas] csv파일 입출력, 데이터값 수정, concat/merge

In [42]: import numpy as np import pandas as pd import seaborn as sns 파일의 입출력¶ 참고: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html DATA_PATH를 지정해서 파일의 위치를 효율적으로 호출할 수 있다. to_csv() : In [43]: DATA_PATH = 'data/' air_quality_no2 = pd.read_csv('data/air_quality_no2_long.csv', parse_dates = True) air_quality_pm25 = pd.read_csv(DATA_PATH + 'air_quality_pm25_long.csv', parse_dates = Tr..

IT학습/Library 2024.01.17

[pandas] DataFrame 기본연산, 기본 기술통계

In [62]: import numpy as np import pandas as pd import seaborn as sns print(np.__version__) print(pd.__version__) print(sns.__version__) 1.26.3 2.1.4 0.13.1 데이터프레임을 이용한 데이터 생성¶ In [63]: #다차원 데이터 만들기 table_data = { '연도' : [2015, 2016, 2016, 2017, 2017], '지사' : ['한국', '한국', '미국', '한국', '미국'], '고객수' : [200, 250, 450, 300, 500] } table_data Out[63]: {'연도': [2015, 2016, 2016, 2017, 2017], '지사': ['한국'..

IT학습/Library 2024.01.12

[pandas] Series 데이터 구조, 날짜 데이터

주요 메서드: pd.Series, date_range In [4]: import numpy as np import pandas as pd import seaborn as sns print(np.__version__) print(pd.__version__) print(sns.__version__) 1.26.3 2.1.4 0.13.1 pandas의 데이터구조¶ Series: 1차원 데이터, 컬럼이 1개 DataFrame: 다차원 데이터, 컬럼이 여러개 In [5]: s1 = pd.Series([10, 20, 30, 40, 50]) s1 #dtype: int64 Out[5]: 0 10 1 20 2 30 3 40 4 50 dtype: int64 In [6]: print(s1.index) #인덱스 print(s1..

IT학습/Library 2024.01.12