IT학습/Library 10

[pandas] 데이터프레임 정보 보기, 수정하기, groupby

In [1]: import numpy as np import pandas as pd import seaborn as sns 데이터프레임의 정보 파악하기¶ info(): 데이터프레임의 정보를 보여줌 전체 데이터와 특정 column의 데이터 개수를 비교하는 방식으로 결측치의 존재를 파악. describe(): 기술 통계 데이터 확인 df[].value_count(): 특정 column의 각 값의 개수 파악 In [2]: lemonade = pd.read_csv('data/Lemonade2016.csv') lemonade.head(3) Out[2]: Date Location Lemon Orange Temperature Leaflets Price 0 7/1/2016 Park 97 67 70 90.0 0.25 1..

IT학습/Library 2024.01.18

[pandas] concat, join, merge

데이터 통합하기¶ cocat: 단순 병합 concat을 하면 디폴트로 axis = 0을 기준으로 병합한다. (위아래) 만약 column이나 index의 개수가 맞지 않으면 빈 값은 NaN으로 처리된다. ignore_index = True: 인덱스 번호를 합쳐진 데이터프레임을 기준으로 다시 생성 통합할 때 같은 이름의 index, column을 기준으로 통합한다. In [9]: import pandas as pd import numpy as np num_df1 = pd.DataFrame({ 'Class1' : [1, 2, 3, 4], 'Class2' : [5, 6, 7, 8] }) str_df = pd.DataFrame({ 'Class1' : ['John', 'Doe'], 'Class2' : ['Cat',..

IT학습/Library 2024.01.17

[pandas] csv파일 입출력, 데이터값 수정, concat/merge

In [42]: import numpy as np import pandas as pd import seaborn as sns 파일의 입출력¶ 참고: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html DATA_PATH를 지정해서 파일의 위치를 효율적으로 호출할 수 있다. to_csv() : In [43]: DATA_PATH = 'data/' air_quality_no2 = pd.read_csv('data/air_quality_no2_long.csv', parse_dates = True) air_quality_pm25 = pd.read_csv(DATA_PATH + 'air_quality_pm25_long.csv', parse_dates = Tr..

IT학습/Library 2024.01.17

[pandas] DataFrame 기본연산, 기본 기술통계

In [62]: import numpy as np import pandas as pd import seaborn as sns print(np.__version__) print(pd.__version__) print(sns.__version__) 1.26.3 2.1.4 0.13.1 데이터프레임을 이용한 데이터 생성¶ In [63]: #다차원 데이터 만들기 table_data = { '연도' : [2015, 2016, 2016, 2017, 2017], '지사' : ['한국', '한국', '미국', '한국', '미국'], '고객수' : [200, 250, 450, 300, 500] } table_data Out[63]: {'연도': [2015, 2016, 2016, 2017, 2017], '지사': ['한국'..

IT학습/Library 2024.01.12

[pandas] Series 데이터 구조, 날짜 데이터

주요 메서드: pd.Series, date_range In [4]: import numpy as np import pandas as pd import seaborn as sns print(np.__version__) print(pd.__version__) print(sns.__version__) 1.26.3 2.1.4 0.13.1 pandas의 데이터구조¶ Series: 1차원 데이터, 컬럼이 1개 DataFrame: 다차원 데이터, 컬럼이 여러개 In [5]: s1 = pd.Series([10, 20, 30, 40, 50]) s1 #dtype: int64 Out[5]: 0 10 1 20 2 30 3 40 4 50 dtype: int64 In [6]: print(s1.index) #인덱스 print(s1..

IT학습/Library 2024.01.12

[numpy] 배열의 조건문, numpy 조건문

핵심: np.where(), np.select() 배열 조건문 더보기 a3 = np.array([0, 1, 2, 3, 4, 5, 6]) a3 """array([0, 1, 2, 3, 4, 5, 6]) """ a3 > 3 """array([False, False, False, False, True, True, True]) """ a3[a3 > 3] #True 값만 추출 """array([4, 5, 6]) """ a3 % 2 == 0 #나머지가 0인 원소 """array([ True, False, True, False, True, False, True]) """ a3[a3 % 2 == 0] """array([0, 2, 4, 6]) """ numpy의 조건문 np.where(조건, x, y) : 단일 조건문. ..

IT학습/Library 2024.01.08

[numpy] 배열의 인덱싱, 슬라이싱

배열의 인덱싱과 슬라이싱 파이썬 시퀀스 자료형의 인덱싱과 슬라이싱과 유사함 더보기 a1 = np.array([0, 1, 2, 3, 40, 5]) print(a1[0]) print(a1[-1]) """ 0 5 """ #리스트를 통한 추출 a1[[0, 2, 4]] """array([ 0, 2, 40])""" a2 = np.arange(10, 100, 10).reshape(3, 3) a2 """ array([[10, 20, 30], [40, 50, 60], [70, 80, 90]]) """ 2차원 배열의 인덱스 위치는 다음과 같다 배열[열, 행] (0, 0) (0, 1) (0, 2) (1, 0) (1, 1) (1, 2) (2, 0) (2, 1) (2, 2) print(a2[0, 1]) print(a2[1, 2..

IT학습/Library 2024.01.08

[numpy] 난수 추출, 배열의 연산

핵심: random.rand(), random.randint(), sum(), mean(), std(), var() dot(), transpose(), linalg() 난수 무작위 추출 np.random.rand(a, b, c): 0부터 1사이의 실수를 랜덤으로 추출 후 배열. 1, 2, 3차원 모두 가능함 np.random.randint(c, d, n): c와 d 사이의 n개의 정수를 랜덤으로 추출 후 배열. 이때 d는 포함 안 됨 이때 n에 정수 대신 (e, f) 같은 방식으로 tuple을 넣어 배열을 만들 수 있다. 더보기 np.random.rand(2) """array([0.19517298, 0.74078605])""" np.random.rand(2, 3, 4) """ array([[[0.0583..

IT학습/Library 2024.01.08

[numpy] 배열 생성, 배열 차원 바꾸기, 배열 데이터 타입 변경하기

핵심: array(), arange(), reshape(), linspace(), astype() numpy 일반적인 배열 + 배열 연산자를 쓰면 배열1배열2 형태로 출력됨 numpy를 이용하면 배열 안의 요소들의 연산을 쉽게 할 수 있음 array() arange() dtype 더보기 num1 = [1, 2, 3, 4] num2 = [3, 4, 5, 6] num1 + num2 """출력: [1, 2, 3, 4, 3, 4, 5, 6]""" arr1 = np.array(num1) arr1 """출력: array([1, 2, 3, 4])""" arr2 = np.array(num2) arr2 """출력: array([3, 4, 5, 6])""" print(arr1 + arr2) print(arr1 - arr2..

IT학습/Library 2024.01.08