Sklearn과 Seaborn 라이브러리에 load_csv등으로 불러오지 않고 라이브러리 내 dataset함수를 호출하는 방법이 있다.

 

1. Sklearn.datasets

sklearn에 datasets 에는 3가지 종류가 잇다.

1. load_xxx : 내장데이터셋

2. make_xxx : 확률분포로 가상의 데이터셋 생성

3. fetch_xxx : 크기가 큰 데이터셋 다운로드

 

dataset 종류  
load_iris 붓꽃데이터 (IRIS) 종류 분류 분류
load_diabetes 당뇨병환자 데이터 회귀
load_digits 숫자 이미지 데이터 (0-9) 분류
load_linnerud 운동능력데이터 회귀
load_wine 와인등급데이터 분류
load_brest_cancer 유방암진단 회귀

아래는 가장 많이 사용하는 iris 데이터 load방법이다.

대부분 iris.data로 X값들이고, y는 iris.target등으로 가져올수있다. (방식은 동일)

import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df["target"] = iris.target
df

 

load_xxx로 dataset을 불러오면 일종의 dictionary형태의 자료형태를 가지고 있다.

from sklearn.datasets import load_iris

iris_data = load_iris()
keys = iris_data.keys()
keys
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
  • data : 피처의 데이터 세트
  • target : 종속변수의 값.
  • target_names : 종속변수의 개별 레이블의 이름.
  • feature_names : 피처의 이름, 독립변수의 이름.
  • DESCR은 데이터 세트에 대한 설명과 각 피처의 설명.

 

 

2. seaborn datasets

df = sns.load_dataset('titanic')
df.head()

seaborn은 load_dataset과 데이터셋 이름으로 데이터를 load할 수있다.

데이터셋을 다운받기때문에 네트워크가 연결되어있어야한다.

내장데이터셋은 아래 명령어로 가져올 수 있다.

sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

'전처리' 카테고리의 다른 글

Pandas groupby secton4 transform  (0) 2023.06.20
Pandas groupby section3 (agg)  (0) 2023.06.20
Pandas groupby section2(Multi Key)  (0) 2023.06.20
Pandas groupby section1  (0) 2023.06.20
jupyter notebook  (0) 2023.06.14

+ Recent posts