from sklearn.datasets import load_digits
digits = load_digits()
data = digits['data']
target = digits['target']
import matplotlib.pyplot as plt
손글씨 데이터셋은 아이리스 데이터셋과 같이 사이킷런에서 제공하는 데이터셋 중 하나입니다
손글시 데이터셋을 불러온 뒤 데이터를 matplotlib을 통해 나타내 줍니다
fig, axes = plt.subplots(3,5,figsize=(14,8))
for i, ax in enumerate(axes.flatten()):
ax.imshow(data[i].reshape((8,8)), cmap='gray')
ax.set_title(target[i])
손글씨 데이터셋은 각각의 데이터가 64픽셀이 한줄로 나열되어 있는 구조인데 8x8 구조로 바꾸어서 출력하게 되면 위와 같은 모습으로 출력되는걸 볼수 있습니다
2. 스케일링
데이터를 특정한 스케일로 통일하는 것
다차원의 값들을 비교 분석하기 쉽게 만들어주며, 자료의 오버플로우나 언더플로우를 방지하여 최적화 과정에서의 안정성 및 수렴 속도를 향상
데이터를 모델링하기 전에 거치는 것이 좋음(int, float)
2-1. 스케일링의 종류
StandardScaler : 평균과 표준편차를 사용
MinMaxScaler : 최대, 최소값이 각각 1과 0이 되도록 스케일링
RobustScaler : 중앙값과 IQR사용(아웃라이어의 영향을 최소화)
import pandas as pd
movie = {'naver':[2,4,6,8,10], 'netflix':[1,2,3,4,5]}
movie = pd.DataFrame(data=movie)