keijikk
10/21/2017 - 8:44 AM

pandas前処理:欠損値

from sklearn.preprocessing import Imputer

imp = Imputer(missing_values='NaN', strategy='mean')
imp.fit(df[['身長(cm)']])

values = imp.transform(df[['身長(cm)']])
df[['身長(cm)']] = values
df


#  欠測値(NaN) に対して 中央値(median) を割り当てるImputerオブジェクトを生成
imp = Imputer(missing_values="NaN", strategy="median")

# データセットの学習 + strategy="median"に基づいて欠測値(NaN)を中央値に置き換える
values = imp.fit_transform(df[["体重(kg)"]])

# DataFrameに変換したデータを代入する
df[["体重(kg)"]] = values
df

#  欠測値(NaN) に対して 最頻値(median) を割り当てるImputerオブジェクトを生成
imp = Imputer(missing_values="NaN", strategy="most_frequent")

# データセットの学習 + strategy="most_frequent"に基づいて欠測値(NaN)を中央値に置き換える
values = imp.fit_transform(df[["視力"]])

# DataFrameに変換したデータを代入する
df[["視力"]] = values
df