Rで解析:欠損値の補完方法の一つです。「imputeMissings」パッケージ

Rの解析に役に立つ記事
スポンサーリンク

欠損値をデータの中央値もしくはランダムフォレスト法による予測値により補完するパッケージです。データの欠損値を補完する方法の一つになるのではないでしょうか。

バージョンは0.0.3。実行コマンドはR version 4.2.2で確認しています。

スポンサーリンク

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("imputeMissings")

実行コマンド

詳細はコメント、パッケージヘルプを確認してください。

#パッケージの読み込み
library("imputeMissings")

###データ例の作成#####
set.seed(1234)
n <- 10
TestData <- data.frame(Group = sample(c("Gloup1", "Gloup2", NA), n, replace = TRUE),
                       Data1 = sample(c(3:10,NA), n, replace = TRUE),
                       Data2 = as.numeric(sample(c(3:10,NA), n, replace = TRUE)),
                       Data3 = as.numeric(sample(c(3:10,NA), n, replace = TRUE)))
#内容の確認
TestData
########

#構造の確認
str(TestData)
'data.frame':	10 obs. of  4 variables:
$ Group: Factor w/ 2 levels "Gloup1","Gloup2": 2 NA 2 2 2 NA 2 1 1 NA
$ Data1: int  5 3 3 4 4 5 10 8 4 4
$ Data2: num  4 3 6 10 10 NA 6 NA 8 3
$ Data3: num  9 3 NA 10 7 7 3 8 3 8
########

#NAへのデータ補完:imputコマンド
#補完方法の指定:methodオプション;"median/mode", "randomForest"が指定可能
impute(TestData, method = "median/mode")
Group Data1 Data2 Data3
1  Gloup2     5     4     9
2  Gloup2     3     3     3
3  Gloup2     3     6     7
4  Gloup2     4    10    10
5  Gloup2     4    10     7
6  Gloup2     5     6     7
7  Gloup2    10     6     3
8  Gloup1     8     6     8
9  Gloup1     4     8     3
10 Gloup2     4     3     8

少しでも、あなたの解析が楽になりますように!!

タイトルとURLをコピーしました