Rで解析：データの探索に便利です。「DescTools」パッケージ

「データを解析する前におこなっている作業の紹介」を先日紹介しました。そんな、解析する前にデータの特徴を探るのに便利なコマンドが収録されたパッケージの紹介です。

データを解析する前の作業を紹介
https://www.karada-good.net/analyticsr/r-293/

多くのコマンドの中から、これは便利と感じた「素数、最大公約数、フィボナッチ数、要素の組み合わせ」と「データの特徴を把握しながら図式化する」コマンドを紹介します。その他のコマンドはパッケージヘルプを確認していただければと思います。

パッケージのバージョンは0.99.44。 windows11のR version 4.1.2で確認しています。

パッケージのインストール

下記、コマンドを実行してください。

#パッケージのインストール
install.packages("DescTools")

実行コマンド

詳細はコメント、パッケージのヘルプを確認してください。

#&#12497;&#12483;&#12465;&#12540;&#12472;&#12398;&#35501;&#12415;&#36796;&#12415;
library("DescTools")

#n&#12414;&#12391;&#12398;&#32032;&#25968;&#12398;&#34920;&#31034;:Prime&#12467;&#12510;&#12531;&#12489;
Primes(n = 37)
[1]  2  3  5  7 11 13 17 19 23 29 31 37

#&#32032;&#25968;&#12391;&#12354;&#12427;&#12363;&#12398;&#30906;&#35469;:IsPrime&#12467;&#12510;&#12531;&#12489;
IsPrime(Primes(n = 37))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

#&#26368;&#23569;&#20844;&#20493;&#25968;&#12398;&#35336;&#31639;:LCM&#12467;&#12510;&#12531;&#12489;
LCM(2, 3)
[1] 6

#&#26368;&#22823;&#20844;&#32004;&#25968;&#12398;&#35336;&#31639;:GCD&#12467;&#12510;&#12531;&#12489;
GCD(160, 25)
[1] 5

#&#12501;&#12451;&#12508;&#12490;&#12483;&#12481;&#25968;:Fibonacci&#12467;&#12510;&#12531;&#12489;
Fibonacci(1:6)
[1] 1 1 2 3 5 8

#&#35201;&#32032;&#12398;&#20840;&#32068;&#12415;&#21512;&#12431;&#12379;:Permn&#12467;&#12510;&#12531;&#12489;
Permn(c(1:3))
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    2    1    3
[3,]    2    3    1
[4,]    1    3    2
[5,]    3    1    2
[6,]    3    2    1

#&#32068;&#12415;&#21512;&#12431;&#12379;&#12398;&#25968;&#12434;&#35336;&#31639;:factorial&#12467;&#12510;&#12531;&#12489;
factorial(length(c(1:3)))
[1] 6

#&#35201;&#32032;&#31684;&#22258;&#12434;&#25351;&#23450;&#12375;&#12383;&#20840;&#32068;&#12415;&#21512;&#12431;&#12379;:CombSet&#12467;&#12510;&#12531;&#12489;
CombSet(c(1:3), 2, repl = FALSE, ord = TRUE)
      [,1] [,2]
[1,]    1    2
[2,]    2    1
[3,]    1    3
[4,]    3    1
[5,]    2    3
[6,]    3    2

#2&#12388;&#12398;&#12505;&#12463;&#12488;&#12523;&#12398;&#32068;&#12415;&#21512;&#12431;&#12379;:CombPairs&#12467;&#12510;&#12531;&#12489;
CombPairs(c(1:3), c(3:1))
Var1 Var2
1    1    3
2    2    3
3    3    3
4    1    2
5    2    2
6    3    2
7    1    1
8    2    1
9    3    1

###&#12487;&#12540;&#12479;&#20363;&#12398;&#20316;&#25104;#####
n <- 1000
TestData <- data.frame(Group = sample(c(paste0("Group", 1:3), NA), n, replace = TRUE),
                          Data1 = sample(1:200, n, replace = TRUE),
                          Data2 = rnorm(n),
                          Data3 = factor(sample(c("YES", "NO", NA), n, replace = TRUE)))
########

#&#22240;&#23376;&#12398;&#20998;&#24067;&#12434;&#30906;&#35469;:Desc&#12467;&#12510;&#12531;&#12489;
#&#12459;&#12486;&#12468;&#12522;
Desc(TestData[, 1], plotit = TRUE, digits = 3)

TestData[, 1] (factor)
length      n    NAs levels unique  dupes
1'000    780    220      3      3      y

   level   freq      perc  cumfreq   cumperc
1  Group3  3e+02  3.6e+01%    3e+02  3.6e+01%
2  Group1  2e+02  3.2e+01%    5e+02  6.8e+01%
3  Group2  2e+02  3.2e+01%    8e+02  1.0e+02%

#&#36899;&#32154;&#22793;&#25968;
Desc(TestData[, 2], plotit = TRUE)

TestData[, 2] (integer)
length          n        NAs     unique         0s       mean     meanSE
 1e+03      1e+03          0      2e+02          0   1.03e+02   1.80e+00

     .05        .10        .25     median        .75        .90        .95
1.30e+01   2.40e+01   5.30e+01   1.04e+02   1.51e+02   1.79e+02   1.90e+02

   range         sd      vcoef        mad        IQR       skew       kurt
1.99e+02   5.69e+01   5.55e-01   7.26e+01   9.80e+01  -4.49e-02  -1.20e+00

lowest : 1e+00 (4e+00), 2e+00 (5e+00), 3e+00 (7e+00), 4e+00 (2e+00), 5e+00 (2e+00)
highest: 2e+02 (7e+00), 2e+02 (3e+00), 2e+02 (8e+00), 2e+02 (6e+00), 2e+02 (4e+00)

#&#22240;&#23376;
Desc(TestData[, 4], plotit = TRUE)

TestData[, 4] (factor - dichotomous)
length      n    NAs unique
 1'000    661    339      2

freq      perc  lci9.50e-01  uci9.50e-01'
NO   3e+02  5.3e+01%     4.9e+01%     5.7e+01%
YES  3e+02  4.7e+01%     4.3e+01%     5.1e+01%

' 95%-CI Wilson

#&#12487;&#12540;&#12479;&#12434;&#31665;&#12402;&#12370;&#22259;&#12391;&#30906;&#35469;
Desc(TestData[, 1] ~ TestData[, 2], plotit = TRUE)

#&#12496;&#12452;&#12458;&#12522;&#12531;&#12503;&#12525;&#12483;&#12488;:PlotViolin&#12467;&#12510;&#12531;&#12489;
PlotViolin(TestData[, 2] ~ TestData[, 1],
           data = TestData, col = SetAlpha(hblue,0.5))

#&#23494;&#24230;&#12464;&#12521;&#12501;&#12398;&#20316;&#25104;:PlotMultiDens&#12467;&#12510;&#12531;&#12489;
PlotMultiDens(TestData[, 2] ~ TestData[, 1],
              data = TestData) 

#&#25955;&#24067;&#22259;&#12392;&#23494;&#24230;&#12464;&#12521;&#12501;&#12398;&#21516;&#26178;&#25551;&#20889;:PlotMarDens&#12467;&#12510;&#12531;&#12489;
#&#12464;&#12523;&#12540;&#12503;&#12434;&#25351;&#23450;:grp&#12458;&#12503;&#12471;&#12519;&#12531;
PlotMarDens(y = TestData[, 2], x = TestData[, 3], grp = TestData[, 1])