2変数の組み合わせだけでなく、1変数内のデータの出現数を計算してくれるパッケージの紹介です。なお、利用にはR version 3.4.0以上が必要です。
パッケージバージョンは0.1.1。windows 10のR version 3.4.0で動作を確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール install.packages("frequencies")
コマンドの紹介
詳細はコマンド、パッケージのヘルプを確認してください。
#パッケージの読み込み library("frequencies") ###データ例の作成##### n <- 15 TestData <- data.frame(Group = sample(paste0("Group", 1:5), n, replace = TRUE), Data1 = sample(LETTERS[1:5], n, replace = TRUE), Data2 = sample(LETTERS[1:26], n, replace = TRUE)) ####### #2変数内の出現数を表示:freq_two_vectsコマンド #主となる変数を指定:col1オプション #対象の変数を指定:col2オプション #結果をdata.frameで出力:separate_tablesオプション ResultData <- freq_two_vects(df = TestData, col1 = Data1, col2 = Data2, separate_tables = FALSE) #確認 ResultData # A tibble: 55 x 4 Data1 Data2 Count Percentage 1 A A 1 50 2 A N 1 50 3 A B 0 0 4 A F 0 0 5 A H 0 0 6 A Q 0 0 7 A R 0 0 8 A W 0 0 9 A X 0 0 10 A Y 0 0 # ... with 45 more rows #出現数が1以上を抽出 subset(ResultData, ResultData[, 3] > 0) # A tibble: 14 x 4 Data1 Data2 Count Percentage 1 A A 1 50.0 2 A N 1 50.0 3 B A 1 16.7 4 B B 1 16.7 5 B Q 1 16.7 6 B R 1 16.7 7 B W 1 16.7 8 B X 1 16.7 9 C H 2 50.0 10 C F 1 25.0 11 C Z 1 25.0 12 D Y 1 100.0 13 E R 1 50.0 14 E Z 1 50.0 #1変数内の出現を表示:freq_vectコマンド #出現数を降順に並び替え:sort_by_countオプション freq_vect(data_vector = TestData[, 2], sort_by_count = TRUE, total_row = TRUE) # A tibble: 6 x 4 data Count Percentage Cum. 1 B 6 40 40 2 C 4 26.7 66.7 3 A 2 13.3 80 4 E 2 13.3 93.3 5 D 1 6.7 100 6 Total 15 100 100
少しでも、あなたの解析が楽になりますように!!