Rで解析：文字列データの傾向把握に「GrpString」パッケージ

文字列データの傾向把握に便利なパッケージの紹介です。収録されているコマンドからCommonPattコマンドを紹介します。

パッケージバージョンは0.3.2。windows 10のR version 4.2.2で動作を確認しています。

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("GrpString")

実行コマンドの紹介

詳細はコマンド、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("GrpString")

###データ例の作成#####
TestVec <- c("Rはからだにいいもの",
             "アニメもいいもの", "いいものアニメもいいもの")
#######

#文字列データの出現パターンを計算:CommonPattコマンド
#データを指定:strings.vecオプション
#出現率を指定:lowオプション;0-100の範囲
Data <- CommonPatt(strings.vec = TestVec, low = 60)

#確認
#Percent_totalの上位5位
#Freq_total:総出現数
#Percent_total:出現割合;Freq_total/データ数
#Length:文字列の長さ
#Freq_str:各データのパターン重複を除く
#Percent_str:パターン重複を除く出現割合;Freq_str/データ数
head(Data[order(Data[, 3]),])
#            Pattern Freq_total Percent_total Length Freq_str Percent_str
#16         いいもの          4       133.33%      4        3     100.00%
#15           いいも          4       133.33%      3        3     100.00%
#25           いもの          4       133.33%      3        3     100.00%
#14 アニメもいいもの          2        66.67%      8        2      66.67%
#13   アニメもいいも          2        66.67%      7        2      66.67%
#51   ニメもいいもの          2        66.67%      7        2      66.67%

あなたの解析が少しでも楽になりますように！！