Rでお遊び:文字列の言語を判断「franc」パッケージ

Rの解析に役に立つ記事
スポンサーリンク

パッケージに収録されている335言語(Descriptionより)から、指定した文字列の言語を判断するパッケージです。なお、文字コードの判断ではありません。

同名のJavaScriptも開発されています。興味のある方はご覧ください。何か発見があるかもしれません。
https://github.com/wooorm/franc

パッケージバージョンは1.1.1。実行コマンドはR version 3.2.2で確認しています。


スポンサーリンク

パッケージのインストール

下記、コマンドを実行してください。

[code language=”R”]
#パッケージのインストール
install.packages(“franc”)
[/code]

実行コマンド

詳細はコメント、パッケージのヘルプを確認してください。

[code language=”R”]
#パッケージの読み込み
library(“franc”)

#文字列の言語を判断:francコマンド
#判断する最小の文字数:min_lengthオプション;初期値は10
#設定文字数より短いと”und”[undefined]が返されます
franc(“Rとアニメはからだにいいもの”)
[1] “jpn”
#短い場合
franc(“からだにいいもの”)
[1] “und”

#パッケージでサポートしてる310言語と比較:franc_allコマンド
#良い例が思いつかなかったので公式ページより
#https://github.com/mangothecat/franc
head(franc_all(“O Brasil caiu 26 posições”))
language score
1 por 1.0000000
2 src 0.8800937
3 glg 0.8702576
4 snn 0.8637002
5 bos 0.8168618
6 hrv 0.8103044
[/code]


少しでも、あなたのウェブや実験の解析が楽になりますように!!

タイトルとURLをコピーしました