doxc形式のワードファイルに記述されている表を「リスト形式で読み込む」パッケージの紹介です。Rではパッケージを利用しエクセルを簡単にデータフレームに読み込めましたが、ワードの表をデータにするのは画期的かと思います。
ワードのみデータがあって困っている方は多いかと思います。エクセル等で再入力していた方にオススメのパッケージです。読み込み後のデータはXLConnectやWriteXLSなどのパッケージで出力することでエクセルで再活用できます。
パッケージのバージョンは0.6.5。実行コマンドはwindows 11のR version 4.1.2で確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール install.packages("docxtractr")
ワードファイルの表の例
実行コマンド
詳細はコマンド、パッケージヘルプを確認してください。
#GUIでワードファイルを読み込む #tcltkパッケージの読み込み library("tcltk") ReadDocs <- read_docx(as.character(tkgetOpenFile(title = "ワードファイルを選択", filetypes = '{"ワードファイル" {".docx"}}', initialfile = c("*.docx")))) #ワード文書内のテーブル数を表示:docx_tbl_countコマンド docx_tbl_count(ReadDocs) [1] 2 #ワード文書内のテーブル情報:docx_describe_tblsコマンド docx_describe_tbls(ReadDocs) Word document [ワードファイル保管場所/てすとです.docx] Table 1 total cells: 20 row count : 4 uniform : likely! has header : likely! => possibly [てすと, テスト, DATA1, DATA2, DATA3] Table 2 total cells: 30 row count : 3 uniform : likely! has header : likely! => possibly [T1, T2, T3, T4, T5, T6, T7, T8, T9, T10] #ワード文書内のテーブルをリストに抽出:docx_extract_allコマンド Tbls <- docx_extract_all(ReadDocs) [[1]] Source: local data frame [3 x 5] てすと テスト DATA1 DATA2 DATA3 1 あ ア 1 4 7 2 い イ 2 5 8 3 う ウ 3 6 9 [[2]] Source: local data frame [2 x 10] T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 1 1 2 3 4 5 6 7 8 9 10 2 11 12 13 14 15 16 17 18 19 20
少しでも、あなたの解析が楽になりますように!!