R Notebook を使って研究をコミュニケーションする

今日は引き続き、R Notebookを使った研究のコミュニケーションについてお話します。私たちは、R を使用して研究成果を伝達するために使用できる基本的なフレームワークの開発に引き続き取り組んでいきます。再現可能な研究の伝達に関するこのシリーズの最初の部分については、ここをチェックしてください。

仮説を立てる
R ノートブックでのメソッドの作成
R Notebook での記述統計の作業
R Notebook でのビジュアライゼーションの構築
結論で終わる
結論

仮説を立てる

私たちのレポートの次のステップは、仮説を立てることです。ビューアペインに別のセクションを作成し、他のセクションを折りたたんで、高レベルのレポートを確認できるようにします。

仮説として、CD-ROM の有無にかかわらずコンピュータの販売価格に差はない、と書きます。

R Notebook を使って研究をコミュニケーションする – パート 2

R ノートブックでのメソッドの作成

メソッドに進み、その仮説に答えるために使用する実際のテクニックについて説明します。いかなる種類の推論統計も行う必要はないかもしれません。対象読者に応じて、このシナリオでは高度な調査レポートを作成します。

95%の信頼水準でサンプルテストを実施し、価格の分布を視覚的に検査すると言うことになります。ほぼ正常であれば検査を実施します。

R Notebook を使って研究をコミュニケーションする – パート 2

仮説とメソッドを保存した後、 [プレビュー]タブからそれらをHTML ファイル、PDF ドキュメント、またはWord ドキュメントとしてレンダリングできます。

R Notebook を使って研究をコミュニケーションする – パート 2

これを HTML として送信すると、レンダーボックスに表示される内容が表示されます。

R Notebook を使って研究をコミュニケーションする – パート 2

ここには出力が作成されたことが示されているので、ファイルエクスプローラーに移動してこれを確認してみましょう。これを HTML ファイルで開くと、[プレビュー] ボタンで表示したものとよく似ていることがわかります。

R Notebook を使って研究をコミュニケーションする – パート 2

現時点ではエラーメッセージは表示されず、カスタマイズの余地もあります。これらのツールとR MarkdownおよびR Notebooksを使用して、本や Web サイト全体を作成することもできます。

スクリプトに戻って作業を続けましょう。使用した方法と結果を書き留めます。私たちは基本的に計画をオープンソース化しており、何が定着するかを確認するためだけに物事を壁に突きつけているわけではないことを明確にしています。データにアクセスするときに即興で作っているわけではありません。実は計画があるのです。

いろいろなことを試してみることにはメリットもありますよね？しかし、このアプローチでは、私たちは意図的に「これをやります、そしてそれを実行します」と言っています。

R Notebook を使って研究をコミュニケーションする – パート 2

R Notebook での記述統計の作業

記述統計を行ってみましょう。CD-ROM ありとなしの各グループの価格を調べたいと思います。これを行うにはいくつかの方法があります。このグループを summaryと呼び、このパイプ演算子を導入します。パイプ演算子に詳しくない場合は、前に説明したリソースを確認してください。

次に、レコードを集計してカウントし、平均価格 = 平均価格を見つけます。最後に、このグループの概要を印刷して実行します。

R Notebook を使って研究をコミュニケーションする – パート 2

さあ、いくぞ。これでテーブルが完成しました。

R Notebook を使って研究をコミュニケーションする – パート 2

前に述べたように、各グループに観測値がいくつあるか、平均価格がいくらかを知りたいのです。インライン参照を使用すると、これを完全に動的にすることができます。

グループの要約を実行し、tidyverse操作を使用します。この行をフィルタリングし、これらの値の 1 つを取得して、ここでのインライン参照で実際にレンダリングされるものに変換します。

R Notebook を使って研究をコミュニケーションする – パート 2

保存後、「ノートブックのプレビュー」に移動して結果を確認します。

R Notebook を使って研究をコミュニケーションする – パート 2

R Notebook でのビジュアライゼーションの構築

R は視覚化機能で非常によく知られています。視覚化にはggplot を使用します。価格を X 軸に配置して、ヒストグラムを作成します。また、ファセットの小さな倍数も作成します。これは、実際にはggplotで非常に簡単に行うことができます。

R Notebook を使って研究をコミュニケーションする – パート 2

ここでは、タイトル、背景、色など、多くのことを変更できます。これを保存すると、プロットが表示されます。これは現時点ではインタラクティブではありませんが、R でインタラクティブにする方法はたくさんあります。この例では、静的なプロットだけを実行します。

R Notebook を使って研究をコミュニケーションする – パート 2

結果は釣鐘曲線分布のようなものを示しています。これは、分析を続行する必要があることを意味します。

T 検定の結果を実行し、レポートに組み込みます。別の R チャンクを追加し、それをcd_testと呼びます。これを今実行すると、結果には多くの情報が含まれるため、そこから個々の要素を取り出すのは非常に困難になります。

これを表形式にまとめるために、tidy 関数を使用します。cd_testをきちんと実行すると、すべてが適切なテーブル構造に変わります。これを印刷して実際にレポートに表示することもできます。

R Notebook を使って研究をコミュニケーションする – パート 2

もう 1 つできることは、信頼区間の下限値と上限値を見つけることです。これは単なる演出なので、この部分は見せたくないのです。

R Notebook を使って研究をコミュニケーションする – パート 2

全体として、これはライブで動的なドキュメントのように見え、個々のデータポイントやテーブルをコピーしてレポートに貼り付けるよりもはるかに優れています。これを同僚に送信できます。理想的には、同僚は「プレビュー」をクリックするだけで、あなたが何をしたかを知り、これを基に構築できるようになります。

結論で終わる

レポートも終わりに近づいてきたので、結論を書きます。

R Notebook を使って研究をコミュニケーションする – パート 2

リソースを示す付録をここに含めることもできます。付録があることの良い点は、これを誰かに提示したり見せたりしたときに、データソースが誰なのか、または何かがどのように測定されたのかを尋ねられることです。これらはすべて有効な質問であり、リソースが記載された付録があると、付録を指すだけで済むため、非常に役立ちます。

R Notebook を使って研究をコミュニケーションする – パート 2

画像を含めたり、代替テキストを使用したりすることもできます。これは、画像が何を示しているかを基本的に説明するための良い習慣です。HTML ユーザーの場合は、HTML を使用してこの画像を埋め込むことができます。

R Notebook を使って研究をコミュニケーションする – パート 2

結論

このチュートリアルでは、実際にレポート全体を調べました。これは非常に大まかなドラフトですが、R Markdown を使用して調査レポートの構造を作成することができました。

私たちは、すべてが文書化される再現性について話すことから始めました。R Markdown とこのフレームワークを使用して、Web サイト、書籍、ブログなどを作成できます。アナリストとして構築する必要があるほとんどすべての種類の製品は、RStudio を使用して作成できます。

さらに詳しく知りたい場合は、私の著書『Advancing into Analytics』を参照してください。これは、Excel、Python、R を使用したデータ分析と統計分析の優れた基本的な入門書です。Power BI ユーザー向けの Rに関するコースも用意しています。いつかこのシリーズの 3 番目のコースも登場するかもしれません。

R Notebook を使って研究をコミュニケーションする – パート 2