【Rで統計解析】初心者でも簡単に論文用の解析ができる?他のソフトとの比較も!

Rで統計解析を実施するブログ記事

臨床研究のために統計解析を自分で実施したいとなったときに、どのソフトウェアを使用するか悩みますよね。

その中でも無料で使える統計ソフトとしてRが有名だと思います。

しかし、Rだと自分で解析用のコードを書かなければいけないのが難点で、なかなか手を出しづらい方も多いのではないでしょうか。

実は、Rを使えば初心者の方でも基本的な解析手法なら簡単に実装できてしまいます。

この記事では、他のソフトウェアと比較した場合のRの特徴に触れつつ、臨床研究でよく使われる生存時間解析の簡単な実装方法について紹介したいと思います。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

目次

統計解析ソフト:Rの特徴とメリットは?

臨床研究をはじめ、統計解析ツールの中でRは最も代表的なソフトウェアの1つです。

Rの特徴として、

  • 誰でも無料で使える
  • 膨大な数のパッケージ(代表的な解析を実行するためのオプション)がある
  • グラフィカルな表示機能に優れているため、探索的な解析がしやすい
  • 利用者が多く、がインターネットや書籍で豊富な教材やQ&Aを見つけられる

などが挙げられます。それぞれの特徴を詳しく解説します。

誰でも無料で使える

Rの最大の特徴は、誰でも無料で利用できる点です。

また、世界中の研究者や開発者がRの機能アップデートに貢献しています。

実際に、最新の技術や手法が使えるようにパッケージ(解析手法が簡単に実行できるようになるプログラム)が開発・更新されています。

そのため、Rを使えば手軽に最新の統計解析手法を利用できるという大きなメリットがあります。

膨大な数のパッケージがある

臨床研究では、生存分析や回帰分析、ロジスティック回帰などの基本的な解析手法がよく使われます。

また、検討したい仮説やデータの特徴によっては、プロペンシティスコアを用いた解析、多重比較、メタアナリシスなど最先端の専門的な解析手法も必要になります。

Rのパッケージを利用すれば、これらの解析をとても簡単に実施することができます。

グラフィカルな表示機能に優れている

Rはグラフィカルな表示機能が充実しているため、データの視覚化が非常に得意なソフトウェアと言えます。

特に臨床研究では、結果を分かりやすく伝えるための視覚化は非常に重要です。

Rを使えば、論文や学会発表用の綺麗な図表を作成することができます。

Rを他の統計解析ソフトと比較すると…?

Rは無料で利用できる一方、商用ソフトウェアと同等以上の機能を持っています。

つまり、他の統計ソフトウェアと比べてコストパフォーマンスが非常に高いです。

さらに、Rはプログラミング言語としても柔軟性が高く、カスタマイズや自動化が容易です。

R以外によく使われる統計解析ソフトやプログラミングとして以下のようなものがあります。

  • SAS
  • SPSS
  • JMP
  • STATA
  • Python

Rと比べた「それぞれのソフトウェアのメリットやデメリット」を次の表にまとめました。

ソフトウェア・プログラミングRと比べたメリットRと比べたデメリット
SAS・商用ライセンスとしてのサポートが充実していて、信頼性が高い・毎年のライセンス料が高額であり、予算的に負担になる
SPSS・操作性が高く、統計解析の経験が少ない方にとっても親しみやすい・高度な統計手法を使うためには費用が追加で必要になる
JMP・プログラミングなしで直感的な操作で解析ができる・商用ソフトの中では安価とは言え、サブスク型で10万円/年間 程度の費用が必要
STATA・解析のためのプログラミングが比較的簡単で扱いやすい・商用ソフトの中では安価だが、最新の機能を使うためにはサブスクに加入する必要がある
Python・汎用的なプログラミング言語であり、データ解析以外にも幅広い用途に使用できる・Rと比べると本格的なプログラミング言語であり、習得に時間がかかる

商用ソフトは概ね高額で、最新バージョンを常に使おうと思うとサブスクリプション(年間契約)で更新していく必要があることが大きなデメリットです。

Rは拡張ソフトウェアであるEZRやRstudioも含めて全て無料で使えるのが強みです。

Pythonも同様に無料で使用できますが、本格的なプログラミングの習得が必要になることがネックです。

>>もう統計で悩むのは終わりにしませんか? 

↑1万人以上の医療従事者が購読中

Rを使った統計解析のはじめ方

Rを使った統計解析のはじめ方について説明します。

Rのインストール方法

Rのインストールは非常に簡単です。

まず、Rの公式ウェブサイトから最新バージョンをダウンロードします。

公式サイトでOS(Windows/Mac/Linux)に合ったインストーラーをダウンロードしたら、指示に従ってインストールを進めます。

公式サイト> R: The R Project for Statistical Computing (r-project.org)

また、後の使い勝手を考えると、Rをより便利に使うことができるようになるRstudioもインストールしておくことをオススメします。

RやRstudioの導入方法は以下の記事で詳細に説明していますので、参考にしてみてください。

基本的なRの使い方

RとRstudioの基本的な使い方は同じで、以下の手順に沿って必要な図表を作成していきます。

  1. データを読み込む
  2. データを加工して統計解析の準備をする
  3. 要約指標を計算したり、統計モデルにデータをあてはめたりする
  4. 解析結果を表示したり図示したりする

これらの操作は、全てR上で完結できます。

Rstudioを使った簡単な要約指標の計算方法やデータの読み込み方は以下の記事で解説しています。

Rを使えば臨床研究の基本的な統計解析は簡単!

臨床研究でよく使われる生存時間解析の手法について、実例データを用いて説明します。

ここでは、”survival"という生存時間解析のための基本的なパッケージに含まれている臨床試験データを使用します。


このsurvivalパッケージを読み込むと、サンプルデータとしてlungという進行肺がん患者のデータセットが使えるようになります。

このデータセットには、肺がん患者の年齢、性別、治療方法、生存期間(打ち切りデータを含む)などの情報が含まれています。

カプランマイヤー法

カプラン・マイヤー法は、生存データを視覚化するために使用される手法です。性別ごとに生存曲線を作成してみましょう。

次のような図が出力されれば成功です。論文用の図表としてはもう少し体裁を整えたいところですが、実験的(探索的)な解析としてデータの評価を行うには十分ですね。

コックス比例ハザードモデル

コックス比例ハザードモデルは、共変量の影響を考慮しながら生存データを解析するための手法です。

コックス比例ハザードモデルを使用して、年齢と性別が生存期間に与える影響を評価してみましょう。

この結果から、lungデータにおいては生存時間と性別の間に何らかの関係性があることが示唆されそうです。

(*研究仮説や研究デザイン、その他さまざまな要因で結果の解釈は異なりますので、あくまで一例として捉えていただければと思います。)

このように、臨床研究で代表的な生存時間解析も、Rのsurvivalパッケージを使えば簡単に実行できます。

他には、以下の表に記載する代表的な解析手法はパッケージを追加で読み込まなくても、Rを起動したらすぐに使用できます。

解析手法関数
t検定、wilcoxon検定t.test(x,y)
wilcox.test(x,y)
線形回帰モデル(最小二乗法)lm(y~x)
ANOVAaov(y~x)
ロジスティック回帰モデルglm(y~x, family=”binomial)

まとめ

この記事では、他のソフトウェアと比較した場合のRの特徴に触れつつ、臨床研究でよく使われる生存時間解析の簡単な実装方法について紹介しました。

Rで統計解析をする場合には自分でコーディングする必要がありますが、意外と短いプログラムで代表的な解析手法が実行できることがわかって頂けたのではないでしょうか。

他にも色々な機能や統計手法が使用できますので、公式ドキュメントやヘルプ画面、オンライン上の解説記事などを参考にしつつ、よく使う解析手法を習得してみてください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

リサーチクエスチョン探し?データ分析?論文投稿?、、、で、もう悩まない!

第1章臨床研究ではなぜ統計が必要なのか?計画することの重要性
  • 推定ってどんなことをしているの?
  • 臨床研究を計画するってどういうこと?
  • どうにかして標本平均を母平均に近づけられないか?
第2章:研究目的をどれだけ明確にできるのかが重要
  • データさえあれば解析でどうにかなる、という考え方は間違い
  • 何を明らかにしたいのか? という研究目的が重要
  • 研究目的は4種類に分けられる
  • 統計専門家に相談する上でも研究目的とPICOを明確化しておく
第3章:p値で結果が左右される時代は終わりました
  • アメリカ統計協会(ASA)のp値に関する声明で指摘されていること
  • そうは言っても、本当に有意差がなくてもいいの…?
  • なぜ統計専門家はp値を重要視していないのか
  • 有意差がない時に「有意な傾向があった」といってもいい?
  • 統計を放置してしまうと非常にまずい
第4章:多くの人が統計を苦手にする理由
  • 残念ながら、セミナー受講だけで統計は使えません。
  • インプットだけで統計が使えない理由
  • どうやったら統計の判断力が鍛えられるか?
  • 統計は手段なので正解がないため、最適解を判断する力が必要
第5章:統計を使えるようになるために今日から何をすれば良いか?
  • 論文を読んで統計が使えるようになるための5ステップ
第6章:統計を学ぶために重要な環境
  • 統計の3つの力をバランスよく構築する環境

以下のボタンをクリックして、画面に出てくる指示に従って、必要事項を記入してください。

コメント

コメントする

目次