この記事は、次のような悩みを持つ方向けです。
「Rを使ってみたいけど、どうやって解析すればいいかわからない…」
「RStudioをインストールしてみたけど、操作方法がさっぱりわからない…」
この記事では、Rをより使いやすくするソフトウェア「RStudio」を使って、統計解析のための基本的な操作や使い方が習得できるようになることを目標に解説します。
「RとRstudioとEZRは何が違うの?」
RとEZRの違いは何?臨床研究のデータ解析におけるRのススメ
「Rstudioって何?どうすれば使えるようになるの?」
R studioのインストール・ダウンロードから初期設定まで(Mac対応)
R Studioの基本的な使い方
RStudioは非常に便利な統計ソフトウェアであり、その基本的な使い方をマスターすることで、データ分析を効率的に行うことができます。
まずは、RStudioの画面の見方やコードの書き方から解説します。
R Studioの画面の見方
RStudioは、次のように複数のパネルで構成されています。
左上:スクリプト(プログラム)を書くためのエディタがあります。ショートカットキーを使えば、ここから直接プログラムを実行することも可能です。
右上:履歴などが表示されます。
左下:コンソールがあり、ここでRコマンドを直接実行することができます。
右下:図の表示、パッケージの管理、ヘルプの閲覧などができるパネルがあります。
複数のパネルを見ながら解析をすることで、効率的に作業を進めることができます。
例えばRstudioで図を描く場合には、
- 左上のパネルで解析プログラムを書いて実行ボタンを押す
- (自動的に)左下のパネルでプログラムが実行される
- (自動的に)右上のパネルにはどこまでプログラムを実行したか表示される
- (自動的に)右下のパネルに図が表示され、マウスクリックで図の保存ができる
といった具合に、一つのウインドウで全てが完結します。
試しに、左上のエディタに次のプログラムをコピーペーストして実行してみましょう。
#正規分布に従うデータをランダムに出してヒストグラムを描く
hist(rnorm(100))
プログラムを実行する方法は3つありますが、おすすめは方法2や方法3で、ショートカットキーに慣れておくと便利です。
方法1:画面上の「Run」ボタン(下図の赤い枠部分)を押す
方法2:ショートカットキーを押してプログラム全体を実行
WindowsだとCtrl + Shift + Enter、MacだとCmd + Shift + Enter
(*Ctrl + AやCmd + Aでプログラム全体を選択状態にして方法3でも可)
方法3:ショートカットキーを押してエディタにカーソルがあるブロックを実行
WindowsだとCtrl + Enter、MacだとCmd + Enter
プログラムを実行して、次のような画面が表示されれば成功です。
また、それぞれのパネルの大きさはパネルの境界をマウスでクリックして好きな方向にドラッグすれば、パネルサイズが簡単に変えられます。
例えば、プログラムを書くのに集中したい時は左上のパネルを大きく、図をしっかり確認したい時は右下のパネルを大きく表示するなど、自由に変更できます。
スクリプト(プログラム)の書き方と実行
RStudioのスクリプトは左下のConsoleに直接入力して実行することも可能ですが、左上のエディタに入力して実行する方がおすすめです。
書き間違いによるエラーやプログラムの微修正・保存が容易になるためです。
スクリプト中の記号や数字は基本的に半角英数字で書きます。
シャープ記号(#)のある行はコメント扱いとなり、実行しても文字列が表示されるだけですので、自身で書いたプログラムの意味や意図などをメモしておくために使いましょう。
例えば、下の図のプログラムを見てみましょう。
“x=2+3″という2行目の初めに”#”がある場合にはただのコメント行とみなされるため、”x”が定義されず、”print(x)”としてもエラーが返ってきてしまいます。
5行目では”#”がなく、”x”に2+3を代入しているため、”print(x)”とすると計算結果の”5″がきちんと返ってきます。
簡単な数式で計算を実行してみよう
以下のように簡単な計算を手入力でエディタに書いてみて、それぞれの結果を予想しながら実行してみましょう。
RやRStudioに慣れるまではコピーペーストだけに頼らず、自分の手でプログラムを書いて実行する練習も必要です。
#xとyにそれぞれ5と2を代入
#通常の代入は「=」でも「<-」でも同じ
x = 5
y <- 2
#値の確認
x
y
#四則演算
x+y
x-y
x*y
x/y
#xのy乗など
x^y
x^2-y^2
(x+y)*(x-y)
R Studioでデータを読み込んで集計する方法
データのインポート(読み込み)
RStudioでは、様々な形式のデータをインポートすることができます。
例えば、CSVファイルやExcelファイルの他に、SPSSやSAS、STATAなどのソフトウェアで作成したデータも読み込むことが可能です。
これにより、解析結果を呼び出したり、他のソフトウェアとのデータのやり取りが簡単になったりします。
ここでは、CSVファイルを読み込んでみましょう。
ご自身のPCにあるデータを読み込む場合は、ファイルが保存されている場所を確認しましょう。
データが手元にない場合には、次のサンプルデータをダウンロードして、デスクトップなど適当な場所にファイルを保存してください。
RでCSVファイルを読み込むには、Rのread.csv関数を使用します。
以下に、デスクトップに保存したsample.csvファイルを読み込む方法を示します。
Windowsの場合:
Windowsでは、ファイルパスにバックスラッシュ(\
)を使用しますが、Rではバックスラッシュがエスケープ文字として解釈されるため、バックスラッシュを2つ重ねる(\\
)か、スラッシュ(/
)を使用します。
###デスクトップにあるsample.csvファイルを読み込む方法(Windowsの場合)###
# バックスラッシュを2つ重ねる方法
dat = read.csv("C:\\Users\\YourUsername\\Desktop\\sample.csv")
# スラッシュを使用する方法
dat = read.csv("C:/Users/YourUsername/Desktop/sample.csv")
###YourUsername はあなたのWindowsのユーザー名に置き換えてください。###
Macの場合:
Macでは、ファイルパスにスラッシュ(/
)を使用します。
###デスクトップにあるsample.csvファイルを読み込む方法(Macの場合)###
dat = read.csv("/Users/YourUsername/Desktop/sample.csv")
###ここでも YourUsername はあなたのMacのユーザー名に置き換えてください。
注意点:
- 上記のパスはあくまで一例です。実際のユーザー名やファイルが保存されている場所に応じて適宜変更する必要があります。
- ファイルパスを正しく指定しないと、
No such file or directory
のようなエラーが発生します。
データセットの操作と基本的な統計
読み込んだデータの中身を確認してみましょう。
###datに格納されたデータの概要を掴む
#datが何行何列のデータか確認
dim(dat)
#datの先頭数行をチェック
head(dat)
#datを要約してみる
summary(dat)
以下のように表示されれば成功です。
最後のsummary()もRの標準的な関数で、最小・最大値、四分位点、平均値などを列ごとに算出してくれます。
sample.csvは30行3列のデータで、1列目に通し番号、2・3列目に何かしらの値が格納されていて、value2はvalue1よりも全体的に大きい傾向があるようですね。
特定の行や列の値を取り出したい時は、番号やラベル名で指定することができます。
###datに格納されたデータの一部を抜き出す
#1行目の人のデータを表示
dat[1,]
#2列目にあるvalue1をval1として取り出す
val1 = data[,2]
#value2というラベル名のデータをval2として取り出す
val2 = data[,"value2"]
#それぞれのデータの中身を確認してみる
print(val1)
print(val2)
まとめ
この記事では、Rstudioのの基本的な操作方法について解説しました。
簡単なプログラムであっという間に要約統計量の算出やヒストグラムの描画ができるので、ぜひRStudioを使って色々な図表を作成してみましょう。
コメント