統計解析において、同じ意味合いで、違う呼び名が存在する
それらを列挙して、整理したい
目的変数
研究の目的の項目、事項、事象、アウトカム、エンドポイントを測定、観測したデータのこと
ほぼ同じ意味合いの言葉
従属変数、応答変数、アウトカム、エンドポイント
説明変数
目的変数を説明する、予測する、区別する、群分けする、もしくは、目的変数に関連する、関係するデータのこと
ほぼ同じ意味合いの言葉
独立変数、予測変数、予測因子、関連要因、関連因子、交絡因子、共変量
連続データ
精密に測定すれば、どこまでも詳細に測定できて、連続していると考えて差し支えないデータのこと
ほぼ同じ意味合いの言葉
連続量、連続変数、比尺度、比例尺度、間隔尺度、スケール、数値型、数値型データ、計量データ
※ 間隔尺度は、連続していないデータで、かつ、何倍という計算はできないが、連続データとして扱うことは可能であり、実際行われている
カテゴリカルデータ
分類を表すラベルデータで、順序がある場合も含まれるし、二値の場合も含まれる
ほぼ同じ意味合いの言葉
カテゴリカル変数、カテゴリデータ、カテゴリ変数、名義変数、名義尺度、順序変数、順序尺度、因子型、因子型データ、離散型データ、計数データ
※ 順序がある場合は、順序カテゴリカルデータというように、敢えて順序を付けるときもある
※ カテゴリは、連続ではなく、離れているので、「離散」と呼ばれる
二値カテゴリカルデータ
疾患発症などのイベントあり・なしを表す二値データ
二値 も 2 値も同じであるし、二項 も 2 項も、二値と同じ
ほぼ同じ意味合いの言葉
二値カテゴリデータ、二値変数、二項変数、イベントデータ、イベント変数、因子型、因子型データ
※ 単にカテゴリカルデータ、カテゴリデータ、カテゴリカル変数、カテゴリ変数、と呼ぶこともあるので注意
生存時間データ
死亡イベントが発生するまでの時間データと、その時間に死亡イベントが起きたのか、観察終了(打ち切り)なのかを示す、二値カテゴリカルデータのセットで構成される
死亡ではなく、発症、発生、発現、再発、増悪、罹患、診断、などもイベントとして捉え、同様に扱える
ほぼ同じ意味合いの言葉
生存期間データ、イベント時間データ、Time to Event データ、時間変数+状態変数の組み合わせ
カウントデータ
個数、発生回数、など、数を数える、カウントした結果を表すデータ
ほぼ同じ意味合いの言葉
計数データ、離散変数、離散型、離散型データ
※ カウントは、小数の回数や個数はなく、連続ではなく離れているので、「離散」と呼ばれる
まとめ
統計解析の話題、会話、文章、記述、記事、記載、などにおける、各種変数について、ほぼ同じ意味合いで違った呼び方をしている名称を列挙して、整理してみた
厳密な定義という点では、違う言葉も同じとして分類しているが、統計解析の計算、もっと言えばソフトウェアにおける変数の指定という観点では、この分類で考えていて、まず間違いない
逆に、このようにいろいろな呼び方をしているがたいした違いはなく、同じととらえてよいものがたくさんあることを知らないと、困ってしまう場面(会話、記述、ソフトウェア操作)が多々ある
何らか参考になれば幸い
コメント