データの種類

臨床試験で扱うデータは多岐にわたり,そのデータの特性によって解析手法や検定手法が異なります。まずはそのデータがどのような特性を持っているかを理解しましょう。

 

連続データ

連続データとは,身長や体重のように,精度の高い測定法によればいくらでも正確な値が得られるデータのことです。実際は離散量であるが連続量として取り扱ってもかまわないようなものもあります(例えば,試験の点数など)。このようなデータに対しては,平均値や分散などの要約統計量を算出するのが望ましいです。

 

カテゴリカルデータ

カテゴリカルデータとしては,性別などが挙げられます。これは数値化できず,若しくは,数値化したとしてもその数字の間隔に意味がないもののデータである。また連続量であっても,ある閾値を設定し,その閾値以上/未満で分けた時もカテゴリカルデータになります。このようなデータに対しては,各カテゴリの度数やその割合を算出するのが望ましいです。

 

生存時間データ

がん領域を知っている方であれば,恐らく知っているデータだと思いますが,それ以外の方はあまりなじみがないかもしれません。このデータは,ある基準の時刻からある目的の反応(観測対象となる個体に,一度だけ起きる事象だとします)が起きるまでの時間を解析対象としたいときがあります。例えば,ある時点からがんが再発するまでの時間などが挙げられます。また,骨粗鬆症領域であれば,ある時点から腰椎が骨折するまでの時間,というのも解析対象になることがあります。このようなデータに対しては,生存時間解析という手法がとられます。生存時間データについてユニークなのは,「打ち切り(Censor)」という概念があるということです。これはまた生存時間解析のところで説明します。

 

カウントデータ

これはあまりなじみがないかもしれません。生存時間データの目的の反応は,観測対象となる個体に,一度だけ起きる事象だとしました。しかし,データによっては,複数回起きる事象もあるかもしれません。例えば,血友病という病気は血が固まりにくく出血が起こりやすい病気なのですが,出血というのはその人に一度だけ起きるとは限らず,1年間に10回など,複数回起こりえます。そのような場合に,この出血回数をカウントデータと呼ぶことがあります。もちろん連続データとして扱うことも可能なのですが,カウントデータの性質として「観察期間に応じて回数は増える」という性質があるため,観察した期間を考慮して解析をしなければなりません。また,このデータは,もし「初めての出血までの時間」というものに興味があるとき,生存時間データとして扱う必要があります。



data-ad-client="ca-pub-8866234902868600"
data-ad-slot="5243035170"
data-ad-format="auto">



HOME プロフィール お問い合わせ