2025年– date –
-
データ加工
連続データのカットオフ値の問題点:なぜ安易に区切ってはいけないのか
血圧を「高血圧」と「正常」に区切る130mmHgの壁、優良顧客と一般顧客を分ける100万円の売上ライン――私たちは連続的なデータを、わかりやすくするために特定のカットオフ値で二分しがちである。この単純化は、一見すると意思決定を迅速にする便利なツール... -
オッズ比
オッズ比とリスク比の違いを徹底解説
疫学研究や医療統計の論文には、「オッズ比(Odds Ratio: OR)」と「リスク比(Risk Ratio: RR)」、すなわち「相対危険(Relative Risk: RR)」が頻繁に登場する。これらはどちらも「ある要因が疾病や事象の発生にどれくらい影響するか」を示す指標である... -
交絡因子
交絡因子調整とは何か:初心者でもわかるデータ分析の基本
「あの薬を飲んだ者は、飲まなかった者より病気が治る割合が高い」――このような研究結果を聞いたとき、あなたは素直に「その薬が効いたのだ!」と信じるだろうか。 実は、データの世界では、二つの事象(例:薬の服用と病気の回復)の間に見かけ上の関連が... -
交絡因子
説明変数の選び方:統制すべき共変量に関するまとめ
統計的分析、特に「ある行動(処置)が、どのような結果(アウトカム)をもたらすか」を知りたい因果推論を行う際、どの変数をモデルに入れるか(=説明変数として統制するか)は非常に重要である。 間違った変数を選んでしまうと、せっかくの分析が台無し... -
欠損値・欠測値
データの「見えない値」をどう扱う?検出限界以下(ND)の値の正しい対処法
実験や分析でデータを得た際、「検出限界以下(Not Detected: ND)」という結果に直面したことがあるだろう。これは、物質が存在する可能性はあっても、測定機器では捉えられなかったことを意味する。 これらの「見えない値」を無視して「0」と入力したり... -
IPTW 逆確率重み付け
IPTWを用いた回帰モデル:なぜ標準誤差の推定がそんなに重要なのか?
因果推論の分野では、観察研究からバイアスの少ない効果を推定するために様々な手法が用いられる。その中でも、Inverse Probability of Treatment Weighting(IPTW)は、共変量の不均衡を調整し、治療群と対照群を「比較可能」にする強力なツールである。I... -
IPTW 逆確率重み付け
Rで作成するIPTWベースラインサマリー表:tableone とその他関数を使いこなす
疫学研究や臨床研究において、観察研究で因果推論を行う際には、治療群間の共変量バランスが取れていないことが大きな課題となる。この課題を解決するための強力な手法の一つが、IPTW (Inverse Probability of Treatment Weighting) である。IPTWを用いる... -
IPTW 逆確率重み付け
逆確率重み付け(IPTW)を用いた治療効果の推定:因果推論の基本と実践
「あの治療を受けていたら、どうなっていたのだろう?」多くの人が一度は抱く疑問だろう。医学研究や社会科学において、特定の介入(治療、政策、プログラムなど)がもたらす効果を正確に知ることは非常に重要である。しかし、現実の世界では、誰がどの介... -
ロバスト推定
回帰分析におけるロバスト推定法:外れ値に強いモデルを構築する
回帰分析は、変数間の関係性を明らかにする強力な統計ツールである。しかし、データの中に「外れ値」と呼ばれる特異な値が存在する場合、通常の最小二乗法では分析結果が大きく歪められてしまうことがある。このような問題を解決し、より信頼性の高いモデ... -
ロバスト分散
不均一分散とその対処法:統計モデリングをより頑健にするために
統計モデリングを行う際、データの「分散」が均一であるという仮定を置くことがよくある。しかし、現実のデータではこの仮定が成り立たない、つまり「不均一分散」を示すケースが少なくない。不均一分散は、統計的推論の信頼性を損なう可能性があり、適切...
