Propensity score matchingやら操作変数法やら色んな統計手法を学びますが、結局使うのは回帰モデルが一番多い気がします。ちょうど同期で勉強会している「JAMA Guide to Statistics and Methods」ロジスティック回帰についての記事があったので読みながら勉強してみました。
whiteboard_up_man2
https://jamanetwork.com/journals/jama/fullarticle/2540383

<回帰(regression)とは?>
・手持ちのデータを用いて「ある1つのアウトカム(従属変数、目的変数)を1つ〜複数の暴露因子(独立変数、説明変数)から回帰(逆算・予測)する」こと。

<回帰モデルを使う際の目的>
・ある曝露因子とアウトカムの関係を検討したい
・複数の曝露因子とアウトカムの関係を検討したい
・アウトカムの予測をしたい

<回帰モデルの種類>
線形回帰モデル(Linear regression model)連続変数(Hb、年収)

☆ y=β0+β1X1+β2X2+β3X3・・・+βnXn

ロジスティク回帰モデル(Logistic Regression)2値のアウトカムについて2値やカテゴリーの独立変数などで用いられる。各予測因子について計算された重みまたは係数により、その予測因子の1単位の変化に関連した転帰、または基準に対する患者の状態(例えば、頻呼吸)に関連した転帰のオッズ比が計算される。各予測因子のoutcomeに与える影響とその不確実性(95%CI)がわかる。多因子をモデルに入れることで交絡調整もできる

下の計算式のpはアウトカム発生の予測確率。下のβnがオッズ比として見ているもの

☆ log[p/1-p]=β0+β1X1+β2X2+β3X3・・・+βnXn p/1-p=e(β0+β1X1+β2X2+β3X3・・・+βnXn)=eβ0eβ1x1eβ2x2+eβ3x3・・eβnXn

・ポアソン回帰モデル:生存時間を考慮
・Cox回帰モデル:生存時間を考慮

<回帰モデルで知っておくべきこと>
・E[Y|A,L]=β0+β1A+β2Lという式を考えると、Lの条件付け(Lの値が同じ集団を見る)に基づく。β1はconditional effect. 効果の推定値が1つしか出ないのはA*Lなどをモデルから除去し、AがLの値で変わらない。その仮定のもとでCongitional=Editional. 

・回帰モデルの妥当性は,測定された独立予測変数の数と適合性に依存する。予測変数はそれぞれ独立していなければいけない。例えば2つの関連する因子(乳酸とアニオンギャップなど、collinearity:共線性という)をモデルに入れてしまうと重大な誤差や不確実性を生んでしまう。

・変数カテゴリー(年齢など)はそれぞれ一定の関連性の大きさを持っていなければいけない。

・計算されるのはオッズ比であり、そのprobabilityが高い場合は相対危険度と差が生まれてしまう(10%を超える当たりで問題になる)。