Logistic 回歸是一種廣泛使用的統計模型。在實際應用中,有很多研究者往往忽視 Logistic 回歸對樣本量的要求,或者憑“納入的研究對象人數充分”草草帶過樣本量問題,這些做法使主要影響因素與結局間關系的探索未能結合研究設計階段對兩類錯誤的設定。下面介紹三種 Logistic 回歸樣本量計算方法,并輔以實例說明,幫助研究者合理完成研究的設計與實施。Logistic 回歸(logistic regression)模型被廣泛應用于各學科領域,如醫學、社會科學、機器學習等,主要適用于因變量是分類變量的情況,尤其當因變量屬于 0?1 變量。該模型采用的參數估計方法是 極 大 似 然 估 計(maximum likelihood estimate,MLE),這就需要足夠的樣本量來保證參數估計的準確性,而樣本量的估計又是常常困擾研究者的一個問題,以下將匯總二分類 Logistic 回歸分析中幾種常用的樣本量確定方法。
目 前 廣 泛 使 用 的 方 法 是 EPV(events pervariable)的方法,即
每個自變量的事件數,其中事件表示因變量中個數較少的那一類
。
例如調查胃癌發病與 3 種生活因素(X1代表不良飲食習慣,X2 代表喜吃鹵食和鹽漬食物,X3 代表精神狀況)的關系,若胃癌患者占的比例為20%,那么當假EPV=10 時,由于有 3 個協變量,所以所需胃癌患者例數為10×3=30,總共需要的樣本量(胃癌患者和健康對照)為 30÷20%=150 例。
當 EPV過少時,容易出現分離(separation)現象。
此現象出現在自變量若大于某個常數,變量則僅與一個自變量相關聯。
例如當 X 為連續型變量時,若X≤0 時,有 Y 恒為 1,則出現完全分離(complete separation)現象,此時參數估計無法收斂,得不到回歸系數的估計值。
另一情形是,當X<0,Y恒為1,但當X=0時Y兼有觀察值0和1,這時會出現擬完全分離(quasi? complete separation)現象,此時極大似然估計值異常大。
統計學模擬研究表明,在 Logistic 回歸中推薦的經驗準則是 EPV 至少為 10,才能保證結果穩健。
另外一個比較常用的經驗準則是樣本量為協變量個數的 10~15 倍。
具體應用時可以綜合考慮兩種經驗準則。
Whittemore 1981
年提出了罕見事件 Logistic 回歸樣本量估算公式,隨后Hsieh 對 Whittemore的公式進行了擴展,在1998年提出了一個便于一般應用者實施的簡單方法。建議借用樣本均值比較和樣本頻率比較的樣本含量計算公式來估算單因素Logistic回歸所需的樣本量,再用方差膨脹因子對其修正便得到多因素Logistic回歸所需的樣本量。單因素 Logistic 回歸中,當 X 為連續型變量并且服從正態分布時,樣本量的計算公式為:
式(1)中 p1為 X 取均值條件下 Y = 1 發生的頻率,b 為要度量的效應大小,亦即 X 所對應回歸系數的估計值。
式(2)中p為總的陽性結局發生頻率,B為X=1的個體在總觀察人數中所占的比例(流行病學研究中對應于暴露比例),p0和 p1分別為 X=0 和 X=1時的陽性結局發生頻率。
多因素Logistic回歸樣本量計算公式為:
式(3)中的 R12,234…p 就是以最主要的暴露因素X1為因變量,X2,……,Xp為自變量做線性回歸得到的決定系數 R2,n1為單因素 Logistic 回歸所需的樣本量。其實,1/(1 - R12,234…p) 被統計學家定義為一個重要參數 ——方差膨脹因子(variance inflationfactor,VIF),故多因素Logistic回歸的樣本量即為最主要的暴露因素所對應單因素 Logistic 回歸所需的樣本量n1乘以該因素對應的方差膨脹因子VIF。
實例1 某課題組擬探索非甾體抗炎藥相關上消化道出血是否與吸煙之間存在關系,現計算研究所需樣本量。假設α=0.05(雙側),β=0.10(單側)。
根據該課題組的回顧性分析,已知 B=0.48,p0 =0.43,p1=0.58,p=0.50,Z1?α/2 =1.96,Z1?β=1.28,代入公式(2)可得n≈464。
實例 2 假設在實例 1 中除了吸煙因素外,還考慮飲酒、冠心病史、慢性胃炎史等可能影響上消化道出血的因素,在這里我們最關心的暴露因素為是否吸煙,并且已知吸煙與上述因素(自變量)之 間 的 R2 為 0.07,則 根 據 公 式(3)可 得 多 因 素Logistic回歸所需樣本量為n ≈499。
通過商業軟件PASS11完成Logistic 回歸樣本量的估算
【PASS】
EPV 通常被認為是Logistic回歸模型中參數估計效果的主要決定因素,在估算樣本量時往往被格外重視。但是影響Logistic回歸模型中參數估計效果的因素有很多,比如因變量與自變量之間關系的強度、自變量之間的相關性(即共線性)等,van Smeden等認為對每個自變量EPV取10作為二分類Logistic回歸樣本量,低估了合理的樣本量水平,建議通過Firth's校正予以改善。Vittinghoff等也認為EPV 取10,會致所得樣本量偏低。小編建議在采用經驗法計算Logistic回歸樣本量時,應同時兼顧所有自變量不同暴露水平下結局為陽性、陰性者的人數都足夠多。相較于經驗法,更提倡使用公式法來估算樣本量,并且建議使用影響面較大的權威軟件包。上面介紹的兩種軟件各有利弊,比如 R 免費,而PASS則可提供更為詳盡的輸出。 關于Logistic回歸樣本量計算方法有哪些問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。