采用Logistic回歸分析時需注意的問題有哪些

發布時間：2021-12-28 13:44:45 來源：億速云閱讀：502 作者：柒染欄目：大數據

采用Logistic回歸分析時需注意的問題有哪些，相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

Logistic 回歸常用于分析二分類因變量（如存活和死亡、患病和未患病等）與多個自變量的關系。比較常用的情形是分析危險因素與是否發生某疾病相關聯。例如，若探討胃癌的危險因素，可以選擇兩組人群，一組是胃癌組，一組是非胃癌組，兩組人群有不同的臨床表現和生活方式等，因變量就為有或無胃癌，即“是”或“否”，為二分類變量，自變量包括年齡、性別、飲食習慣、是否幽門螺桿菌感染等。自變量既可以是連續變量，也可以為分類變量。通過 Logistic 回歸分析，就可以大致了解胃癌的危險因素。

Logistic 回歸與多元線性回歸有很多相同之處，但最大的區別就在于他們的因變量不同。多元線性回歸的因變量為連續變量；Logistic 回歸的因變量為二分類變量或多分類變量，但二分類變量更常用，也更加容易解釋 [1]。盡管 Logistic 回歸在醫學研究領域中應用廣泛，但在應用中存在很多問題。本文將結合筆者自身的經驗，對使用 Logistic 回歸常見的問題進行討論。

Logistic 回歸的用法

一般而言，Logistic 回歸有兩大用途，首先是尋找危險因素，如上文的例子，找出與胃癌相關的危險因素；其次是用于預測，我們可以根據建立的Logistic 回歸模型，預測在不同的自變量情況下，發生某病或某種情況的概率（包括風險評分的建立）。

用 Logistic 回歸估計危險度

所謂相對危險度（risk ratio，RR）是用來描述某一因素不同狀態發生疾病（或其它結局）危險程度的比值。Logistic 回歸給出的 OR（odds ratio）值與相對危險度類似，常用來表示相對于某一人群，另一人群發生終點事件的風險超出或減少的程度。如不同性別的胃癌發生危險不同，通過 Logistic 回歸可以求出危險度的具體數值，例如 1.7，這樣就表示，男性發生胃癌的風險是女性的 1.7 倍。

這里要注意估計的方向問題，以女性作為參照，男性患胃癌的 OR 是1.7。如果以男性作為參照，算出的 OR 將會是 0.588（1/1.7），表示女性發生胃癌的風險是男性的 0.588 倍，或者說，是男性的 58.8%。撇開了參照組，相對危險度就沒有意義了。

Logistic 回歸在醫學研究中廣泛使用的原因之一，就是模型直接給出具有臨床實際意義的 OR 值，很大程度上方便了結果的解讀與推廣。

樣本量問題

通常回歸模型都需要建立在大樣本的基礎上。在進行 Logistic 回歸前，應該考慮當前的樣本量是否充足？根據模擬研究，在使用 Logistic 回歸時，事件（死亡或患病）個數至少應該是自變量個數的 10 倍以上（這一條也適于 Logostic 其他的應用情況）。例如，觀察胃癌的危險因素，比如有性別、年齡和飲食習慣等 9 個研究因素，那就至少需要 90 例胃癌。

另一個比較常見的樣本量原則是，觀測的數量應該至少是自變量數的 20~30 倍，同樣如果有 9 個自變量，那么總體樣本最好能夠達到 180 例以上。建議在進行Logistic 回歸前，結合上述兩個原則，從總樣本和事件數兩個角度共同對模型樣本量進行考慮。

Logistic 回歸中的自變量形式

Logistic 回歸的自變量既可以是連續變量，也可為分類變量。總體原則是盡量從實際或專業角度考慮采取何種形式更好。比如年齡，可以取為連續變量，也可以 5 歲、10 歲作為一組，甚至分為老年人和年輕人兩組。

不同的劃分方式決定了結果解讀時的差異，比如，在做出胃癌與年齡的關系，如果把年齡作為連續變量分析，得到危險度為 1.008，其解釋為年齡每增加 1 歲，患胃癌的風險就會多出 0.008 倍，這個數據會顯得沒有太大的臨床意義。但如果以 10歲一組，可能得到的危險度就是 1.6，即年齡每增長10 歲、患胃癌的風險就增加 60%，這樣幅度的相對風險更具有臨床實際意義。如何將連續變量進行劃分并沒有固定的標準，按照統計學的分位數或具有臨床意義的界值劃分都是常用的方法。建議在分析時先進行趨勢的描述，觀察特定的自變量和因變量是何種關系，再結合臨床專業角度與統計學考慮，以獲得最合理的劃分方式。

Logistic 回歸時單因素分析

在進行 Logistic 回歸分析時，是否必須先進行單因素分析，然后才能進行多因素分析？

理論上講，如果樣本足夠大，且所有的因素之間沒有關聯，最好把所有的因素都放到方程中，通過全模型法對所有可能的混雜因素同時進行分析，在此基礎上進一步通過逐步回歸的方法對有顯著意義的變量進行篩選，此種情況下可以不做單因素分析。

如果樣本例數有限，比如，僅有 80 例患者，但是有 20 個因素，這種情況下，最好先進行單因素分析，剔除既無統計學意義，又無臨床意義的變量，只分析有意義的變量。單因素分析時最好將 P 值放寬，比如 0.1 或 0.15等，避免漏掉一些重要因素（變量間的相互作用可能導致多因素的結果不同于單因素分析）。當然，也要注意仔細檢查各因素間的關聯程度，對于高度相關的自變量一般不同時帶入模型，例如：收縮壓和舒張壓。一旦發現因素之間有較強的相關性，建議首先進行篩選，選擇最具代表性的變量帶入模型。

看完上述內容，你們掌握采用Logistic回歸分析時需注意的問題有哪些的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

采用Logistic回歸分析時需注意的問題有哪些

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

采用Logistic回歸分析時需注意的問題有哪些

猜你喜歡

最新資訊

相關推薦

相關標簽