OR
邏輯回歸
邏輯回歸的名稱雖然裏麵有“回歸”二字,但它實際上是一種分類學習方法。常見的使用場景有兩種:一是預測,二是尋找因變量的影響因素。
1
線性回歸與Logistic回歸
線性回歸和邏輯回歸都是廣義線性模型的一種特殊情況。
假設有一個因變量y和一組自變量x1, x2, x3, ... , xn,當y為連續變量時,不難擬合一個線性方程:
然後采用最小二乘法估計這個方式當中的各個係數值。
但是,如果 y 是一個隻能取 0 或 1 值的二元變量,則線性回歸方程會遇到困難。方程的右邊是一個從負無窮到正無窮範圍內的連續值,但左邊的值則屬於[0,1],兩邊的值不匹配。
為了克服這一阻礙進行線性回歸,統計學家想出了一種變換方法,即:將等式右邊的值變換為[0,1]。最後,選擇采用logistic函數進行變換。
logistic函數為:
它是一個取值範圍為(0,1)的s型函數,可以將任意值映射到(0,1),並且具有無窮導數等優良的數學性質。
在變化以後,回歸方程就變為:
這樣,等式兩邊的取值範圍就都處於0和1之間了!
再進行一下Logit變換,得到:
在上麵這個公式裏,可以將y看作y取值為1的時候的概率p(y=1),那麽1-y便是y取值為0的時候的概率p(y=0)。
從而能夠進一步得到:
處理變換到這裏,我們就可以回到最初的思路,通過最小二乘法估計值了。
2
odds與OR的含義
Odds:稱為暴露比值,也稱為幾率、比值、比數,是指某事件發生的可能性(概率)與不發生的可能性(概率)之比。用p表示事件發生的概率,則:odds = p/(1-p)。
OR:稱作“優勢比”(odds ratio),也稱“比值比”,為實驗組的事件發生幾率(odds1)/對照組的事件發生幾率(odds2),反映的是某種暴露與結局的關聯強度。
3
怎麽理解OR值
上麵的描述在新手看來簡直“不明覺厲”:什麽優勢?啥又是優勢比?關聯強度又是啥?
為了加深了解,讓我們結合例子來細細體會。
假設一下,如果我們想要探討熬夜是否會導致肥胖的發生,應該怎麽辦?
回憶一下我們初中學的做生物實驗的思路,很容易便想到:找兩組人,一組是肥胖人群,另一組則是不肥胖人群,然後,分別調查這兩組人群哪些人熬夜、哪些人不熬夜。
如果我們調查得到的情況是下麵這樣的:
可以看到,肥胖組一共有40人,其中24人熬夜,16人不熬夜。我們就稱“熬夜”是一種“暴露”。
不難看出,“暴露”指代的內容非常廣泛。一般來說,有我們感興趣的元素的研究對象就可以被稱為“暴露組”;而沒有這些因素的研究對象就可以被稱為“非暴露組”。感興趣的元素可以包括各種特征(性別、年齡、教育程度等)、某個特定行為(飲酒、運動、吸煙),或接觸某個特定的物質(PM2.5等)。
至於“暴露與結局的關聯強度”,在假設的例子當中,所謂的“結局”便是“是否肥胖”,也可以理解為“因變量Y”。
那“暴露比值”在假設的例子當中意味著什麽呢?
其中,對於患有肥胖的對象,暴露比值為:熬夜的比例除以不熬夜的比例,即為:25/15 = 1.67;
同樣,在不肥胖的人群中,也可以計算一個熬夜的比例除以不熬夜的比例,即為:19/21 = 0.90。
把這兩個比例相除,就得到了熬夜與肥胖相關關係的OR值,即OR = 1.67/0.90= 1.86>1。
由此可以進行初步的推斷:熬夜會增加肥胖的風險。
總的來說,當結果出現記為1,不出現記為0時,OR值的含義可以總結為:
OR = 1,暴露與結局之間沒有相關性;
OR> 1,暴露可能會促進結局的出現;
OR<1,曝光會阻礙結局的出現。
而Logistic回歸很重要的一點在於可以直接輸出OR值,這一值甚至比直接的回歸係數(還更有意義。
OR值與回歸係數β的數量關係為:OR = eβ