青青草原在线视频,亚洲视频无码专区,玖玖爱在线观看视频,国产A级理论片无码免费孕妇做为

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

劃重點(diǎn)!因果推斷兩大算法框架解析

因果推斷兩大算法框架解析

一、整體框架

因果推斷的主要任務(wù)可分為三類(lèi)。首先是因果結(jié)構(gòu)的發(fā)現(xiàn),即從數(shù)據(jù)中識(shí)別出變量之間的因果關(guān)系。其次是因果效應(yīng)的估計(jì),即從數(shù)據(jù)中推斷一個(gè)變量對(duì)另一個(gè)變量的影響程度。需要注意的是,這種影響并非指相關(guān)性,而是指在對(duì)一個(gè)變量進(jìn)行干預(yù)時(shí),另一個(gè)變量的數(shù)值或分布如何變化。最后是校正偏差,因?yàn)樵谠S多任務(wù)中,各種因素可能導(dǎo)致開(kāi)發(fā)樣本和應(yīng)用樣本的分布不同。在這種情況下,因果推斷可以幫助我們進(jìn)行校正偏差。

這些功能適用于多種場(chǎng)景,其中最典型的是決策場(chǎng)景。通過(guò)因果推斷,可以了解不同用戶對(duì)我們的決策行為的反應(yīng)。其次,在工業(yè)場(chǎng)景中,業(yè)務(wù)流程通常復(fù)雜且長(zhǎng),導(dǎo)致數(shù)據(jù)存在偏差。通過(guò)因果推斷清晰描述這些偏差的因果關(guān)系,可以幫助我們進(jìn)行糾偏。此外,許多場(chǎng)景對(duì)模型的魯棒性和解釋性要求很高。希望模型能夠基于因果關(guān)系進(jìn)行預(yù)測(cè),因果推斷可以幫助構(gòu)建更為強(qiáng)大的解釋性模型。最后,決策結(jié)果的效果評(píng)估也很重要。雖然類(lèi)似于決策場(chǎng)景,但這是在決策之后進(jìn)行的評(píng)估。因果推斷可以幫助更好地分析策略的實(shí)際效果。

接下來(lái)將介紹因果推斷中的兩個(gè)重要問(wèn)題:如何判斷一個(gè)場(chǎng)景是否適合應(yīng)用因果推斷,以及因果推斷中的典型算法。

二、應(yīng)用場(chǎng)景評(píng)估(決策問(wèn)題)

首先介紹應(yīng)用場(chǎng)景評(píng)估,判斷一個(gè)場(chǎng)景是否適合使用推斷主要涉及決策問(wèn)題。

對(duì)于一個(gè)決策問(wèn)題,首先需要明確其是什么,即在什么約束條件下做出什么動(dòng)作,以達(dá)到最大化什么樣的目標(biāo)。接著需要考慮這個(gè)動(dòng)作對(duì)目標(biāo)和約束是否產(chǎn)生影響,以及是否需要使用因果推斷模型進(jìn)行預(yù)測(cè)。舉例來(lái)說(shuō),在營(yíng)銷(xiāo)產(chǎn)品時(shí),我們通常會(huì)考慮在給定總預(yù)算的情況下,決定是否給每個(gè)用戶發(fā)放優(yōu)惠券或打折,以最大化銷(xiāo)量或銷(xiāo)售額。如果沒(méi)有預(yù)算約束,雖然折扣會(huì)影響最終的銷(xiāo)售額,但只要知道其是正向策略,就可以給所有人打折。這種情況下,雖然決策動(dòng)作對(duì)目標(biāo)有影響,但無(wú)需使用因果推斷模型進(jìn)行預(yù)測(cè)。

以上是對(duì)決策問(wèn)題的基本分析,此外還需觀察數(shù)據(jù)條件是否滿足。對(duì)于構(gòu)建因果模型,不同的因果算法對(duì)數(shù)據(jù)和任務(wù)的假設(shè)有不同的要求。

潛在結(jié)果類(lèi)的模型有三個(gè)關(guān)鍵的假設(shè)。首先,個(gè)體的因果效應(yīng)必須是穩(wěn)定的,例如在探究發(fā)優(yōu)惠券對(duì)用戶購(gòu)買(mǎi)概率的影響時(shí),要保證一個(gè)用戶的行為不受其他用戶的影響,比如在線下比價(jià)或者受到不同折扣版本的優(yōu)惠券影響。第二個(gè)假設(shè)是,在給定的特征情況下,用戶的實(shí)際處理和潛在結(jié)果是獨(dú)立的,這個(gè)假設(shè)可以用來(lái)處理觀測(cè)不到的混雜。第三個(gè)假設(shè)是關(guān)于overlap的,即任何一種用戶都應(yīng)該給出不同的決策,否則就無(wú)法觀察到這種用戶在不同決策下的表現(xiàn)。

結(jié)構(gòu)因果類(lèi)的模型所面臨的主要假設(shè)是變量之間的因果關(guān)系,這些假設(shè)往往難以證明。而使用Meta learning和基于樹(shù)的方法時(shí),其假設(shè)通常是條件獨(dú)立的,即在給定特征的情況下,決策動(dòng)作和潛在結(jié)果是獨(dú)立的。這個(gè)假設(shè)與前面提到的獨(dú)立性假設(shè)相似。

在實(shí)際業(yè)務(wù)場(chǎng)景中,了解先驗(yàn)知識(shí)至關(guān)重要。首先,需要理解實(shí)際觀測(cè)數(shù)據(jù)的分配機(jī)制,即先前決策的基礎(chǔ)。當(dāng)無(wú)法獲得最準(zhǔn)確的數(shù)據(jù)時(shí),可能需要依靠一些假設(shè)來(lái)進(jìn)行推斷。其次,業(yè)務(wù)經(jīng)驗(yàn)可以指導(dǎo)我們確定哪些變量對(duì)于區(qū)分因果效應(yīng)的影響最為顯著,這對(duì)于進(jìn)行特征工程具有重要意義。因此,在處理實(shí)際業(yè)務(wù)時(shí),結(jié)合觀測(cè)數(shù)據(jù)的分配機(jī)制和業(yè)務(wù)經(jīng)驗(yàn),能夠更好地應(yīng)對(duì)挑戰(zhàn),有效地進(jìn)行決策和特征工程。

三、典型的因果算法

第二個(gè)重要議題是因果推斷算法的選用。

首先是因果結(jié)構(gòu)發(fā)現(xiàn)類(lèi)算法。這些算法的核心目標(biāo)是確定變量之間的因果關(guān)系。主要的研究思路主要可分為三類(lèi)。第一類(lèi)方法是根據(jù)因果圖中的節(jié)點(diǎn)網(wǎng)絡(luò)條件獨(dú)立性特點(diǎn)進(jìn)行判斷。另一類(lèi)方法是定義一個(gè)評(píng)分函數(shù)來(lái)衡量因果圖的質(zhì)量。例如,通過(guò)定義似然函數(shù),尋求使得該函數(shù)最大化的有向無(wú)環(huán)圖,并將其作為因果圖。第三類(lèi)方法則是引入了更多的信息。例如,假設(shè)兩個(gè)變量的實(shí)際數(shù)據(jù)生成過(guò)程遵循 a n m 型,即加性噪音模型,然后再求解這兩個(gè)變量之間的因果關(guān)系方向。

因果效應(yīng)的估計(jì)涉及多種算法,下面介紹幾種常見(jiàn)的算法:

首先是計(jì)量經(jīng)濟(jì)學(xué)中常提及的工具變量法、did方法和合成控制法。工具變量法的核心思想在于尋找與處理相關(guān)但與隨機(jī)誤差項(xiàng)無(wú)關(guān)的變量,即工具變量。此時(shí)工具變量與因變量之間的關(guān)系不受混雜的影響,可以將預(yù)測(cè)分為兩個(gè)階段:首先利用工具變量預(yù)測(cè)處理變量,然后利用預(yù)測(cè)的處理變量來(lái)預(yù)測(cè)因變量,得到的回歸系數(shù)即為平均處理效應(yīng)(ATE)。而DID方法和合成控制法則是針對(duì)面板數(shù)據(jù)而設(shè)計(jì)的方法,但在此不作詳細(xì)介紹。

另一種常見(jiàn)的方法是利用傾向得分來(lái)估計(jì)因果效應(yīng)。這種方法的核心是預(yù)測(cè)隱藏的分配機(jī)制,例如發(fā)放優(yōu)惠券與不發(fā)放優(yōu)惠券的概率。如果兩個(gè)用戶具有相同的優(yōu)惠券發(fā)放概率,但實(shí)際上一個(gè)用戶收到了優(yōu)惠券,另一個(gè)用戶沒(méi)有,那么我們可以認(rèn)為這兩個(gè)用戶在分配機(jī)制上是等價(jià)的,因此可以比較它們的效果。基于這一點(diǎn),可以推廣出一系列方法,包括匹配方法、分層方法和加權(quán)方法等。

還有一種方法是直接預(yù)測(cè)結(jié)果。即存在觀測(cè)不到的混雜情況下,也可以通過(guò)假設(shè)直接預(yù)測(cè)結(jié)果,并通過(guò)模型自動(dòng)進(jìn)行調(diào)整。然而,這種方法可能引發(fā)一個(gè)問(wèn)題:如果直接預(yù)測(cè)結(jié)果就足夠,那么問(wèn)題就不存在了嗎?實(shí)際上,并非如此。

第四是結(jié)合傾向得分和潛在結(jié)果的思路,使用雙重穩(wěn)健和雙重機(jī)器學(xué)習(xí)的方法可能會(huì)更準(zhǔn)確。雙重穩(wěn)健和雙重機(jī)器學(xué)習(xí)將兩種方法結(jié)合在一起,其中任何一個(gè)部分的準(zhǔn)確性都可以確保最終結(jié)果的可靠性,從而提供了雙重保障。

另一種方法是結(jié)構(gòu)因果類(lèi)的模型,基于因果關(guān)系構(gòu)建模型,如因果圖或結(jié)構(gòu)化方程。這種方法允許直接干預(yù)某個(gè)變量以獲得結(jié)果,并進(jìn)行反事實(shí)推斷。然而,這種方法的前提是我們已經(jīng)了解變量之間的因果關(guān)系,這往往是一個(gè)奢侈的假設(shè)。

Meta learning方法是一種重要的學(xué)習(xí)方法,其涵蓋了多種不同的類(lèi)別。其中之一是S-learning,該方法將處理方法視為一個(gè)特征,直接輸入模型中。通過(guò)調(diào)整這個(gè)特征,我們可以觀察到不同處理方法下結(jié)果的變化。這種方法有時(shí)被稱(chēng)為單模型學(xué)習(xí)者,因?yàn)槲覀優(yōu)閷?shí)驗(yàn)組和對(duì)照組各建立了一個(gè)模型,然后通過(guò)修改特征來(lái)觀察結(jié)果。另一種方法是X-learning,其過(guò)程類(lèi)似于S-learning,但額外考慮了交叉驗(yàn)證的步驟,以更準(zhǔn)確地評(píng)估模型的性能。

樹(shù)形方法是一種直觀且簡(jiǎn)單的方法,通過(guò)構(gòu)建樹(shù)狀結(jié)構(gòu)來(lái)分裂樣本,使得左右節(jié)點(diǎn)上的因果效應(yīng)差異最大化。然而,這種方法容易過(guò)擬合,因此在實(shí)踐中常常采用隨機(jī)森林等方法來(lái)減少過(guò)擬合的風(fēng)險(xiǎn)。使用boosting方法可能會(huì)增加挑戰(zhàn),因?yàn)樗菀走^(guò)濾掉一些信息,所以在使用時(shí)需要設(shè)計(jì)更復(fù)雜的模型以防止信息丟失。Meta learning方法和基于樹(shù)的算法通常也被稱(chēng)為Uplift model。

因果表征是近年來(lái)在學(xué)術(shù)界取得一定成果的領(lǐng)域之一。該方法致力于解耦不同模塊,將影響因素分開(kāi),以更精確地識(shí)別混淆因素。通過(guò)分析影響因變量y和處理變量(treatment)的因素,可以識(shí)別出可能影響y和treatment的混淆因素,這些因素被稱(chēng)為混淆因素。這種方法有望提高模型的端到端學(xué)習(xí)效果。以?xún)A向得分為例,它常常在處理混淆因素時(shí)表現(xiàn)出色。然而,傾向得分的過(guò)分準(zhǔn)確有時(shí)并非有利。在同一傾向得分下,可能出現(xiàn)無(wú)法滿足重疊假設(shè)的情況,這是因?yàn)閮A向得分可能包含一些與混淆因素相關(guān)但不影響y的信息。當(dāng)模型學(xué)習(xí)得過(guò)于準(zhǔn)確時(shí),在加權(quán)匹配或分層處理時(shí),可能會(huì)導(dǎo)致較大的誤差。這些誤差實(shí)際上并非由混淆因素引起,因此并不需要考慮。因果表征學(xué)習(xí)方法提供了解決這一問(wèn)題的途徑,能夠更有效地處理因果關(guān)系的識(shí)別和分析。

四、因果推斷實(shí)際落地中的難點(diǎn)

因果推斷在實(shí)際應(yīng)用中面臨著諸多挑戰(zhàn)。

因果關(guān)系的弱化。在許多場(chǎng)景中,因果關(guān)系往往與隨機(jī)波動(dòng)的噪音處于同一量級(jí),這給建模工作帶來(lái)了巨大的挑戰(zhàn)。在這種情況下,建模的收益相對(duì)較低,因?yàn)橐蚬P(guān)系本身并不明顯。然而,即使必須進(jìn)行建模,也需要采用具有更強(qiáng)學(xué)習(xí)能力的模型才能夠準(zhǔn)確捕捉到這種弱化的因果關(guān)系。同時(shí),需要特別注意過(guò)擬合的問(wèn)題,因?yàn)閷W(xué)習(xí)能力較強(qiáng)的模型可能會(huì)更容易受到噪音的影響,導(dǎo)致模型過(guò)度擬合數(shù)據(jù)。

第二個(gè)普遍存在的問(wèn)題是數(shù)據(jù)條件的不足。這個(gè)問(wèn)題的范圍較為廣泛,主要原因在于我們所使用的算法假設(shè)存在著許多不足之處,特別是在利用觀測(cè)數(shù)據(jù)進(jìn)行建模時(shí),我們的假設(shè)可能并不完全成立。其中最典型的問(wèn)題包括重疊假設(shè)可能無(wú)法滿足,我們的分配機(jī)制可能缺乏隨機(jī)性。更為嚴(yán)重的問(wèn)題是,我們甚至沒(méi)有足夠的隨機(jī)測(cè)試數(shù)據(jù),這使得我們難以客觀地評(píng)估模型的表現(xiàn)。在這種情況下,如果仍然堅(jiān)持進(jìn)行建模,而且模型性能優(yōu)于同比規(guī)則,那么我們可以借助一些業(yè)務(wù)經(jīng)驗(yàn)來(lái)評(píng)估模型的決策是否合理。從業(yè)務(wù)角度出發(fā),對(duì)于一些假設(shè)不成立的情況,比如未觀測(cè)到的混雜因素,從理論上并沒(méi)有特別好的解決方法,但如果一定要使用模型,可以嘗試根據(jù)業(yè)務(wù)經(jīng)驗(yàn)或進(jìn)行一些小規(guī)模的隨機(jī)測(cè)試來(lái)評(píng)估混雜因素的影響方向和程度。同時(shí),將這些因素考慮到模型中,對(duì)于不滿足重疊假設(shè)的情況,雖然這在我們后面的列舉中作為第四個(gè)問(wèn)題,但在此一并討論,我們可以通過(guò)一些算法來(lái)排除一些分配機(jī)制中的非混雜因素,即通過(guò)因果表示學(xué)習(xí)來(lái)緩解這一問(wèn)題。

在處理這種復(fù)雜性時(shí),決策動(dòng)作顯得尤為重要。許多現(xiàn)有模型主要專(zhuān)注于解決二元問(wèn)題,然而,若涉及多個(gè)處理方案,如何分配資源便成為一個(gè)更為復(fù)雜的問(wèn)題。針對(duì)這一挑戰(zhàn),我們可以將多個(gè)處理方案分解成不同領(lǐng)域的子問(wèn)題。此外,利用深度學(xué)習(xí)方法,我們可以將處理方案視為特征,并假設(shè)連續(xù)處理方案與結(jié)果之間存在某種函數(shù)關(guān)系。通過(guò)優(yōu)化這些函數(shù)的參數(shù),可以更好地解決連續(xù)決策問(wèn)題,然而,這也引入了一些額外的假設(shè),如重疊問(wèn)題。

分配機(jī)制固定。見(jiàn)上述分析。

另一個(gè)常見(jiàn)問(wèn)題是目標(biāo)預(yù)測(cè)很多。在某些情況下,目標(biāo)預(yù)測(cè)受到多種因素的影響,而這些因素又與處理方案相關(guān)聯(lián)。為了解決這一問(wèn)題,我們可以采用多任務(wù)學(xué)習(xí)的方法,盡管直接處理復(fù)雜的角色問(wèn)題可能較為困難,但我們可以通過(guò)簡(jiǎn)化問(wèn)題,僅預(yù)測(cè)受處理方案影響最為關(guān)鍵的指標(biāo),逐步為決策提供參考。

最后,一些場(chǎng)景下進(jìn)行隨機(jī)測(cè)試的成本較高,而且效果回收周期較長(zhǎng)。在模型上線之前,充分評(píng)估模型的效果變得尤為重要。在這種情況下,進(jìn)行小規(guī)模的隨機(jī)測(cè)試可以用來(lái)評(píng)估效果。盡管評(píng)估模型所需的樣本集比建模樣本集少得多,但如果甚至無(wú)法進(jìn)行小規(guī)模的隨機(jī)測(cè)試,那么我們可能只能通過(guò)業(yè)務(wù)解釋性來(lái)判斷模型決策結(jié)果的合理性。

五、案例-京東科技的額度決策模型

接下來(lái)以京東科技利用因果推斷技術(shù)制定信貸產(chǎn)品的輔助應(yīng)用為例,展示如何根據(jù)用戶特征和經(jīng)營(yíng)目標(biāo)確定最佳信貸額度。在確定經(jīng)營(yíng)目標(biāo)后,這些目標(biāo)通常可以細(xì)分為用戶表現(xiàn)的指標(biāo),如用戶的產(chǎn)品使用情況和借款行為。通過(guò)分析這些指標(biāo),可以計(jì)算出利潤(rùn)、規(guī)模等經(jīng)營(yíng)目標(biāo)。因此,額度決策過(guò)程分為兩步:首先利用因果推斷技術(shù)預(yù)測(cè)用戶在不同額度下的表現(xiàn),然后根據(jù)這些表現(xiàn)和經(jīng)營(yíng)目標(biāo),采用各種方法來(lái)確定每個(gè)用戶的最佳信貸額度。

六、未來(lái)發(fā)展

未來(lái)的發(fā)展中將面對(duì)一系列挑戰(zhàn)與機(jī)遇。

首先,針對(duì)當(dāng)前因果模型存在的不足之處,學(xué)界普遍認(rèn)為需要大規(guī)模的模型來(lái)處理更為復(fù)雜的非線性關(guān)系。因果模型通常只處理二維數(shù)據(jù),并且大多數(shù)模型結(jié)構(gòu)相對(duì)簡(jiǎn)單,因此未來(lái)的研究方向可能包括解決這一問(wèn)題。

其次,研究者提出了因果表示學(xué)習(xí)的概念,強(qiáng)調(diào)了解耦和模塊化思想在表示學(xué)習(xí)中的重要性。通過(guò)從因果關(guān)系的角度理解數(shù)據(jù)生成過(guò)程,基于真實(shí)世界規(guī)律構(gòu)建的模型很可能具有更好的遷移能力和泛化性。

最后,研究者指出當(dāng)前的假設(shè)過(guò)于強(qiáng)大,很多情況下難以滿足實(shí)際需求,因此需要針對(duì)不同情境采用不同的模型。這也導(dǎo)致了模型落地的門(mén)檻相當(dāng)高。因此,尋找通用性強(qiáng)的萬(wàn)金油算法具有巨大的價(jià)值。

猜你喜歡