基于AI(人工智能)的系統(tǒng)前景廣闊,且被愈來(lái)愈多地用于協(xié)助完成各種復(fù)雜任務(wù)。但由于存在不確定性的挑戰(zhàn),結(jié)果并不完全可靠。不確定性量化(UQ)在減少優(yōu)化和決策過(guò)程中的不確定性方面起著關(guān)鍵作用,可用于解決科學(xué)、商業(yè)和工程領(lǐng)域的各種實(shí)際應(yīng)用。
本文簡(jiǎn)要介紹了不確定性的概念、來(lái)源、類(lèi)型和測(cè)量方法,然后總結(jié)了使用貝葉斯技術(shù)的大量UQ方法,指出了現(xiàn)有文獻(xiàn)中存在的問(wèn)題和差距,并提出進(jìn)一步的發(fā)展方向,并對(duì)打擊AI金融犯罪的應(yīng)用案例進(jìn)行了概述。
引言
近年來(lái),人們愈來(lái)愈需要使用基于AI的系統(tǒng),這些系統(tǒng)本質(zhì)上是主動(dòng)系統(tǒng),需要根據(jù)環(huán)境中的事件或變化自動(dòng)采取行動(dòng)。這些系統(tǒng)跨愈許多領(lǐng)域,從活動(dòng)數(shù)據(jù)庫(kù)到驅(qū)動(dòng)當(dāng)今企業(yè)核心業(yè)務(wù)流程的應(yīng)用程序。然而,在許多情況下,系統(tǒng)必須響應(yīng)的事件不是由監(jiān)控工具生成的,而是必須根據(jù)復(fù)雜的時(shí)態(tài)謂詞從其他事件中推斷出來(lái)的。機(jī)器學(xué)習(xí)(ML)模型根據(jù)其訓(xùn)練數(shù)據(jù)生成最優(yōu)解。在許多應(yīng)用中,這樣的推理本質(zhì)上是不確定的。然而,如果不考慮數(shù)據(jù)和模型參數(shù)中的不確定性,這種最佳解決方案在現(xiàn)實(shí)世界部署中仍然存在很高的失敗風(fēng)險(xiǎn)。
典型的基于AI的系統(tǒng)管道包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、選擇模型從數(shù)據(jù)中學(xué)習(xí)、選擇學(xué)習(xí)算法訓(xùn)練所需模型以及從所學(xué)習(xí)的模型中得出推論等環(huán)節(jié)。然而,這些步驟中的每一步都存在固有的不確定性。例如,數(shù)據(jù)不確定性可能源于無(wú)法可靠地收集或表示真實(shí)世界的數(shù)據(jù)。數(shù)據(jù)預(yù)處理中的缺陷——無(wú)論是在固化、清洗還是標(biāo)記過(guò)程中——也會(huì)造成數(shù)據(jù)不確定性。由于模型僅作為現(xiàn)實(shí)世界的代理,而學(xué)習(xí)和推理算法依賴(lài)于各種簡(jiǎn)化假設(shè),因此它們導(dǎo)致了建模和推理中的不確定性。
AI系統(tǒng)做出的預(yù)測(cè)容易受到所有這些不確定性來(lái)源的影響,可靠的不確定性評(píng)估為AI系統(tǒng)的開(kāi)發(fā)者和用戶(hù)提供了重要的判斷依據(jù)。例如,高數(shù)據(jù)不確定性可能意味著改進(jìn)數(shù)據(jù)描述過(guò)程,而高模型不確定性可能意味著需要收集更多數(shù)據(jù)。對(duì)于用戶(hù)來(lái)說(shuō),準(zhǔn)確的不確定性,尤其是與有效的溝通策略相結(jié)合時(shí),可以增添一個(gè)透明度和信任度的關(guān)鍵層,這對(duì)于更優(yōu)的AI輔助決策至關(guān)重要。給予AI系統(tǒng)這種信任對(duì)于它們?cè)卺t(yī)學(xué)、金融和社會(huì)科學(xué)等高風(fēng)險(xiǎn)應(yīng)用中的可靠部署至關(guān)重要。
AI系統(tǒng)中已經(jīng)提出了許多改進(jìn)UQ的方法,然而選擇一種特定的UQ方法取決于許多因素:基礎(chǔ)模型、機(jī)器學(xué)習(xí)任務(wù)的類(lèi)型(回歸、分類(lèi)與分割)、數(shù)據(jù)的特征、機(jī)器學(xué)習(xí)模型的透明度和最終目標(biāo)等等。如果使用不當(dāng),特定的UQ方法可能會(huì)產(chǎn)生較差的不確定性估計(jì),并誤導(dǎo)用戶(hù)。此外,如果溝通不暢,即使是高度準(zhǔn)確的不確定性估計(jì)也可能會(huì)產(chǎn)生誤導(dǎo)。
本文對(duì)不確定性的類(lèi)型及其來(lái)源進(jìn)行了擴(kuò)展介紹,討論了UQ方法,將不確定性建模形式化,并闡述了其在復(fù)雜系統(tǒng)中的概念。本文概述了ML中使用貝葉斯技術(shù)量化不確定性的不同方法。此外,在不同的機(jī)器學(xué)習(xí)任務(wù)中,如分類(lèi)、回歸和分割,不確定性測(cè)量的評(píng)估也受到關(guān)注。本文提供了UQ方法中的校準(zhǔn)術(shù)語(yǔ),填補(bǔ)了文獻(xiàn)中的空白,展示了UQ在金融犯罪領(lǐng)域的實(shí)際應(yīng)用,并為此類(lèi)系統(tǒng)制定了通用評(píng)估框架。
任意不確定性
任意不確定性(Aleatoric Uncertainty,又稱(chēng)為“統(tǒng)計(jì)不確定性”),代表每次進(jìn)行相同實(shí)驗(yàn)時(shí)不同的未知量。任意不確定性是指由于概率可變性而產(chǎn)生的固有不確定性。這種類(lèi)型的不確定性是不可減少的,因?yàn)榛咀兞靠偸谴嬖诳勺冃?。這些不確定性以概率分布為特征。例如,使用機(jī)械弓箭發(fā)射的一支箭在每次發(fā)射完全相同(相同的加速度、高度、方向和最終速度),由于箭桿的隨機(jī)和復(fù)雜振動(dòng),不會(huì)影響目標(biāo)上的同一點(diǎn),無(wú)法充分確定這類(lèi)知識(shí)以消除由此造成的碰撞點(diǎn)分散。
認(rèn)知不確定性
認(rèn)知不確定性(Epistemic Uncertainty,又稱(chēng)“系統(tǒng)不確定性”)是指那些由于人們?cè)谠瓌t上可以知道但在實(shí)踐中卻不知道的事情。認(rèn)知不確定性是過(guò)程模型中的科學(xué)不確定性,這是因?yàn)閿?shù)據(jù)和知識(shí)有限。認(rèn)知不確定性以替代模型為特征。對(duì)于離散隨機(jī)變量,認(rèn)知不確定性采用替代概率分布建模。這種不確定性來(lái)源的一個(gè)例子是一項(xiàng)旨在測(cè)量地球表面附近重力加速度的實(shí)驗(yàn)。常用的9.8m/s²重力加速度忽略了空氣阻力的影響,但我們可以測(cè)量物體的空氣阻力并將其納入實(shí)驗(yàn),以減少重力加速度計(jì)算中產(chǎn)生的不確定性。
任意性和認(rèn)知不確定性相互作用
任意不確定性和認(rèn)知不確定性也可以在單個(gè)術(shù)語(yǔ)中同時(shí)發(fā)生——例如,當(dāng)實(shí)驗(yàn)參數(shù)顯示任意不確定性并且這些實(shí)驗(yàn)參數(shù)被輸入計(jì)算機(jī)模擬時(shí)。如果用于不確定性量化,則使用替代模型,例如高斯過(guò)程或者多項(xiàng)式混沌展開(kāi)(Polynomial Chaos Expansion),是從計(jì)算機(jī)實(shí)驗(yàn)中得知的,這樣的替代表現(xiàn)出認(rèn)知不確定性,它依賴(lài)于實(shí)驗(yàn)參數(shù)的任意不確定性,或與之相互作用。這種不確定性不能再單獨(dú)歸類(lèi)為任意性或認(rèn)知性,而是一種更普遍的推理不確定性。在實(shí)際應(yīng)用中,這兩種不確定性都存在。不確定性量化旨在分別明確表示這兩種類(lèi)型的不確定性。
任意不確定性的量化可能相對(duì)簡(jiǎn)單,其中傳統(tǒng)(頻繁)概率是最基本的形式。例如蒙特卡羅方法等經(jīng)常被使用的技術(shù)。為了評(píng)估認(rèn)知不確定性,需要努力理解對(duì)于系統(tǒng)、過(guò)程或機(jī)制相關(guān)知識(shí)的缺乏。認(rèn)知不確定性通常是通過(guò)貝葉斯概率的視角來(lái)理解的,因?yàn)楦怕时唤忉尀楸砻骼硇缘娜藢?duì)某一特定主張的確定程度。
模型與數(shù)據(jù)不確定性
模型不確定性包括由模型缺陷引起的不確定性,這些缺陷可能是由于訓(xùn)練過(guò)程中使用了不充分的模型結(jié)構(gòu)所導(dǎo)致的錯(cuò)誤,或者是由于未知樣本或訓(xùn)練數(shù)據(jù)集覆蓋率差而導(dǎo)致的知識(shí)缺乏。與此相反,數(shù)據(jù)不確定性與直接源于數(shù)據(jù)的不確定性有關(guān)。數(shù)據(jù)不確定性是由在數(shù)據(jù)樣本中表示真實(shí)世界并表示分布時(shí)的信息丟失引起的。模型不確定性包括由模型缺陷引起的不確定性,這些缺陷可能是由于訓(xùn)練過(guò)程中的錯(cuò)誤、模型結(jié)構(gòu)不足,或由于未知樣本或訓(xùn)練數(shù)據(jù)集覆蓋率差而導(dǎo)致的知識(shí)缺乏。與此相反,數(shù)據(jù)不確定性與直接源于數(shù)據(jù)的不確定性有關(guān)。數(shù)據(jù)不確定性是由在數(shù)據(jù)樣本中表示真實(shí)世界和表示分布時(shí)的信息丟失引起的。
例如,在回歸任務(wù)中,輸入和目標(biāo)測(cè)量中的噪聲會(huì)導(dǎo)致網(wǎng)絡(luò)無(wú)法學(xué)會(huì)糾正的數(shù)據(jù)不確定性。在分類(lèi)任務(wù)中,如果樣本包含的信息不足以100%確定地識(shí)別一個(gè)類(lèi)別,則會(huì)導(dǎo)致預(yù)測(cè)數(shù)據(jù)的不確定性。信息丟失是測(cè)量系統(tǒng)的結(jié)果,例如,因?yàn)槭褂媚撤N具體分辨率的圖像像素來(lái)表示真實(shí)世界的信息所導(dǎo)致,或通過(guò)標(biāo)記過(guò)程中的錯(cuò)誤所導(dǎo)致。
雖然理論上可以通過(guò)改進(jìn)體系結(jié)構(gòu)、學(xué)習(xí)過(guò)程或訓(xùn)練數(shù)據(jù)集來(lái)減少模型的不確定性,但無(wú)法解釋數(shù)據(jù)的不確定性。
預(yù)測(cè)不確定性
根據(jù)輸入數(shù)據(jù)域,預(yù)測(cè)不確定性也可分為三大類(lèi):
域內(nèi)不確定性:表示與從假定等于訓(xùn)練數(shù)據(jù)分布的數(shù)據(jù)分布中提取的輸入相關(guān)的不確定性。域內(nèi)不確定性源于深度神經(jīng)網(wǎng)絡(luò)由于缺乏域內(nèi)知識(shí)而無(wú)法解釋域內(nèi)樣本。從建模者的角度來(lái)看,域內(nèi)的不確定性是由設(shè)計(jì)錯(cuò)誤(模型不確定性)和手頭問(wèn)題的復(fù)雜性(數(shù)據(jù)不確定性)引起的。根據(jù)域內(nèi)不確定性的來(lái)源,可以通過(guò)提高訓(xùn)練數(shù)據(jù)(集)或訓(xùn)練過(guò)程的質(zhì)量來(lái)減少不確定性。
域轉(zhuǎn)移不確定性:表示與從訓(xùn)練分布的轉(zhuǎn)移版本中提取的輸入相關(guān)的不確定性。這種分布變化是由于訓(xùn)練數(shù)據(jù)的覆蓋率不足以及現(xiàn)實(shí)情況固有的可變性造成的。由于DNN無(wú)法在訓(xùn)練時(shí)解釋基于樣本的域轉(zhuǎn)移樣本,域轉(zhuǎn)移可能會(huì)增加不確定性??梢詫?duì)一些導(dǎo)致域轉(zhuǎn)移不確定性的錯(cuò)誤進(jìn)行建模,從而可以減少相應(yīng)的錯(cuò)誤。
域外不確定性:表示與來(lái)自未知數(shù)據(jù)子空間的輸入相關(guān)的不確定性。未知數(shù)據(jù)的分布與訓(xùn)練分布大有差異。例如,當(dāng)域轉(zhuǎn)移不確定性描述諸如狗的模糊圖像等現(xiàn)象時(shí),域外不確定性就是學(xué)習(xí)貓和狗分類(lèi)的網(wǎng)絡(luò)被要求預(yù)測(cè)鳥(niǎo)的情況。域外不確定性的來(lái)源是深度神經(jīng)網(wǎng)絡(luò)(DNN)由于缺乏域外知識(shí)而無(wú)法解釋域外樣本。從建模者的角度來(lái)看,域外不確定性是由輸入樣本引起的,其中網(wǎng)絡(luò)不打算對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè)或者訓(xùn)練數(shù)據(jù)不足。
圖1:不確定性類(lèi)型
不確定性與可變性
技術(shù)專(zhuān)家經(jīng)常被要求估算不確定量的“范圍”。重要的是,他們要區(qū)分是被要求提供可變性范圍還是不確定性范圍。同樣,對(duì)于建模者來(lái)說(shuō),了解他們是否正在構(gòu)建可變性或不確定性的模型以及它們之間的關(guān)系(如果有的話(huà))也很重要。
不確定性的來(lái)源
參數(shù)不確定性:它來(lái)自于輸入到數(shù)學(xué)模型中的模型參數(shù),但其精確值對(duì)實(shí)驗(yàn)人員來(lái)說(shuō)是未知的,在物理實(shí)驗(yàn)中無(wú)法控制或者其值無(wú)法通過(guò)統(tǒng)計(jì)方法精確推斷。例如,落物實(shí)驗(yàn)中的局部自由落體加速度計(jì)算中就包含了參數(shù)不確定性。
參數(shù)可變性:它來(lái)自模型輸入變量的可變性。例如,數(shù)據(jù)中的尺寸可能與假設(shè)的尺寸不完全相同,這將導(dǎo)致在高維數(shù)據(jù)集上訓(xùn)練的模型的性能發(fā)生變化。
結(jié)構(gòu)不確定性:又名模型不足、模型偏差或模型差異,它源于對(duì)問(wèn)題的基本物理或原理缺乏了解??紤]到模型幾乎總是接近現(xiàn)實(shí),這取決于數(shù)學(xué)模型在現(xiàn)實(shí)生活中描述真實(shí)系統(tǒng)的準(zhǔn)確程度。例如,使用自由落體模型對(duì)下落物體的過(guò)程進(jìn)行建模時(shí),模型本身是不準(zhǔn)確的,因?yàn)榭偸谴嬖诳諝饽Σ?。在這種情況下,即使模型中沒(méi)有未知參數(shù),模型和真實(shí)物理之間仍然存在差異。當(dāng)我們對(duì)模型輸出不確定時(shí),就會(huì)出現(xiàn)結(jié)構(gòu)不確定性,因?yàn)槲覀儗?duì)模型的功能形式尚不確定。
算法不確定性:又名數(shù)值不確定性,或離散不確定性。這種類(lèi)型來(lái)自每個(gè)計(jì)算機(jī)模型實(shí)現(xiàn)的數(shù)值誤差和數(shù)值近似值。大多數(shù)模型太復(fù)雜,無(wú)法精確求解。例如,可以使用有限元法或有限差分法來(lái)近似解偏微分方程(這會(huì)引入數(shù)值誤差)。
實(shí)驗(yàn)不確定性:又名觀(guān)測(cè)誤差。它來(lái)自于實(shí)驗(yàn)測(cè)量的可變性。實(shí)驗(yàn)不確定性是不可避免的,可以通過(guò)對(duì)所有輸入/變量使用完全相同的設(shè)置進(jìn)行多次重復(fù)測(cè)量來(lái)發(fā)現(xiàn)此種不確定性。
插值不確定性:這是因?yàn)槿狈哪P湍M和/或?qū)嶒?yàn)測(cè)量中收集的可用數(shù)據(jù)。對(duì)于沒(méi)有模擬數(shù)據(jù)或?qū)嶒?yàn)測(cè)量的其他輸入設(shè)置時(shí),必須進(jìn)行插值或外推,以便預(yù)測(cè)相應(yīng)的響應(yīng)數(shù)據(jù)。
問(wèn)題類(lèi)型
不確定性量化中有兩類(lèi)主要問(wèn)題:一種是不確定性的正向傳播(不確定性的各種來(lái)源通過(guò)模型傳播,以預(yù)測(cè)系統(tǒng)響應(yīng)中的整體不確定性),另一種是模型不確定性和參數(shù)不確定性的反向評(píng)估(使用測(cè)試數(shù)據(jù)同時(shí)校準(zhǔn)模型參數(shù))。
不確定性的正向傳播
不確定性傳播是對(duì)不確定性輸入傳播的系統(tǒng)輸出中的不確定性進(jìn)行量化。它著重于不確定性來(lái)源中列出的參數(shù)可變性對(duì)輸出的影響。不確定性傳播分析的目標(biāo)可以是:
評(píng)估輸出的低階矩,即均值和方差
評(píng)估輸出的可靠性
評(píng)估輸出的完整概率分布
模型不確定性和參數(shù)不確定性的反向評(píng)估
假如已經(jīng)取得了系統(tǒng)的一些實(shí)驗(yàn)測(cè)量數(shù)據(jù)及其數(shù)學(xué)模型的一些計(jì)算機(jī)模擬結(jié)果,反向不確定性量化既估計(jì)實(shí)驗(yàn)和數(shù)學(xué)模型之間的差異(稱(chēng)為偏差校正),也估計(jì)模型中存在的未知參數(shù)值(稱(chēng)為參數(shù)校準(zhǔn)或簡(jiǎn)單校準(zhǔn))。一般來(lái)說(shuō),這是一個(gè)比正向不確定性傳播困難得多的問(wèn)題,但因?yàn)樗ǔT谀P透逻^(guò)程中實(shí)現(xiàn)所以非常重要。
反向不確定性量化有幾種情況:
僅偏差修正:偏差修正量化了模型的不足,即實(shí)驗(yàn)和數(shù)學(xué)模型之間的差異。
僅參數(shù)校準(zhǔn):參數(shù)校準(zhǔn)會(huì)估計(jì)數(shù)學(xué)模型中一個(gè)或多個(gè)未知參數(shù)的值。
偏差修正和參數(shù)校準(zhǔn):考慮具有一個(gè)或多個(gè)未知參數(shù)的不準(zhǔn)確模型,其模型更新公式將兩者結(jié)合在一起:這是最全面的模型更新公式,包括所有可能的不確定性來(lái)源,需要盡最大努力解決。
圖2:不確定性量化中的問(wèn)題類(lèi)型
數(shù)學(xué)表示
正如我們前面所提及的(圖1),預(yù)測(cè)不確定性由兩部分組成:認(rèn)知不確定性和任意不確定性,可以像下面這樣寫(xiě)成這兩部分的總和:
認(rèn)知不確定性可以表示為模型參數(shù)的概率分布。
令:
表示包含以下輸入的訓(xùn)練數(shù)據(jù)集:
與它們的相應(yīng)分類(lèi):
其中:C表示分類(lèi)的數(shù)量。目的是優(yōu)化生成期望的輸出結(jié)果的以下函數(shù)的ω參數(shù):
為了實(shí)現(xiàn)這一點(diǎn),使用貝葉斯方法定義了一個(gè)模型似然函數(shù):
對(duì)于分類(lèi),可使用下面的softmax似然函數(shù):
等式1
對(duì)于回歸,可以假設(shè)高斯似然:
等式2
上式中,τ表示模型精度。而后驗(yàn)分布:
針對(duì)一個(gè)給定的數(shù)據(jù)集(在ω上的訓(xùn)練):
通過(guò)應(yīng)用Bayes定理,可以寫(xiě)出如下形式:
等式3
對(duì)于給定的樣本x*,關(guān)于p(ω|x,y)的分類(lèi)標(biāo)簽可以預(yù)測(cè)為:
等式4
這個(gè)過(guò)程被稱(chēng)為推理或邊緣化。然而:
不能用解析方法計(jì)算,但可以用變分參數(shù)來(lái)近似:
其目的是近似一個(gè)分布,該分布接近由該模型獲得的后驗(yàn)分布。因此,關(guān)于精度τ的Kullback-Leibler(KL)散度需要最小化。這兩種分布之間的相似程度可以通過(guò)以下方式衡量:
等式5
預(yù)測(cè)分布可以通過(guò)最小化KL散度來(lái)近似,如下所示:
等式6
其中:
代表目標(biāo)表明。KL散度最小化也可以重新安排為證據(jù)下界(ELBO)最大化:
等式7
其中:
通過(guò)最大化第一項(xiàng),能夠很好地描述數(shù)據(jù),通過(guò)最小化第二項(xiàng),能夠盡可能接近前一項(xiàng)。這個(gè)過(guò)程被稱(chēng)為變分推理(VI)。Dropout變分推理是最常用方法之一,已在復(fù)雜模型中廣泛用于近似推理。最小化目標(biāo)如下:
等式8
其中N和P分別代表樣本數(shù)和丟棄概率。要獲得與數(shù)據(jù)相關(guān)的不確定性,上面等式2中的精度τ可表示為數(shù)據(jù)的函數(shù)。獲得認(rèn)知不確定性的一種方法是混合兩種函數(shù)。其中,
預(yù)測(cè)平均值函數(shù)是fθ(x),模型精度函數(shù)是gθ(x)。
這樣的話(huà),似然函數(shù)可以寫(xiě)成:
將先驗(yàn)分布置于模型的權(quán)重之上,然后計(jì)算給定數(shù)據(jù)樣本的權(quán)重變化量。歐幾里德距離損失函數(shù)可以調(diào)整如下:
等式9
預(yù)測(cè)方差可通過(guò)以下方式獲得:
等式10
可選方法
人們已經(jīng)做了很多研究來(lái)解決不確定性量化問(wèn)題,盡管其中大多數(shù)是處理不確定性傳播的問(wèn)題。在過(guò)去的一到二十年中,人們還開(kāi)發(fā)了許多反向不確定性量化的方法,并已證明對(duì)大多數(shù)中小型問(wèn)題有用。
圖3:不確定性量化的選擇性方法
正向傳播
基于模擬的方法:蒙特卡羅模擬、重要性抽樣、自適應(yīng)抽樣等。
基于代理的通用方法:在非侵入性方法中,可以使用一種學(xué)習(xí)代理模型來(lái)實(shí)現(xiàn)廉價(jià)且快速的近似代替實(shí)驗(yàn)或模擬之目的。基于代理的方法也可以以完全貝葉斯的方式來(lái)使用。當(dāng)采樣成本(例如計(jì)算成本高昂的模擬)過(guò)高時(shí),這種方法會(huì)特別有效。
基于局部展開(kāi)的方法:泰勒級(jí)數(shù)、攝動(dòng)法等。這些方法在處理相對(duì)較小的輸入變量和不表現(xiàn)高度非線(xiàn)性的輸出時(shí)具有優(yōu)勢(shì)。這些線(xiàn)性或線(xiàn)性化方法在不確定性傳播有關(guān)文章中有詳細(xì)介紹。
基于函數(shù)展開(kāi)的方法:Neumann展開(kāi)、正交或Karhunen–Loeve展開(kāi)(KLE),以及作為特例的多項(xiàng)式混沌展開(kāi)(PCE)和小波展開(kāi)。
基于最可能點(diǎn)(MPP)的方法:一階可靠性方法(FORM)和二階可靠性方法(SORM)。
基于數(shù)值積分的方法:全因子數(shù)值積分(FFNI)和降維(DR)。
對(duì)于非概率方法,區(qū)間分析、模糊理論、可能性理論和證據(jù)理論是應(yīng)用最廣泛的方法之一。
概率方法被認(rèn)為是工程設(shè)計(jì)中最嚴(yán)格的不確定性分析方法,因?yàn)樗c決策分析理論一致。它的基石是計(jì)算抽樣統(tǒng)計(jì)的概率密度函數(shù)。對(duì)于可以通過(guò)高斯變量變換獲得的隨機(jī)變量,這點(diǎn)可以嚴(yán)格執(zhí)行從而得到精確的置信區(qū)間。
反向不確定性
1.頻率學(xué)派:參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差很容易獲得,可以擴(kuò)展為置信區(qū)間。
2.貝葉斯學(xué)派:貝葉斯框架下存在幾種反向不確定性量化方法。最復(fù)雜的方向是解決偏差校正和參數(shù)校準(zhǔn)的問(wèn)題。這些問(wèn)題的挑戰(zhàn)不僅包括模型不足和參數(shù)不確定性的影響,還包括缺乏來(lái)自計(jì)算機(jī)模擬和實(shí)驗(yàn)的數(shù)據(jù)。一種常見(jiàn)的情況是,在實(shí)驗(yàn)和模擬中輸入環(huán)境不同。另一種常見(jiàn)情況是,從實(shí)驗(yàn)中得出的參數(shù)被輸入到模擬中。對(duì)于計(jì)算成本較高的模擬,通常需要一個(gè)替代模型,例如高斯過(guò)程或多項(xiàng)式混沌展開(kāi),從而定義一個(gè)反向問(wèn)題,以便找到最接近模擬的替代模型。
3.模塊化方法:反向不確定性量化的方法是模塊化貝葉斯方法。模塊化貝葉斯方法的名字來(lái)源于其中的四個(gè)模塊的過(guò)程。除了當(dāng)前可用的數(shù)據(jù)外,還應(yīng)指定未知參數(shù)的先驗(yàn)分布。
針對(duì)模型的高斯過(guò)程建模:為了解決缺乏仿真結(jié)果的問(wèn)題,將計(jì)算機(jī)模型替換為高斯過(guò)程(GP)模型
針對(duì)差異函數(shù)的高斯過(guò)程建模:類(lèi)似地,對(duì)于第一個(gè)模塊,用GP模型替換異函數(shù)
未知參數(shù)的后驗(yàn)分布:貝葉斯定理用于計(jì)算未知參數(shù)的后驗(yàn)分布
實(shí)驗(yàn)反應(yīng)和差異函數(shù)的預(yù)測(cè)
4. 完全方法:完全貝葉斯方法不僅要分配未知參數(shù)的先驗(yàn),還要分配其他超參數(shù)的先驗(yàn)。
圖4:使用貝葉斯技術(shù)的不確定性量化
機(jī)器學(xué)習(xí)中的不確定性量化
圖5:機(jī)器學(xué)習(xí)中不確定性量化的分類(lèi)
評(píng)估分類(lèi)
分類(lèi)任務(wù)中的測(cè)量數(shù)據(jù)不確定性:給定預(yù)測(cè),概率向量表示分類(lèi)分布,即它為每個(gè)類(lèi)別分配一個(gè)概率,使其成為正確的預(yù)測(cè)。由于預(yù)測(cè)不是作為一個(gè)顯式類(lèi)別而是作為一個(gè)概率分布給出的,因此可以直接從預(yù)測(cè)中得出不確定性估計(jì)。一般來(lái)說(shuō),這種逐點(diǎn)預(yù)測(cè)可以被視為估計(jì)數(shù)據(jù)的不確定性。然而,模型對(duì)數(shù)據(jù)不確定性的估計(jì)受到模型不確定性的影響,必須單獨(dú)考慮。為了評(píng)估預(yù)測(cè)數(shù)據(jù)不確定性的數(shù)量,可以應(yīng)用最大分類(lèi)概率或熵度量。最大概率表示確定性的直接表示,而熵表示隨機(jī)變量中的平均信息水平。盡管如此,我們無(wú)法從一個(gè)單一的預(yù)測(cè)中分辨出影響這一特定預(yù)測(cè)的模型不確定性有多大。
分類(lèi)任務(wù)中的測(cè)量模型不確定性:學(xué)習(xí)模型參數(shù)的近似后驗(yàn)分布有助于獲得更優(yōu)的不確定性估計(jì)。有了這種后驗(yàn)分布,就有可能評(píng)估隨機(jī)變量的變化,即不確定性。最常見(jiàn)的測(cè)量方法是互信息(MI)、預(yù)期Kullback-Leibler散度(EKL)和預(yù)測(cè)方差?;旧?,所有這些度量都是計(jì)算隨機(jī)輸出和預(yù)期輸出之間的預(yù)期差異。當(dāng)有關(guān)模型參數(shù)的知識(shí)不會(huì)增加最終預(yù)測(cè)中的信息時(shí),MI最小。因此,MI可以解釋為模型不確定性的度量。Kullback-Leibler散度度量?jī)蓚€(gè)給定概率分布之間的散度。EKL可用于測(cè)量可能輸出之間的(預(yù)期)差異,也可解釋為對(duì)模型輸出不確定性的測(cè)量,因此代表模型不確定性。即使對(duì)于分析描述的分布來(lái)說(shuō),參數(shù)不確定性在預(yù)測(cè)中的傳播幾乎在所有情況下也都是難以解決的;因此,必須用蒙特卡羅近似來(lái)近似。
圖6:模型的可視化和分類(lèi)模型的分布不確定性
測(cè)量分類(lèi)任務(wù)中的分布不確定性:雖然這些不確定性度量被廣泛用于捕捉來(lái)自貝葉斯神經(jīng)網(wǎng)絡(luò)的多個(gè)預(yù)測(cè)之間的可變性,但集成方法無(wú)法捕捉輸入數(shù)據(jù)或分布外樣本中的分布變化,這可能會(huì)導(dǎo)致推理過(guò)程存在一定偏見(jiàn)并產(chǎn)生虛假的置信結(jié)果。如果所有預(yù)測(cè)因子都將高概率質(zhì)量歸因于同一(錯(cuò)誤)類(lèi)別標(biāo)簽,這將導(dǎo)致估計(jì)值之間的低可變性。因此,系統(tǒng)似乎對(duì)其預(yù)測(cè)是確定的,而預(yù)測(cè)本身的不確定性也在下面進(jìn)行評(píng)估。
圖7:模型的可視化和分類(lèi)模型的分布不確定性
完整數(shù)據(jù)集上的性能度量:上述度量用來(lái)評(píng)估單個(gè)預(yù)測(cè)的性能,其他度量則用于評(píng)估這些度量在一組樣本上的使用情況。不確定性度量可用于區(qū)分正確分類(lèi)和錯(cuò)誤分類(lèi)的樣本,或域內(nèi)樣本和分布外樣本。為此,樣本分為兩組,例如域內(nèi)和分布外,或正確分類(lèi)和錯(cuò)誤分類(lèi)。兩種最常見(jiàn)的是接收器操作特性曲線(xiàn)(Receiver Operating Characteristic,簡(jiǎn)稱(chēng)“ROC”)和精確率-召回率曲線(xiàn)(Precision-Recall,簡(jiǎn)稱(chēng)“PR”)。這兩種方法都基于基礎(chǔ)度量的不同閾值生成曲線(xiàn)。雖然ROC和PR曲線(xiàn)都給出了一個(gè)直觀(guān)的概念,說(shuō)明了基本度量在多大程度上適合于分離兩個(gè)考慮過(guò)的測(cè)試用例,但它們并沒(méi)有給出一個(gè)定性度量。為了達(dá)到這一點(diǎn),可以評(píng)估曲線(xiàn)下的面積(AUC)。簡(jiǎn)要來(lái)看,AUC給出了一個(gè)概率值,即隨機(jī)選擇的陽(yáng)性樣本比隨機(jī)選擇的陰性樣本導(dǎo)致更高的測(cè)量值。
評(píng)估回歸
回歸預(yù)測(cè)中的測(cè)量數(shù)據(jù)不確定性:與分類(lèi)任務(wù)相比,回歸任務(wù)只預(yù)測(cè)逐點(diǎn)估計(jì),沒(méi)有任何數(shù)據(jù)不確定性的暗示。處理這一問(wèn)題的常用方法是,讓網(wǎng)絡(luò)預(yù)測(cè)概率分布的參數(shù),例如,平均向量和正態(tài)分布不確定性的標(biāo)準(zhǔn)偏差,這樣就直接給出了數(shù)據(jù)不確定性的度量。標(biāo)準(zhǔn)偏差的預(yù)測(cè)允許(未知)真實(shí)值在特定區(qū)域內(nèi)的分析描述。以一定概率覆蓋真值的區(qū)間(假設(shè)預(yù)測(cè)分布是正確的)是分位數(shù)函數(shù),即累積概率函數(shù)的倒數(shù)。對(duì)于給定的概率值,分位數(shù)函數(shù)給出了一個(gè)邊界。分位數(shù)假設(shè)某種概率分布,并將給定的預(yù)測(cè)解釋為分布的預(yù)期值。
與此相反,其他方法則是直接預(yù)測(cè)所謂的預(yù)測(cè)區(qū)間(PI),其中假設(shè)存在預(yù)測(cè)。這樣的區(qū)間會(huì)導(dǎo)致不確定性以均勻分布的形式出現(xiàn),而不會(huì)給出具體的預(yù)測(cè)。顧名思義,這種方法的確定性可以通過(guò)預(yù)測(cè)區(qū)間的大小直接衡量。平均預(yù)測(cè)區(qū)間寬度(MPIW)可用于評(píng)估模型的平均確定性。為了評(píng)估預(yù)測(cè)間隔的正確性,可以應(yīng)用預(yù)測(cè)間隔覆蓋概率(PICP)。PCIP代表落入預(yù)測(cè)區(qū)間的測(cè)試預(yù)測(cè)的百分比。
回歸預(yù)測(cè)中測(cè)量模型不確定性:模型不確定性主要由模型的結(jié)構(gòu)、訓(xùn)練過(guò)程和訓(xùn)練數(shù)據(jù)中代表性不足的區(qū)域引起。因此,回歸和分類(lèi)任務(wù)之間的模型不確定性的原因和影響沒(méi)有真正的區(qū)別;如此一來(lái),回歸任務(wù)中的模型不確定性可以像分類(lèi)任務(wù)中已經(jīng)描述的那樣進(jìn)行等效測(cè)量,例如在大多數(shù)情況下,通過(guò)近似平均預(yù)測(cè)和測(cè)量單個(gè)預(yù)測(cè)之間的差異來(lái)進(jìn)行。
圖8:模型的可視化和回歸模型的分布不確定性
圖9:模型的可視化和回歸模型的分布不確定性
評(píng)估分割任務(wù)中的不確定性:評(píng)估分割任務(wù)中的不確定性與評(píng)估分類(lèi)問(wèn)題非常相似。分割任務(wù)中的不確定性使用貝葉斯推理的近似方法估計(jì)。在分割上下文中,像素級(jí)分割中的不確定性使用置信區(qū)間、預(yù)測(cè)方差、預(yù)測(cè)熵或互信息(MI)來(lái)測(cè)量。結(jié)構(gòu)估計(jì)中的不確定性是通過(guò)對(duì)所有像素不確定性估計(jì)進(jìn)行平均得到的。體積不確定性的質(zhì)量通過(guò)評(píng)估變異系數(shù)、平均Dice分?jǐn)?shù)或聯(lián)合上的交點(diǎn)來(lái)評(píng)估。這些指標(biāo)以成對(duì)的方式測(cè)量多個(gè)估計(jì)值之間在面積重疊方面的一致性。理想情況下,錯(cuò)誤分割會(huì)導(dǎo)致像素和結(jié)構(gòu)不確定性增加。為了驗(yàn)證是否存在這種情況,應(yīng)評(píng)估像素級(jí)的真陽(yáng)性率,以及不同不確定度閾值下保留像素的假檢測(cè)率和ROC曲線(xiàn)。
校準(zhǔn)
如果推導(dǎo)出的預(yù)測(cè)置信度代表了實(shí)際正確性概率的良好近似值,則稱(chēng)預(yù)測(cè)值為校準(zhǔn)良好。因此,為了使用不確定度量化方法,必須確保系統(tǒng)經(jīng)過(guò)良好校準(zhǔn)。對(duì)于回歸任務(wù),可以定義校準(zhǔn),預(yù)測(cè)的置信區(qū)間應(yīng)與根據(jù)數(shù)據(jù)集經(jīng)驗(yàn)計(jì)算的置信區(qū)間相匹配。
通常,校準(zhǔn)誤差是由與模型不確定性相關(guān)的因素引起的。這一點(diǎn)從直覺(jué)上很容易理解,因?yàn)閿?shù)據(jù)不確定性代表了潛在的不確定性,即輸入x和目標(biāo)y代表相同的真實(shí)世界信息。接下來(lái),正確預(yù)測(cè)的數(shù)據(jù)不確定性將導(dǎo)致一個(gè)完美校準(zhǔn)的系統(tǒng)。這一點(diǎn)很清楚,因?yàn)檫@些方法分別量化了模型和數(shù)據(jù)的不確定性,旨在減少預(yù)測(cè)中的模型不確定性。除了通過(guò)降低模型不確定性來(lái)改進(jìn)校準(zhǔn)的方法外,大量且不斷增長(zhǎng)的文獻(xiàn)還研究了顯式降低校準(zhǔn)誤差的方法。下節(jié)將介紹這些方法以及量化校準(zhǔn)誤差的措施。需要注意的是,這些方法不會(huì)減少模型的不確定性,而是將模型的不確定性傳播到數(shù)據(jù)不確定性的表示上。
例如,如果二元分類(lèi)器被過(guò)度擬合,并以概率1將測(cè)試集的所有樣本預(yù)測(cè)為A類(lèi)別,而一半的測(cè)試樣本實(shí)際上是B類(lèi)別,則重新校準(zhǔn)方法可能會(huì)將網(wǎng)絡(luò)輸出映射到0.5,以獲得可靠的置信度。0.5的概率不等于數(shù)據(jù)不確定性,但表示傳播到預(yù)測(cè)數(shù)據(jù)不確定性上的模型不確定性。
校準(zhǔn)方法
根據(jù)應(yīng)用步驟,校準(zhǔn)方法可分為三大類(lèi):
在訓(xùn)練階段應(yīng)用的規(guī)范方法:這些方法修改目標(biāo)、優(yōu)化和/或規(guī)范過(guò)程,以構(gòu)建內(nèi)在校準(zhǔn)的系統(tǒng)和網(wǎng)絡(luò)。
在模型的訓(xùn)練過(guò)程之后應(yīng)用的后處理方法:這些方法需要一個(gè)保留的校準(zhǔn)數(shù)據(jù)集來(lái)調(diào)整預(yù)測(cè)分?jǐn)?shù)以進(jìn)行重新校準(zhǔn)。需要注意的是,它們只能在假設(shè)遺漏驗(yàn)證集的分布等同于基于推理的分布的情況下才可以工作。因此,驗(yàn)證數(shù)據(jù)集的大小也會(huì)影響校準(zhǔn)結(jié)果。
神經(jīng)網(wǎng)絡(luò)不確定性估計(jì)方法:通過(guò)使用減少神經(jīng)網(wǎng)絡(luò)置信度預(yù)測(cè)中模型不確定性的方法,也會(huì)產(chǎn)生更好的校準(zhǔn)預(yù)測(cè)值。這是因?yàn)槭S嗟念A(yù)測(cè)數(shù)據(jù)不確定性更好地代表了預(yù)測(cè)的實(shí)際不確定性。例如,此類(lèi)方法基于貝葉斯方法或深度集成(圖4)。
真實(shí)世界的應(yīng)用
NICE Actimize是以色列一家為區(qū)域和全球金融機(jī)構(gòu)以及政府監(jiān)管機(jī)構(gòu)提供多種金融犯罪、風(fēng)險(xiǎn)和合規(guī)解決方案的供應(yīng)商,他們利用創(chuàng)新技術(shù)保護(hù)機(jī)構(gòu)、消費(fèi)者以及投資者的資產(chǎn),能夠識(shí)別金融犯罪、防止欺詐并保障監(jiān)管合規(guī)。該公司能夠提供實(shí)時(shí)、跨渠道的欺詐預(yù)防、反洗錢(qián)檢測(cè)和交易監(jiān)控解決方案,從而有助于解決支付欺詐、網(wǎng)絡(luò)犯罪、制裁監(jiān)控、市場(chǎng)濫用、客戶(hù)盡職調(diào)查和內(nèi)幕交易等問(wèn)題。
基于AI的系統(tǒng)和高級(jí)分析解決方案可以更早更快地發(fā)現(xiàn)異常行為,消除從盜竊、欺詐、監(jiān)管處罰到制裁的財(cái)務(wù)損失。這樣一來(lái),有助于公司或組織減少各種損失、提高調(diào)查人員的工作效率,并改善法律合規(guī)和監(jiān)督質(zhì)量。
隨著基于AI的系統(tǒng)在金融犯罪中的使用增多,量化和處理不確定性變得愈來(lái)愈重要。一方面,不確定性量化在風(fēng)險(xiǎn)最小化方面發(fā)揮著重要作用,這是預(yù)防欺詐所必需的。另一方面,有一些具有挑戰(zhàn)性的數(shù)據(jù)源為欺詐調(diào)查提供了補(bǔ)充,只是這些數(shù)據(jù)很難核實(shí)。這使得生成可信的“地面真相”成為一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。
Actimize公司的通用評(píng)估框架
為了應(yīng)對(duì)上述問(wèn)題,Activize公司提出了一個(gè)評(píng)估協(xié)議,其中包含各種具體的基線(xiàn)數(shù)據(jù)集和評(píng)估指標(biāo),涵蓋了所有類(lèi)型的不確定性,有助于推動(dòng)不確定性量化研究。此外,他們還考慮了風(fēng)險(xiǎn)規(guī)避和最壞情況下的評(píng)估問(wèn)題。這種通用協(xié)議使數(shù)據(jù)科學(xué)家們能夠輕松地將不同類(lèi)型的方法與既定基準(zhǔn)與真實(shí)世界的數(shù)據(jù)集進(jìn)行比較。
結(jié)論
不確定性量化(UQ)是基于AI的系統(tǒng)和決策過(guò)程的關(guān)鍵部分之一,它在評(píng)估各種實(shí)際應(yīng)用中的不確定性時(shí)變得愈來(lái)愈普遍。如今,不確定性已經(jīng)成為傳統(tǒng)機(jī)器和深度學(xué)習(xí)方法不可分割的一部分,因此本文也對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中最重要的UQ概念和方法進(jìn)行了一個(gè)相對(duì)全面的概述。
原文標(biāo)題:??Uncertainty Quantification in Artificial Intelligence-based Systems??,作者:Danny Butvinik