青青草原在线视频,亚洲视频无码专区,玖玖爱在线观看视频,国产A级理论片无码免费孕妇做为

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

人工智能如何修改、刪減某些模塊或數(shù)據(jù)記錄

機(jī)器學(xué)習(xí)(ML)已經(jīng)成為各行各業(yè)的寶藏工具,常被用來構(gòu)建系統(tǒng),幫助我們發(fā)現(xiàn)那些容易忽略的細(xì)節(jié),并輔助決策。盡管已經(jīng)取得了驚艷的結(jié)果,但是也有很多痛苦,比如如何在已經(jīng)成型的模型中修改、刪減某些模塊或者數(shù)據(jù)記錄?

有學(xué)者表示,在大多數(shù)情況下,修改往往意味著重新訓(xùn)練,但仍然無法避免納入可疑數(shù)據(jù)。這些數(shù)據(jù)可能來自系統(tǒng)日志、圖像、客戶管理系統(tǒng)等等。尤其是歐洲GDPR出臺(tái),對模型遺忘功能提出了更高的要求,企業(yè)如果不想辦法將會(huì)面臨合規(guī)處罰。

確實(shí),完全重新訓(xùn)練的代價(jià)比較高,也不可能解決敏感數(shù)據(jù)問題。因此,我們無法證明重新訓(xùn)練的模型可以完全準(zhǔn)確、有效。

為了解決這些問題,學(xué)者們定義了一種“ML解除術(shù)”(machine unlearning),通過分解數(shù)據(jù)庫、調(diào)整算法等專門技術(shù),誘導(dǎo)模型選擇性失憶。ML解除術(shù),顧名思義,就是讓訓(xùn)練好的模型遺忘掉特定數(shù)據(jù)訓(xùn)練效果/特定參數(shù), 以達(dá)到保護(hù)模型中隱含數(shù)據(jù)的目的。

打破模型

ML之所以有魅力,是因?yàn)樗芡高^龐大的數(shù)據(jù),超出人類認(rèn)知范圍的復(fù)雜關(guān)系。同時(shí),這項(xiàng)技術(shù)的黑盒性質(zhì),讓學(xué)者在修改模型時(shí)候,非常謹(jǐn)慎,畢竟無法知道一個(gè)特定的數(shù)據(jù)點(diǎn)處在模型的哪個(gè)位置,以及無法明確該數(shù)據(jù)點(diǎn)如何直接影響模型。

另外一種情況是:當(dāng)數(shù)據(jù)出現(xiàn)異常值時(shí),模型會(huì)記得特別牢,并對整體效果產(chǎn)生影響。

當(dāng)前的數(shù)據(jù)隱私工具可以在數(shù)據(jù)脫敏的情況下訓(xùn)練模型,也可以在數(shù)據(jù)不出本地的情況下聯(lián)合訓(xùn)練?;蛟S可以將敏感數(shù)據(jù)替換成空值,引入噪聲掩蔽敏感數(shù)據(jù)。但這些都無法從根本上解決問題。甚至,替代元素并保留關(guān)鍵數(shù)據(jù)的差異隱私技術(shù)也不足以解決選擇性遺忘問題。比如它只能在單個(gè)案件或少數(shù)幾個(gè)案件中發(fā)揮作用,在這些案件中,雖然不需要重新訓(xùn)練,但會(huì)有“敏感”的人要求從數(shù)據(jù)庫中刪除數(shù)據(jù)。隨著越來越多的刪除請求陸續(xù)到來,該框架的“遺忘模型"很快就會(huì)瓦解。

因此,隱私技術(shù)和ML解除術(shù)在解決問題的層面,并不能等同。

匿名無法驗(yàn)證和差分隱私技術(shù)的數(shù)據(jù)刪除問題不僅是理論問題,而且會(huì)產(chǎn)生嚴(yán)重的后果。研究人員已經(jīng)證明,我們總是有能力從所謂的通用算法和模型中提取敏感數(shù)據(jù)。比如2020年時(shí)候,學(xué)者發(fā)現(xiàn),從GPT-2中可以獲得包括個(gè)人身份和受版權(quán)保護(hù)的信息等訓(xùn)練數(shù)據(jù)。

選擇性遺忘

讓ML模型獲得選擇性遺忘的能力,需要解決兩個(gè)關(guān)鍵問題:

理解每個(gè)數(shù)據(jù)點(diǎn)如何ML模型;

隨機(jī)性如何影響空間。比如需要弄清,在某些情況下,數(shù)據(jù)輸入中相對較小的變化為何會(huì)產(chǎn)生不同的結(jié)果。

該方向的最初研究出現(xiàn)在在2019年。當(dāng)時(shí),Nicolas Papernot提出將ML的數(shù)據(jù)分割成多個(gè)獨(dú)立的部分,通過建立眾多的迷你數(shù)據(jù),從而實(shí)現(xiàn)只對特定組件進(jìn)行刪除和再訓(xùn)練,然后插回完整的數(shù)據(jù)集中,生成功能齊全的ML模型。

具體操作過程是:先將訓(xùn)練數(shù)據(jù)分成多個(gè)不相交的切片,且一個(gè)訓(xùn)練點(diǎn)只包含在一個(gè)切片中;然后,在每個(gè)切片上單獨(dú)訓(xùn)練模型;隨后,合并切片,成功刪除數(shù)據(jù)元素。因此,當(dāng)一個(gè)訓(xùn)練點(diǎn)被要求遺忘時(shí),只需要重新訓(xùn)練受影響的模型。由于切片比整個(gè)訓(xùn)練集更小,就減少了遺忘的代價(jià)。

該方法被Nicolas Papernot命名為SISA(Sharded, Isolated, Sliced, and Aggregated ),對比完全重訓(xùn)練和部分重訓(xùn)練的基線, SISA實(shí)現(xiàn)了準(zhǔn)確性和時(shí)間開銷的權(quán)衡。在簡單學(xué)習(xí)任務(wù)中, 在數(shù)據(jù)集Purchase上是4.63x, 在數(shù)據(jù)集 SVHN上是2.45x。

同時(shí),作者也承認(rèn),雖然這個(gè)概念很有前途,但也有局限性。比如,通過減少每個(gè)切片的數(shù)據(jù)量,會(huì)對ML產(chǎn)生影響,并且可能會(huì)產(chǎn)生質(zhì)量較低的結(jié)果。此外,這項(xiàng)技術(shù)并不總是像宣傳的那樣奏效。

目前,ML遺忘術(shù)的研究仍處于初級(jí)階段。隨著研究人員和數(shù)據(jù)科學(xué)家深入了解刪除數(shù)據(jù)對整體模型的影響,成熟的工具也會(huì)出現(xiàn),其目標(biāo)是:ML框架和算法允許學(xué)者刪除一條記錄或單個(gè)數(shù)據(jù)點(diǎn),并最終得到一個(gè)“完全遺忘“相關(guān)數(shù)據(jù)的有效模型。

猜你喜歡