毫無疑問,為訓(xùn)練AI或ML收集真實(shí)數(shù)據(jù)既耗時(shí)又昂貴。而且,很多時(shí)候也充滿了風(fēng)險(xiǎn),但更常見的問題是數(shù)據(jù)太少或有偏見的數(shù)據(jù)可能會(huì)使企業(yè)組織誤入歧途。但是,如果你可以生成新數(shù)據(jù),即所謂的合成數(shù)據(jù)呢?
這聽起來不太可能,但這正是Synthesis AI計(jì)劃從468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital和Kubera Venture Capital等風(fēng)險(xiǎn)投資公司籌集的1700萬美元的A輪融資。
這是一個(gè)非??煽康淖C據(jù)。該公司正計(jì)劃利用這這筆資金來擴(kuò)大其在混合真實(shí)和合成數(shù)據(jù)領(lǐng)域的研發(fā)。
Synthesis AI的首席執(zhí)行官Yashar Behzadi在一份聲明中表示:“合成數(shù)據(jù)正處于采用的拐點(diǎn),我們的目標(biāo)是進(jìn)一步開發(fā)該技術(shù)并推動(dòng)計(jì)算機(jī)視覺系統(tǒng)構(gòu)建方式的范式變革。該行業(yè)將很快在虛擬世界中全面設(shè)計(jì)和訓(xùn)練計(jì)算機(jī)視覺模型,從而實(shí)現(xiàn)更先進(jìn)和合乎道德的AI。”
但什么是合成數(shù)據(jù)?
合成數(shù)據(jù)是人工創(chuàng)建的,而不是從現(xiàn)實(shí)世界中收集的。當(dāng)前,許多應(yīng)用都專注于視覺數(shù)據(jù),例如從計(jì)算機(jī)視覺系統(tǒng)收集的數(shù)據(jù)。盡管如此,沒有實(shí)際理由不能為其他用例創(chuàng)建合成數(shù)據(jù),例如測(cè)試應(yīng)用或改進(jìn)用于檢測(cè)欺詐的算法。它們有點(diǎn)像物理記錄的高度結(jié)構(gòu)化的數(shù)字孿生。
通過大規(guī)模提供海量、真實(shí)的數(shù)據(jù)集,數(shù)據(jù)科學(xué)家和分析師理論上可以跳過數(shù)據(jù)收集過程,直接進(jìn)入測(cè)試或訓(xùn)練。
這是因?yàn)閯?chuàng)建真實(shí)世界數(shù)據(jù)集的大部分成本不僅僅是收集原始數(shù)據(jù)。以計(jì)算機(jī)視覺和自動(dòng)駕駛汽車為例,汽車制造商和研究人員可以將各種攝像頭、雷達(dá)和激光雷達(dá)傳感器連接到車輛上進(jìn)行收集,但原始數(shù)據(jù)對(duì) AI/ML 算法沒有任何意義。同樣艱巨的挑戰(zhàn)是使用上下文信息手動(dòng)標(biāo)記數(shù)據(jù),以幫助系統(tǒng)做出更好的決策。
讓我們來看看這個(gè)挑戰(zhàn)的背景:想象一下,你經(jīng)常開一段很短的車,所有的停車標(biāo)志、十字路口、停著的車、行人等等,然后想象一下,給每一個(gè)潛在的危險(xiǎn)都貼上標(biāo)簽是一項(xiàng)艱巨的任務(wù)。
合成數(shù)據(jù)的核心優(yōu)勢(shì)在于,理論上,它可以創(chuàng)建完美標(biāo)記的數(shù)據(jù)集,其規(guī)模足以正確訓(xùn)練 AI/ML 應(yīng)用,這意味著數(shù)據(jù)科學(xué)家可以在大量新地方突然測(cè)試他們的算法,然后才能真正實(shí)現(xiàn)世界數(shù)據(jù)或在難以獲取的情況下。繼續(xù)自動(dòng)駕駛汽車的例子,數(shù)據(jù)科學(xué)家可以創(chuàng)建合成數(shù)據(jù)來訓(xùn)練汽車在惡劣條件下駕駛,例如積雪覆蓋的道路,而無需派司機(jī)向北或進(jìn)入山區(qū)手動(dòng)收集數(shù)據(jù)。
合成數(shù)據(jù)的核心優(yōu)勢(shì)在于,從理論上講,它可以在適當(dāng)訓(xùn)練AI/ML應(yīng)用所需的規(guī)模上創(chuàng)建完美標(biāo)記的數(shù)據(jù)集,這意味著數(shù)據(jù)科學(xué)家可以在獲得真實(shí)數(shù)據(jù)之前,或在難以獲得數(shù)據(jù)的情況下,突然在許多新的地方測(cè)試他們的算法。還是自動(dòng)駕駛汽車的例子,數(shù)據(jù)科學(xué)家可以創(chuàng)建合成數(shù)據(jù)來訓(xùn)練汽車在不利條件下駕駛,比如白雪覆蓋的道路,而無需讓司機(jī)一路向北或進(jìn)入山區(qū)手動(dòng)收集數(shù)據(jù)。
然而,合成數(shù)據(jù)存在先有雞還是先有蛋的問題,因?yàn)橹荒苁褂?hellip;…更多數(shù)據(jù)和更多 AI/ML 算法來創(chuàng)建它。從“種子”數(shù)據(jù)集開始,然后將其作為合成創(chuàng)作的基準(zhǔn),這意味著它們只會(huì)與您開始使用的數(shù)據(jù)一樣好。
(無形)利益
有哪些數(shù)據(jù)科學(xué)家或研究人員不會(huì)從看似無窮無盡的數(shù)據(jù)生成器中獲益?其核心好處——能夠避免手動(dòng)收集真實(shí)世界的數(shù)據(jù)——只是合成數(shù)據(jù)可以加速AI/ML應(yīng)用的方式之一。
由于分析師和數(shù)據(jù)科學(xué)家可以嚴(yán)格控制種子數(shù)據(jù),甚至可以額外努力納入多樣性,或與外部顧問合作發(fā)現(xiàn)和解碼偏見,他們可以對(duì)自己提出更高的標(biāo)準(zhǔn)。例如,Synthesis AI正在開發(fā)一種監(jiān)測(cè)司機(jī)狀態(tài)的系統(tǒng),并仔細(xì)地將不同的面孔包含在他們的計(jì)算機(jī)生成的合成數(shù)據(jù)集中,以確保現(xiàn)實(shí)世界的應(yīng)用適用于每個(gè)人。
隱私是另一個(gè)潛在的勝利。如果一家公司花費(fèi)數(shù)百萬英里來為他們的自動(dòng)駕駛汽車收集真實(shí)世界的數(shù)據(jù),他們就會(huì)收集到很多人認(rèn)為是個(gè)人隱私的大量數(shù)據(jù)——尤其是他們的臉。像谷歌和蘋果這樣的大公司已經(jīng)找到了在他們的地圖軟件中避免這些類型問題的方法,但他們的路線對(duì)于想要測(cè)試他們的算法的小型 AI/ML 團(tuán)隊(duì)來說并不可行。
“企業(yè)還在努力解決與以人為本的產(chǎn)品中的模型偏見和消費(fèi)者隱私相關(guān)的道德問題。很明顯,構(gòu)建下一代計(jì)算機(jī)視覺需要一種新的范式,”該公司首席執(zhí)行官兼創(chuàng)始人 Yashar Behzadi??對(duì)媒體表示??。
雖然合成數(shù)據(jù)確實(shí)依賴于種子才能開始,但可以對(duì)其進(jìn)行調(diào)整和修改,以幫助在現(xiàn)實(shí)生活中難以或危險(xiǎn)捕獲的邊緣情況下訓(xùn)練 AI/ML 應(yīng)用。自動(dòng)駕駛汽車背后的公司希望擅長(zhǎng)識(shí)別僅部分可見的物體或人,例如隱藏在卡車后面的停車標(biāo)志,或站在兩輛車之間的行人沖上馬路。
考慮到這些勝利,盡管有些人擔(dān)心將偏見編碼到合成數(shù)據(jù)中的先有雞還是先有蛋的問題,Gartner??預(yù)測(cè),到 2024??年,用于開發(fā) AI 和分析產(chǎn)品的數(shù)據(jù)的 60% 將綜合生成。他們預(yù)測(cè),大部分新數(shù)據(jù)將專注于在它們所基于的歷史數(shù)據(jù)失去相關(guān)性或基于過去經(jīng)驗(yàn)的假設(shè)失效的情況下修復(fù)預(yù)測(cè)模型。
但是總是需要收集一些真實(shí)世界的數(shù)據(jù),所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長(zhǎng)的路要走。