青青草原在线视频,亚洲视频无码专区,玖玖爱在线观看视频,国产A级理论片无码免费孕妇做为

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

大數(shù)據(jù)AI一體化解讀

一、AI的“iPhone”時(shí)刻

在過(guò)去的一年中,大模型的發(fā)展非常迅速,算力和數(shù)據(jù)的堆疊使模型具備了一些通用的構(gòu)造和回答問(wèn)題的能力,引領(lǐng)人們進(jìn)入了一直夢(mèng)想的人工智能階段。舉個(gè)例子,在與大語(yǔ)言模型聊天時(shí),會(huì)感覺(jué)面對(duì)的不是一個(gè)生硬的機(jī)器人,而是一個(gè)有血有肉的人。它為我們開(kāi)啟了更多的想象空間。原來(lái)的人機(jī)交互,需要通過(guò)鍵盤(pán)鼠標(biāo),通過(guò)一些格式化的方式告訴機(jī)器我們的指令。而現(xiàn)在,人們可以通過(guò)語(yǔ)言來(lái)與計(jì)算機(jī)交互,機(jī)器能夠理解我們的意思,并做出回應(yīng)。

為了跟上潮流,很多科技公司都開(kāi)始投身于大模型的研究。2023 是AI的元年,就像曾經(jīng) iPhone 的問(wèn)世開(kāi)啟了移動(dòng)互聯(lián)網(wǎng)的元年,真正的突破是大算力和大數(shù)據(jù)的應(yīng)用。

圖片

從模型結(jié)構(gòu)上來(lái)看,Transformer 結(jié)構(gòu)其實(shí)已經(jīng)推出很久了。事實(shí)上,GPT 模型比 Bert 模型更早一年發(fā)表,但是由于當(dāng)時(shí)算力的限制,GPT 的效果遠(yuǎn)遠(yuǎn)不如 Bert,所以 Bert 先火起來(lái),被用來(lái)做翻譯,效果非常好。但是今年的焦點(diǎn)已變?yōu)?GPT,其背后的原因就是因?yàn)橛辛朔浅8叩乃懔?,因?yàn)橛布S商的努力,以及在封裝和存儲(chǔ)顆粒上的一些進(jìn)步,使得我們有能力把非常高的算力堆疊在一起,推動(dòng)對(duì)更多數(shù)據(jù)的深入理解,帶來(lái)了AI的突破性成果。正是基于底層平臺(tái)的強(qiáng)有力支撐,算法同學(xué)可以更方便、高效地進(jìn)行模型的開(kāi)發(fā)和迭代,推動(dòng)模型快速演進(jìn)。

二、模型開(kāi)發(fā)范式

一般的模型開(kāi)發(fā)周期如下圖所示:

圖片

很多人認(rèn)為模型訓(xùn)練是其中最關(guān)鍵的一步。但其實(shí)在模型訓(xùn)練之前,有大量的數(shù)據(jù)需要采集、清洗、管理。在這個(gè)過(guò)程中,可以看到有非常多的步驟需要驗(yàn)證,比如是不是有臟數(shù)據(jù),數(shù)據(jù)的統(tǒng)計(jì)分布是不是具有代表性。在模型出來(lái)之后,還要做模型的測(cè)試和驗(yàn)證,這也是數(shù)據(jù)的驗(yàn)證,通過(guò)數(shù)據(jù)來(lái)反饋模型效果如何。

圖片

更好的機(jī)器學(xué)習(xí)是 80% 的數(shù)據(jù)加 20% 的模型,重心應(yīng)該在數(shù)據(jù)這一塊。

圖片

這也反映了模型開(kāi)發(fā)的演進(jìn)趨勢(shì),原來(lái)的模型開(kāi)發(fā)是以模型為中心,而現(xiàn)在則變?yōu)橐詳?shù)據(jù)為中心。

深度學(xué)習(xí)出現(xiàn)的初期,以有監(jiān)督學(xué)習(xí)為主,最重要的是要有標(biāo)注的數(shù)據(jù)。標(biāo)注的數(shù)據(jù)分為兩類(lèi),一類(lèi)是訓(xùn)練數(shù)據(jù),另一類(lèi)是驗(yàn)證數(shù)據(jù)。通過(guò)訓(xùn)練數(shù)據(jù),讓模型去做訓(xùn)練,然后再去驗(yàn)證模型是否能在測(cè)試數(shù)據(jù)上給出很好的結(jié)果。標(biāo)注數(shù)據(jù)成本是非常高的,因?yàn)樾枰巳?biāo)注。如果想要提高模型的效果,需要將大量的時(shí)間和人力花費(fèi)在模型結(jié)構(gòu)上面,通過(guò)結(jié)構(gòu)的變化提高模型的泛化能力,減少模型的 overfit,這就是以模型為中心的開(kāi)發(fā)范式。

隨著數(shù)據(jù)和算力的積累,逐漸開(kāi)始使用無(wú)監(jiān)督的學(xué)習(xí),通過(guò)海量的數(shù)據(jù),讓模型自主地去發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系,此時(shí)就進(jìn)入了以數(shù)據(jù)為中心的開(kāi)發(fā)范式。

在以數(shù)據(jù)為中心的開(kāi)發(fā)模式下,模型結(jié)構(gòu)都是類(lèi)似的,基本上都是 Transformer 的堆疊,因此更關(guān)注的是如何利用數(shù)據(jù)。在用數(shù)據(jù)的過(guò)程中會(huì)有大量的數(shù)據(jù)清洗和比對(duì),因?yàn)樾枰A康臄?shù)據(jù),所以會(huì)耗費(fèi)很多時(shí)間。如何精細(xì)地控制數(shù)據(jù),決定了模型收斂和迭代的速度。

三、大數(shù)據(jù)AI一體化

1.大數(shù)據(jù)AI全景

圖片

阿里云一直強(qiáng)調(diào)AI和大數(shù)據(jù)的融合。因此我們構(gòu)建了一套平臺(tái),它具備非常好的基礎(chǔ)設(shè)施,包括通過(guò)高帶寬的 GPU 集群提供高性能AI算力,以及 CPU 集群提供高性?xún)r(jià)比的存儲(chǔ)和數(shù)據(jù)管理能力。在此之上,我們構(gòu)建了大數(shù)據(jù)AI一體化 PaaS 平臺(tái),其中包括大數(shù)據(jù)的平臺(tái)、AI 的平臺(tái),以及高算力的平臺(tái)和云原生的平臺(tái)等等。引擎部分,包括流式計(jì)算、大數(shù)據(jù)離線計(jì)算 MaxCompute 和 PAI。

在服務(wù)層,有大模型應(yīng)用平臺(tái)百煉和開(kāi)源模型社區(qū) ModelScope。阿里一直在積極推動(dòng)模型社區(qū)的共享,希望以 Model as a service 的理念去激發(fā)更多有AI需求的用戶(hù),能夠利用這些模型的基礎(chǔ)能力,快速組建AI應(yīng)用。

2.為什么需要將大數(shù)據(jù)和AI結(jié)合

下面通過(guò)兩個(gè)案例,來(lái)解釋為什么需要大數(shù)據(jù)與AI的聯(lián)動(dòng)。

案例 1:知識(shí)庫(kù)檢索增強(qiáng)的大模型問(wèn)答系統(tǒng)

圖片

在大模型問(wèn)答系統(tǒng)中,首先要用到基礎(chǔ)模型,然后把目標(biāo)的文檔進(jìn)行 embedding 化,并將 embedding 化的結(jié)果存在向量數(shù)據(jù)庫(kù)中。文檔的數(shù)量可能會(huì)非常大,因此 embedding 化時(shí)需要批處理的能力。本身基礎(chǔ)模型的推理服務(wù)也是很耗資源的,當(dāng)然這也取決于用多大的基礎(chǔ)模型,以及如何并行化。產(chǎn)生的所有 embedding 灌入到向量數(shù)據(jù)庫(kù)中,在查詢(xún)時(shí),query 也要經(jīng)過(guò)向量化,然后通過(guò)向量檢索,把可能跟這個(gè)問(wèn)答有關(guān)的知識(shí)從向量數(shù)據(jù)庫(kù)里面提取出來(lái)。這需要非常好的推理服務(wù)的性能。

提取出向量后,需要把向量所代表的文檔作為 context,再去約束這個(gè)大模型,在此基礎(chǔ)上做出問(wèn)答,這樣回答的效果就會(huì)遠(yuǎn)遠(yuǎn)好于自己搜索方式得到的結(jié)果,并且是以人的自然語(yǔ)言的方式來(lái)回答的。

在上述過(guò)程中,既需要有離線的分布式大數(shù)據(jù)平臺(tái)去快速產(chǎn)生 embedding,又需要有對(duì)大模型訓(xùn)練和服務(wù)的AI平臺(tái),將整個(gè)流程連起來(lái),才能構(gòu)成一個(gè)大模型問(wèn)答系統(tǒng)。

案例 2:智能推薦系統(tǒng)

圖片

另一個(gè)例子就是個(gè)性化推薦,這個(gè)模型往往需要很高的時(shí)效性,因?yàn)槊總€(gè)人的興趣和個(gè)性都會(huì)發(fā)生變化,要捕獲這些變化,需要用流式計(jì)算的系統(tǒng)對(duì) APP 內(nèi)獲取到的數(shù)據(jù)進(jìn)行分析,然后通過(guò)提取的特征,不停地讓模型 online learning,每當(dāng)有新的數(shù)據(jù)進(jìn)來(lái)時(shí),模型就會(huì)更新,隨后通過(guò)新的模型去服務(wù)客戶(hù)。因此,在這個(gè)場(chǎng)景中,需要有流式計(jì)算的能力,還需要有模型服務(wù)和訓(xùn)練的能力。

3.如何將大數(shù)據(jù)與AI結(jié)合

通過(guò)以上案例可以看到AI與大數(shù)據(jù)相結(jié)合已成為必然的發(fā)展趨勢(shì)。在此理念基礎(chǔ)之上,首先需要有一個(gè)工作空間,能夠?qū)⒋髷?shù)據(jù)平臺(tái)和AI平臺(tái)納入一起管理,這就是AI工作空間誕生的原因。

圖片

在這個(gè)AI工作空間里面,支持 Flink 的集群、離線計(jì)算集群 MaxCompute,也能夠支持AI的平臺(tái),還支持容器服務(wù)計(jì)算平臺(tái)等等。

圖片

將大數(shù)據(jù)與AI統(tǒng)一管起來(lái)只是第一步,更重要的是以工作流的方式將它們連起來(lái)??梢酝ㄟ^(guò)多種方式建立工作流,如 SDK 的方式、圖形化的方式、GUI 的方式、寫(xiě) SPEC 的方式等等。工作流中的節(jié)點(diǎn)可以是大數(shù)據(jù)處理的節(jié)點(diǎn),也可以是AI處理的節(jié)點(diǎn),這樣就能夠很好地將復(fù)雜的流程連接起來(lái)。

圖片

要進(jìn)一步提高效率、降低成本,就需要 Severless 云原生服務(wù)。上圖中詳細(xì)描述了什么是 Severless。云原生,從 share nothing(非云化方式),到 share everything(非常云化的方式),之間有很多不同的層次。層次越高,資源的共享程度越高,單位計(jì)算的成本就會(huì)越低,但是對(duì)于系統(tǒng)的壓力也會(huì)越大。

圖片

大數(shù)據(jù)和數(shù)據(jù)庫(kù)領(lǐng)域在這兩年開(kāi)始慢慢走向 Serverless,也是基于成本的考慮。原先,即便是在云上使用的 Server,如云上的數(shù)據(jù)庫(kù),也是以實(shí)例化的形式存在。這些實(shí)例的背后有資源的影子,比如這個(gè)實(shí)例是多少 CPU、多少 Core。慢慢地逐漸轉(zhuǎn)變?yōu)?Serverless,第一個(gè)層次是單租計(jì)算,指的是在云上起一個(gè) cluster,然后在里面布大數(shù)據(jù)或者數(shù)據(jù)庫(kù)的平臺(tái)。但這個(gè) cluster 是單租的,也就是和其他人共享物理機(jī),物理機(jī)虛擬化出一個(gè)虛擬機(jī),用于做大數(shù)據(jù)的平臺(tái),這種叫做單租計(jì)算、單租存儲(chǔ)、單租管控。用戶(hù)得到的是云上彈性的 ECS 機(jī)器,但是大數(shù)據(jù)管理、運(yùn)維的方案需要自己來(lái)做。EMR 就是這方面一個(gè)經(jīng)典的方案。

圖片

慢慢地會(huì)從單租存儲(chǔ)走向共享存儲(chǔ),也就是數(shù)據(jù)湖的方案。數(shù)據(jù)在一個(gè)更加共享的大數(shù)據(jù)系統(tǒng)里面,計(jì)算是動(dòng)態(tài)拉起一個(gè)集群,算完了之后這個(gè) cluster 就消亡了,但數(shù)據(jù)不會(huì)消亡,因?yàn)閿?shù)據(jù)是在一個(gè) reliable 的 remote 的存儲(chǔ)端,這就是共享存儲(chǔ)。典型的就是數(shù)據(jù)湖 DLF 以及 serverless EMR 的方案。

圖片

最極致的是 Share Everything,大家如果去用 BigQuery 或者阿里云的 MaxCompute,看到的會(huì)是一個(gè)平臺(tái),一些虛擬化的 project 的管理,用戶(hù)提供一個(gè) query,平臺(tái)根據(jù) query 來(lái)計(jì)費(fèi)計(jì)量。

圖片

這樣可以帶來(lái)非常多的好處。比如在大數(shù)據(jù)計(jì)算中有很多節(jié)點(diǎn),并不需要有用戶(hù)的代碼,因?yàn)檫@些節(jié)點(diǎn)其實(shí)是一些 build-in 的 operator,比如 join、aggregator,這些確定性的結(jié)果并不需要用一個(gè)比較重的 Sandbox,因?yàn)樗鼈兪谴_定性的算子,是經(jīng)過(guò)嚴(yán)格的測(cè)試檢驗(yàn)的,沒(méi)有任何惡意代碼或隨意的 UDF 代碼,因此可以讓其去掉虛擬化這些 overhead。

UDF 帶來(lái)的好處是靈活性,使我們能夠有能力去處理豐富的數(shù)據(jù),在數(shù)據(jù)量大的時(shí)候有很好的擴(kuò)展性。但 UDF 會(huì)帶來(lái)的一個(gè)挑戰(zhàn)就是需要有安全性,需要做隔離。

無(wú)論是 Google 的 BigQuery 還是 MaxComputer,都是走在 share everything 的架構(gòu)上面,我們認(rèn)為只有技術(shù)的不斷提升,才能夠把資源用得更加緊實(shí),將算力成本節(jié)省下來(lái),從而讓更多企業(yè)能夠消費(fèi)得起這些數(shù)據(jù),推動(dòng)數(shù)據(jù)在模型訓(xùn)練上面的使用。

圖片

正是因?yàn)橛?share everything,我們不僅可以將大數(shù)據(jù)和AI通過(guò)工作空間統(tǒng)一管理起來(lái),通過(guò) PAI-flow 連起來(lái),更能夠以 share everything 的方式進(jìn)行統(tǒng)一調(diào)度。這樣企業(yè) AI+大數(shù)據(jù)的研發(fā)成本會(huì)進(jìn)一步下降。

在這一點(diǎn)上,有很多工作要做。K8S 本身的調(diào)度是面向微服務(wù)的,對(duì)于大數(shù)據(jù)會(huì)面臨很大挑戰(zhàn),因?yàn)榇髷?shù)據(jù)的服務(wù)調(diào)度粒度非常小,很多 task 只會(huì)存活幾秒到幾十秒,這對(duì)于調(diào)度的規(guī)模性以及對(duì)調(diào)度的整體壓力會(huì)有幾個(gè)量級(jí)的提升。我們主要需要解決在 K8S 上,怎樣讓這種調(diào)度的能力得到 scale off,我們推出的 Koordinator 開(kāi)源項(xiàng)目就是要去提高調(diào)度能力,使大數(shù)據(jù)和AI在 K8S 生態(tài)上得到融合。

圖片

另一項(xiàng)重要的工作就是多租安全隔離。如何在 K8S 的服務(wù)層、控制層做多租,如何在網(wǎng)絡(luò)上去做 over lake 多租,使得在一個(gè) K8S 之上服務(wù)多種用戶(hù),各用戶(hù)的數(shù)據(jù)和資源能夠得到有效的隔離。

圖片

阿里推出了一個(gè)容器服務(wù)叫做 ACS,也就是通過(guò)前面介紹的兩個(gè)技術(shù)把所有資源通過(guò)容器化的方式暴露出來(lái),使得用戶(hù)在大數(shù)據(jù)平臺(tái)和AI平臺(tái)上面能夠無(wú)縫地使用。它是一種多租的方式,并且能夠支撐住大數(shù)據(jù)的需求。大數(shù)據(jù)在調(diào)度上面的需求是比在微服務(wù)和AI上面都高幾個(gè)量級(jí)的,必須要做好。在這個(gè)基礎(chǔ)上面,通過(guò) ACS 產(chǎn)品,可以幫助客戶(hù)很好地去管理其資源。

圖片

企業(yè)面臨很多需求,需要把資源管得更精細(xì)。比如企業(yè)中分各個(gè)部門(mén)、子團(tuán)隊(duì),在做大模型的時(shí)候,會(huì)把資源拆成很多方向,每個(gè)團(tuán)隊(duì)去做發(fā)散性的創(chuàng)新,看看這個(gè)基模型到底在什么場(chǎng)景下能夠得到很好的應(yīng)用。但是在某一個(gè)時(shí)刻,希望集中力量辦大事,把所有的算力及資源集中起來(lái)去訓(xùn)練下一個(gè)迭代的基模型。為了解決這一問(wèn)題,我們引入了多級(jí) quota 管理,也就是在更高需求的任務(wù)到來(lái)時(shí),可以有一個(gè)更高的層次,把下面所有的子 quota 合并集中起來(lái)。

圖片

在AI這個(gè)場(chǎng)景里面其實(shí)有非常多的特殊性,有很多的情況下是同步計(jì)算,而同步計(jì)算對(duì)于延遲的敏感度非常強(qiáng),并且AI計(jì)算密度大,對(duì)于網(wǎng)絡(luò)的要求是非常高的。如果要保證算力,就需要供數(shù),需要交換梯度(gradient)這些信息,并且在模型并行的時(shí)候,交換的東西會(huì)更多。在這些情況下,為了保證通訊沒(méi)有短板,就需要做基于拓?fù)涓兄恼{(diào)度。

舉一個(gè)例子,在模型訓(xùn)練的 All Reduce 環(huán)節(jié)中,如果進(jìn)行隨機(jī)調(diào)度,cross port 的交換機(jī)連接會(huì)非常多,而如果精細(xì)控制順序,那么 cross 交換機(jī)的連接就會(huì)很干凈,這樣延遲就能夠得到很好的保證,因?yàn)椴粫?huì)在上層的交換機(jī)里面發(fā)生沖突。

經(jīng)過(guò)這些優(yōu)化,性能可以得到大幅地提升。怎樣把這些拓?fù)涓兄恼{(diào)度下沉到整個(gè)平臺(tái)的管理器上,也是AI加大數(shù)據(jù)平臺(tái)管理需要去考慮的一個(gè)問(wèn)題。

圖片

前面介紹的是資源和平臺(tái)上的管理,數(shù)據(jù)的管理也是至關(guān)重要的,我們一直在耕耘的就是數(shù)倉(cāng)的系統(tǒng),比如數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量等等。要將數(shù)據(jù)系統(tǒng)和AI系統(tǒng)進(jìn)行關(guān)聯(lián),需要數(shù)倉(cāng)提供一個(gè)AI友好的數(shù)據(jù)鏈路。比如在AI開(kāi)發(fā)過(guò)程中用的是 Python 的生態(tài),數(shù)據(jù)這邊怎么通過(guò)一個(gè) Python 的 SDK 去使用這個(gè)平臺(tái)。Python 最流行的庫(kù)就是類(lèi)似于 pandas 這樣的 data frame 數(shù)據(jù)結(jié)構(gòu),我們可以把大數(shù)據(jù)引擎的 client 端包裝成 pandas 的接口,這樣所有熟悉 Python 的AI開(kāi)發(fā)工作者就能夠很好地去使用它背后的數(shù)據(jù)平臺(tái)。這也是我們今年在 MaxCompute 上推出的 MaxFrame 框架的理念。

圖片

數(shù)據(jù)處理系統(tǒng)在很多情況下對(duì)成本的敏感度較高,有時(shí)候會(huì)用更高密的存儲(chǔ)系統(tǒng)來(lái)存數(shù)倉(cāng)的系統(tǒng),但是為了不浪費(fèi)這個(gè)系統(tǒng),又會(huì)在上面布很多 GPU,這個(gè)高密的集群對(duì)于網(wǎng)絡(luò)和 GPU 都是非??量痰?,這兩個(gè)系統(tǒng)很可能是存算分離的。我們的數(shù)據(jù)系統(tǒng)可能是偏治理、偏管理,而計(jì)算系統(tǒng)偏計(jì)算,可能是一個(gè) remote 的連接方式,雖然都在一個(gè) K8S 的管理下,但為了讓計(jì)算的時(shí)候不會(huì)等數(shù)據(jù),我們做了數(shù)據(jù)集加速 DataSetAcc,其實(shí)就是一個(gè) data cache,無(wú)縫地和遠(yuǎn)程存儲(chǔ)節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行連接,幫助算法工程師在背后把數(shù)據(jù)拉到本地的內(nèi)存或者 SSD 上面,以供計(jì)算使用。

圖片

通過(guò)上述方式,使得AI和大數(shù)據(jù)的平臺(tái)能夠有機(jī)結(jié)合在一起,這樣我們才能去做一些創(chuàng)新。例如,在支持很多通義系列的模型訓(xùn)練時(shí),有很多數(shù)據(jù)是需要清洗的,因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)有很多重復(fù),如何通過(guò)大數(shù)據(jù)系統(tǒng)去做數(shù)據(jù)的去重就很關(guān)鍵。正是因?yàn)槲覀儼褍商紫到y(tǒng)很好的有機(jī)結(jié)合在一起,很容易在大數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)的清洗,出來(lái)的結(jié)果能夠馬上灌給模型訓(xùn)練。

圖片

前文中主要介紹了大數(shù)據(jù)如何為AI模型訓(xùn)練提供支撐。另一方面,也可以利用AI技術(shù)來(lái)助力數(shù)據(jù)洞察,走向 BI +AI的數(shù)據(jù)處理模式。

圖片

在數(shù)據(jù)處理環(huán)節(jié),可以幫助數(shù)據(jù)分析師更簡(jiǎn)單地去構(gòu)建分析,原來(lái)可能要寫(xiě) SQL,學(xué)習(xí)如何用工具與數(shù)據(jù)系統(tǒng)進(jìn)行交互。但AI時(shí)代,改變了人機(jī)交互的方式,可以通過(guò)自然語(yǔ)言的方式跟數(shù)據(jù)系統(tǒng)進(jìn)行交互。例如 Copilot 編程助手,可以輔助生成 SQL,幫助完成數(shù)據(jù)開(kāi)發(fā)環(huán)節(jié)中的各個(gè)步驟,從而大幅提升開(kāi)發(fā)效率。

圖片

另外,還可以通過(guò)AI的方式來(lái)做數(shù)據(jù)洞察。比如一份數(shù)據(jù),unique key 有多少,適合用什么樣的方式去做 visualization,都可以利用AI來(lái)獲得。AI 可以從各個(gè)角度去觀察數(shù)據(jù)、理解數(shù)據(jù),實(shí)現(xiàn)自動(dòng)的數(shù)據(jù)探查、智能的數(shù)據(jù)查詢(xún)、圖表的生成,還有一鍵生成分析報(bào)表等等,這就是智能的分析服務(wù)。

四、總結(jié)

圖片

在大數(shù)據(jù)和AI的推動(dòng)下,近年來(lái)出現(xiàn)了一些非常令人欣喜的科技進(jìn)展。要想在這一潮流中立于不敗之地,就要做好大數(shù)據(jù)和AI的聯(lián)動(dòng),只有兩者相輔相乘,才能實(shí)現(xiàn)更好的AI迭代加速和數(shù)據(jù)理解。

猜你喜歡