GenAI的迅速出現(xiàn)使更多的人能夠釋放數(shù)據(jù)的力量,以獲得新的見(jiàn)解和更好的決策,但允許更廣泛地訪問(wèn)數(shù)據(jù)需要一種數(shù)據(jù)治理戰(zhàn)略。能夠平衡這些看似對(duì)立的趨勢(shì)的企業(yè)——數(shù)據(jù)民主化,同時(shí)對(duì)數(shù)據(jù)保持強(qiáng)有力的治理——將通過(guò)釋放獨(dú)特的數(shù)據(jù)驅(qū)動(dòng)洞察力,在市場(chǎng)上脫穎而出。
根據(jù)Gartner的數(shù)據(jù),到2026年,超過(guò)80%的企業(yè)將使用GenAI API和模型,或在生產(chǎn)中部署啟用GenAI的應(yīng)用程序,而去年這一比例不到5%。GenAI的自然語(yǔ)言界面允許非技術(shù)用戶(hù),從部門(mén)負(fù)責(zé)人到一線工作人員,更輕松地訪問(wèn)和使用數(shù)據(jù)。這在獲取信息和技能方面創(chuàng)造了公平的競(jìng)爭(zhēng)環(huán)境,Gartner稱(chēng)這是“本十年最具顛覆性的趨勢(shì)之一”。
如果公司要避免隱私、安全和數(shù)據(jù)質(zhì)量方面的風(fēng)險(xiǎn)增加,以這種方式實(shí)現(xiàn)數(shù)據(jù)民主化就會(huì)使強(qiáng)有力的治理變得更加關(guān)鍵,這意味著準(zhǔn)確地知道你擁有什么數(shù)據(jù)、駐留在哪里、誰(shuí)有權(quán)訪問(wèn)這些數(shù)據(jù)以及每種類(lèi)型的用戶(hù)被允許如何使用這些數(shù)據(jù),但一個(gè)企業(yè)如何在不壓制創(chuàng)新的情況下實(shí)施全面控制?
在較高級(jí)別上,理想的方法是將數(shù)據(jù)統(tǒng)一到一個(gè)綜合存儲(chǔ)庫(kù)中,多個(gè)團(tuán)隊(duì)和工作組可以輕松、安全地訪問(wèn)該存儲(chǔ)庫(kù),統(tǒng)一數(shù)據(jù)使企業(yè)能夠集中管理并擴(kuò)大對(duì)數(shù)據(jù)的訪問(wèn),同時(shí)最大限度地降低復(fù)雜性并優(yōu)化成本。
在現(xiàn)實(shí)中,這可能是具有挑戰(zhàn)性的,因?yàn)閿?shù)據(jù)主權(quán)法律要求將某些數(shù)據(jù)保存在特定的國(guó)家或地區(qū)。在這種情況下,企業(yè)應(yīng)該努力消除孤島,并在其數(shù)據(jù)平臺(tái)上應(yīng)用一致的治理框架。
除此之外,幾種特定的方法和技術(shù)有助于確保企業(yè)可以保持強(qiáng)大的治理,同時(shí)仍然通過(guò)GenAI擴(kuò)大對(duì)數(shù)據(jù)的訪問(wèn),其中一些是適用于任何環(huán)境的基本治理實(shí)踐,但當(dāng)GenAI進(jìn)一步民主化數(shù)據(jù)訪問(wèn)時(shí),它們變得更加重要。
針對(duì)隱私和法規(guī)遵從性的精細(xì)控制
隨著越來(lái)越多的員工訪問(wèn)更多的數(shù)據(jù),個(gè)人身份信息(PII)可能被泄露或被錯(cuò)誤的用戶(hù)看到的潛在風(fēng)險(xiǎn)只會(huì)增加,精細(xì)的控制策略以及匿名化和身份識(shí)別技術(shù)對(duì)于確保法規(guī)遵從性和防止數(shù)據(jù)被錯(cuò)誤的人訪問(wèn)至關(guān)重要。
在我們分析雪花數(shù)據(jù)云趨勢(shì)的新《數(shù)據(jù)趨勢(shì)2024》報(bào)告中,我們注意到治理功能的使用顯著增加,這些功能在提供對(duì)數(shù)據(jù)的精細(xì)控制的同時(shí),還適當(dāng)?shù)貙⑵涮峁┙o更多的用戶(hù),用于更多的用例,例如,在截至2024年1月31日的12個(gè)月中,應(yīng)用的掩碼或行訪問(wèn)策略的使用量與去年同期相比增加了98%,與此同時(shí),分配了掩碼策略的列數(shù)增長(zhǎng)了97%。
然而,值得注意的是,針對(duì)受策略保護(hù)的對(duì)象運(yùn)行的查詢(xún)總數(shù)上升了142%,這個(gè)數(shù)字意義重大,因?yàn)樗砻髁己玫臄?shù)據(jù)治理不是說(shuō)“不”和限制數(shù)據(jù)使用。盡管看到越來(lái)越多的治理通過(guò)使用標(biāo)簽和屏蔽政策,但報(bào)告指出,使用這些數(shù)據(jù)所做的工作量正在迅速上升。
在某些情況下,員工可能希望檢查他們不能被授予直接訪問(wèn)權(quán)限的數(shù)據(jù)集,在這種情況下,差異隱私是一項(xiàng)強(qiáng)大的技術(shù),因?yàn)樗试S用戶(hù)通過(guò)查看數(shù)據(jù)集內(nèi)的模式來(lái)共享和探索數(shù)據(jù)集,而不會(huì)泄露任何個(gè)人用戶(hù)的PII。更進(jìn)一步,數(shù)據(jù)凈化室允許多方在不向彼此披露原始數(shù)據(jù)的情況下就數(shù)據(jù)進(jìn)行協(xié)作,數(shù)據(jù)凈化室通常用于在不同企業(yè)之間共享數(shù)據(jù),但我們正在看到內(nèi)部使用的技術(shù)來(lái)滿(mǎn)足日益增長(zhǎng)的監(jiān)管和隱私需求,它可以成為在GenAI界面環(huán)境中探索PII數(shù)據(jù)的有效技術(shù)。
一致、協(xié)調(diào)的安全性
安全應(yīng)該構(gòu)建在數(shù)據(jù)平臺(tái)的結(jié)構(gòu)中,而不是試圖稍后為個(gè)別數(shù)據(jù)集和用戶(hù)固定它,支持對(duì)話(huà)界面的技術(shù)不應(yīng)該復(fù)制數(shù)據(jù)上的身份和其他核心權(quán)限,這將導(dǎo)致脆弱的設(shè)置。如果兩個(gè)或多個(gè)系統(tǒng)都在跟蹤誰(shuí)可以訪問(wèn)哪些數(shù)據(jù),則出錯(cuò)和未經(jīng)授權(quán)訪問(wèn)的可能性會(huì)大大增加。
在保護(hù)GenAI用例的數(shù)據(jù)方面發(fā)揮關(guān)鍵作用的技術(shù)包括持續(xù)的風(fēng)險(xiǎn)監(jiān)控和保護(hù)、基于角色的訪問(wèn)控制(RBAC)和細(xì)粒度授權(quán)策略?;诮巧臉?biāo)記和基于標(biāo)記的掩碼策略允許你通過(guò)將掩碼策略分配給標(biāo)記,然后在一個(gè)或多個(gè)數(shù)據(jù)庫(kù)對(duì)象上設(shè)置該標(biāo)記,從而在列級(jí)別保護(hù)數(shù)據(jù)。
數(shù)據(jù)孤島是良好治理的敵人
將數(shù)據(jù)的副本或片段存儲(chǔ)在不同的系統(tǒng)中,使得跟蹤誰(shuí)可以訪問(wèn)哪些信息以及保持訪問(wèn)和控制策略的一致性變得極其困難,這就是為什么數(shù)據(jù)孤島是強(qiáng)大治理的敵人。
數(shù)據(jù)孤島還使得很難確保員工查詢(xún)的是最新、最準(zhǔn)確的數(shù)據(jù),這可能會(huì)導(dǎo)致代價(jià)高昂的錯(cuò)誤。為了通過(guò)GenAI實(shí)現(xiàn)對(duì)數(shù)據(jù)的廣泛訪問(wèn),企業(yè)需要一個(gè)單一的真實(shí)來(lái)源,以確保所有員工都在查看相同的信息,并且可以在所有數(shù)據(jù)中全面應(yīng)用和更新控制和策略。
確保數(shù)據(jù)質(zhì)量以獲得準(zhǔn)確的結(jié)果
即使你消除了孤島并擁有適當(dāng)?shù)臋?quán)限,也不能保證員工訪問(wèn)的信息是正確的,數(shù)據(jù)質(zhì)量框架基于應(yīng)用于表中特定列或一組列的可配置數(shù)據(jù)質(zhì)量規(guī)則,可以幫助檢測(cè)質(zhì)量問(wèn)題并確保準(zhǔn)確的信息。
此外,到目前為止,我們都知道,GenAI有時(shí)會(huì)產(chǎn)生幻覺(jué),并產(chǎn)生實(shí)際上沒(méi)有根據(jù)的答案,這對(duì)于企業(yè)使用來(lái)說(shuō)是不可接受的。企業(yè)可以通過(guò)將大型語(yǔ)言模型(LLM)與他們知道值得信任的數(shù)據(jù)源相結(jié)合來(lái)解決這一問(wèn)題,例如內(nèi)部客戶(hù)數(shù)據(jù)庫(kù)或來(lái)自可信第三方提供商的經(jīng)過(guò)審查的數(shù)據(jù)集。
這些受信任的數(shù)據(jù)源可以使用需要LLM定制(如微調(diào))或不需要LLM定制(如即時(shí)工程或檢索增強(qiáng)生成(RAG))的過(guò)程合并。無(wú)論是哪種情況,這些技術(shù)都有助于確保員工收到準(zhǔn)確、高質(zhì)量的結(jié)果,同時(shí)遵守內(nèi)部云環(huán)境中內(nèi)置的治理標(biāo)準(zhǔn)。
數(shù)據(jù)訪問(wèn)和通用搜索的威力
GenAI治理的一個(gè)重要方面是讓員工很容易找到合適的數(shù)據(jù)集和數(shù)據(jù)產(chǎn)品來(lái)幫助他們進(jìn)行分析,人工智能如此強(qiáng)大的一個(gè)原因是,它允許員工在不通過(guò)中央團(tuán)隊(duì)的情況下與數(shù)據(jù)交互,但這需要這些員工知道他們可以獲得什么數(shù)據(jù),以及如何找到這些數(shù)據(jù)。
搜索功能提供了這一功能,允許用戶(hù)查找和查詢(xún)數(shù)據(jù)集和數(shù)據(jù)產(chǎn)品,這一搜索功能本身可以由LLM提供支持,使數(shù)據(jù)搜索更加直觀-這是我們?cè)赟nowflake開(kāi)發(fā)的,作為我們通用搜索的一部分。
治理是數(shù)據(jù)民主化的基礎(chǔ)
商業(yè)用戶(hù)渴望更廣泛地利用他們組織的數(shù)據(jù),而GenAI最終使這成為可能。多虧了LLMS和自然語(yǔ)言處理,財(cái)務(wù)、人力資源、銷(xiāo)售和運(yùn)營(yíng)等領(lǐng)域的員工現(xiàn)在可以針對(duì)自己的角色制定問(wèn)題,并獲得他們做出更明智決策所需的答案。
但要滿(mǎn)足企業(yè)的安全和法規(guī)遵從性需求,這只能在具有強(qiáng)大治理的環(huán)境中發(fā)生,治理越強(qiáng),你的員工就越能自由地瀏覽數(shù)據(jù),而不會(huì)給公司帶來(lái)額外的風(fēng)險(xiǎn),GenAI為真正的數(shù)據(jù)民主化打開(kāi)了大門(mén),而良好的治理是使之成為可能的基礎(chǔ)。