ChatGPT讓人們興奮不已,為什么蘋果、亞馬遜、摩根大通、德意志銀行、三星和埃森哲等這么多企業(yè)都禁止使用它呢?主要是由于擔心部署像ChatGPT這樣的外部大型語言模型(LLM),可能導致敏感數(shù)據(jù)被傳輸和存儲在企業(yè)安全環(huán)境之外。
生成式人工智能(GenAI)在企業(yè)中的有效性取決于能否根據(jù)公司自己的數(shù)據(jù)成功訓練大型語言模型(LLM),這些數(shù)據(jù)包括從電子郵件到財務報表的所有內(nèi)容。這種專門的訓練確保人工智能對話的準確性和相關性。然而,企業(yè)數(shù)據(jù)的私有性質以及嚴格遵守數(shù)據(jù)隱私、治理和法規(guī)遵從性的需求帶來了重大挑戰(zhàn)。管理不善可能導致數(shù)據(jù)泄露和品牌損害等代價高昂的后果。
ChatGPT在企業(yè)應用方面準備不足的五大原因是:
準確性:為了獲得準確的結果,使用特定于業(yè)務的數(shù)據(jù)對人工智能模型進行微調(diào)至關重要。然而,OpenAI目前還沒有提供一種直接用這些數(shù)據(jù)訓練ChatGPT的方法。用戶必須快速開發(fā)自己提示模板,并針對獨立的GPT-3.5模型進行培訓,該模型既不與其他客戶共享,也不用于訓練其他模型。微調(diào)數(shù)據(jù)必須正確分類、準備、標記,如果數(shù)據(jù)敏感,還需要考慮識別功能,所有這些都必須在數(shù)據(jù)輸入之前進行。為微調(diào)而上傳的數(shù)據(jù)將由OpenAI無限期保留,直到客戶刪除這些文件。
透明度:人工智能領域通常對學習和改進保持高度開放的標準。然而,隨著GPT-4的發(fā)布,OpenAI選擇使其源代碼專有,并對同行評審保留技術細節(jié)。缺乏透明度阻礙了研究人員和數(shù)據(jù)科學家對結果進行核實和驗證,對需要完全透明和開源訪問以進行徹底評估的企業(yè)構成了挑戰(zhàn)。
消費者數(shù)據(jù)隱私:ChatGPT通過數(shù)據(jù)隱私協(xié)議(DPA)處理消費者數(shù)據(jù)隱私,以滿足GDPR請求。然而,DPA并沒有完全涵蓋關鍵行業(yè)法規(guī)(如醫(yī)療保健行業(yè)的PHI/HIPAA、信用卡處理行業(yè)的PCI/DSS或金融服務行業(yè)的SEC和FINRA)所需的更復雜的數(shù)據(jù)隱私要求。某些法規(guī)僅禁止某些形式的衍生數(shù)據(jù)處理,但將大部分衍生數(shù)據(jù)排除在DPA保護之外,引發(fā)了額外的擔憂。
安全性:OpenAI及其云合作伙伴保持著高安全標準,但ChatGPT的專有性質及其數(shù)據(jù)使用引發(fā)了對數(shù)據(jù)泄露和泄露的擔憂。沒有提供企業(yè)級的安全特性,如細粒度的、基于角色的訪問控制和主動的“權限管理”解決方案。OpenAI平臺缺乏端到端加密,這意味著OpenAI員工可能可以訪問數(shù)據(jù)和對話,并且沒有數(shù)據(jù)屏蔽或敏感數(shù)據(jù)發(fā)現(xiàn)工具等數(shù)據(jù)混淆解決方案來幫助數(shù)據(jù)準備。
數(shù)據(jù)治理:有效的企業(yè)數(shù)據(jù)管理需要遵守廣泛的行業(yè)和政府法規(guī)。除了信息生命周期管理(ILM)和SOC 2合規(guī)性之外,企業(yè)數(shù)據(jù)還必須遵守PHI/HIPAA、PCI-DSS、SEC、FINRA、FDA和FISMA等標準。不斷發(fā)展的人工智能相關法規(guī),如歐盟的2021年人工智能法案和美國的人工智能權利法案,增加了復雜性。
鑒于這些挑戰(zhàn),企業(yè)正在部署新的基礎設施解決方案,以滿足生成式人工智能應用程序的數(shù)據(jù)驅動需求。為了管理企業(yè)數(shù)據(jù)暴露的風險,必須采取嚴格的數(shù)據(jù)保護措施,以確保在利用人工智能技術的好處的同時滿足消費者數(shù)據(jù)隱私和安全目標。
各行各業(yè)的公司不得不考慮運行自己的私有LLM,以滿足監(jiān)管合規(guī)義務。支持機器學習和高級數(shù)據(jù)準備以安全訓練模型的云數(shù)據(jù)管理平臺正變得越來越重要。跟蹤這些平臺中的工作流、實驗、部署和相關工件,可以為機器學習運營(MLOP)提供集中的模型注冊表,并提供監(jiān)管監(jiān)督所需的審計跟蹤、再現(xiàn)性和控制。
人工智能數(shù)據(jù)結構需要完整的數(shù)據(jù)工程能力,包括端到端安全、數(shù)據(jù)隱私、實時處理、數(shù)據(jù)治理、元數(shù)據(jù)管理、數(shù)據(jù)準備和機器學習。無論是使用私有LLM還是像ChatGPT這樣的公共模型,集中式MLOP都可以確保數(shù)據(jù)工程師控制整個機器學習生命周期。
雖然ChatGPT已經(jīng)產(chǎn)生了重大影響,但它在企業(yè)中的集成取決于成功的數(shù)據(jù)治理和數(shù)據(jù)工程流程。正如德意志銀行發(fā)言人Sen Shanmugasivam所指出的那樣,盡管受到禁令的限制,該銀行仍在積極探索如何以“安全和合規(guī)的方式”使用生成式人工智能工具。企業(yè)對生成式人工智能和機器學習的興趣正在飆升,但企業(yè)運營將需要數(shù)據(jù)治理標準和保障措施,以確保企業(yè)人工智能的安全未來。