由于OpenAI的ChatGPT火爆發(fā)布以及隨后谷歌和微軟之間的搜索引擎大戰(zhàn),大型語言模型(LLM)及其應(yīng)用程序突然成為熱門話題。ChatGPT和類似的系統(tǒng)正在重新激活我們對搜索的新體驗(yàn)和新概念。現(xiàn)在用戶可以使用人類語言與搜索引擎進(jìn)行自然交互,而不是依賴特定的關(guān)鍵詞或復(fù)雜的搜索查詢語法。
問答(QA)系統(tǒng)是自然語言處理(NLP)的一種能力,是LLM所能實(shí)現(xiàn)的一組語言能力,但QA系統(tǒng)并不總是一個(gè)流行的用例。NLP搜索公司Kyndi的的首席執(zhí)行官Ryan Welsh回憶說,他在解釋公司對NLP搜索時(shí)遇到了困難:“我記得三年前籌集了資金,每個(gè)人都說,‘嘿,很酷,你是NLP,但這個(gè)搜索不是一個(gè)好的應(yīng)用案例。’”
Welsh表示,因?yàn)镃hatGPT的興起,越來越多人意識到自然語言能力的價(jià)值,這種反應(yīng)已經(jīng)完全改變:“我覺得ChatGPT在90-120天內(nèi)達(dá)成了十年的宣傳效果。”
現(xiàn)在,數(shù)十億美元正在投資于下一代搜索技術(shù)。突然之間,市場對QA系統(tǒng)產(chǎn)生了真正的需求,該系統(tǒng)可以快速準(zhǔn)確地回答利益相關(guān)者或訪問公司網(wǎng)站或知識門戶的外部客戶提出的問題,以及搜索公司文檔的內(nèi)部員工提出的問題。
然而,Welsh表示,目前的這些聊天機(jī)器人技術(shù)無法滿足企業(yè)的需求,作為最終用戶信任的關(guān)鍵的可解釋性往往缺乏。企業(yè)對大型語言模型系統(tǒng)的要求是生成的答案準(zhǔn)確可靠,而不是充滿了來自網(wǎng)絡(luò)內(nèi)容的訓(xùn)練數(shù)據(jù)的“錯(cuò)亂”,這是像ChatGPT這樣的大型主流模型面臨的問題(延展閱讀:)。由于其底層技術(shù)的統(tǒng)計(jì)性質(zhì),聊天機(jī)器人可能會產(chǎn)生錯(cuò)誤信息的混亂,因?yàn)樗麄儗?shí)際上并不理解語言,只是在預(yù)測下一個(gè)最好的單詞。通常,訓(xùn)練數(shù)據(jù)非常廣泛,幾乎不可能解釋聊天機(jī)器人是如何得出它給出的答案的。
這種缺乏可解釋性的人工智能“黑匣子”方法根本不適用于許多企業(yè)。Welsh舉了一個(gè)制藥公司的例子,該公司正在向醫(yī)療保健提供者或訪問其藥品網(wǎng)站的患者提供答案。該公司被要求知道并解釋每一個(gè)可以提供給提問者的搜索結(jié)果。因此,盡管最近對ChatGPT等系統(tǒng)的需求激增,但根據(jù)Welsh的說法,使其適應(yīng)這些嚴(yán)格的企業(yè)要求并不是一項(xiàng)容易的任務(wù),而且這種需求往往得不到滿足。
Welsh表示,多年來,他的公司一直專注于這些企業(yè)需求,從經(jīng)驗(yàn)中學(xué)習(xí),并與客戶直接互動。Kyndi由威爾士人工智能專家Arun Majumbar和計(jì)算機(jī)科學(xué)家John Sowa于2014年創(chuàng)立,John Sowa是知識圖譜譜專家,1976年在IBM引入了一種稱為概念圖的特定類型。
Kyndi的自然語言搜索應(yīng)用程序建立在知識圖譜和LLM突破的基礎(chǔ)上,采用了神經(jīng)符號人工智能,這是一種補(bǔ)充統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)的語義方法。該系統(tǒng)不只是預(yù)測文本中下一個(gè)最有可能的單詞,還是創(chuàng)建語言的符號表示,利用向量和知識圖譜技術(shù)來映射數(shù)據(jù)之間的關(guān)系。這使系統(tǒng)能夠理解最終用戶問題背后的真實(shí)意圖,有助于找到特定于上下文的答案,同時(shí)區(qū)分常見的同義詞、語義等效的單詞、縮寫詞和拼寫錯(cuò)誤。
這項(xiàng)技術(shù)幾乎不需要訓(xùn)練數(shù)據(jù)就能發(fā)揮作用,這可以緩解由于缺乏標(biāo)記數(shù)據(jù)和人工智能專業(yè)知識而造成的瓶頸。與數(shù)據(jù)標(biāo)簽相關(guān)的高成本使得訓(xùn)練和微調(diào)LLM對許多企業(yè)來說過于昂貴。這種調(diào)整的容易性是Kyndi神經(jīng)符號方法的另一個(gè)區(qū)別因素。Welsh表示,許多企業(yè)客戶已經(jīng)被緩慢的人工智能部署折磨。一家大型制藥公司在與Kyndi合作之前,已經(jīng)使用六名機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家對LLM進(jìn)行了六個(gè)多月的調(diào)整。Welsh說,Kyndi只需要一名商業(yè)分析師的幫助,就可以在一天內(nèi)訓(xùn)練和調(diào)整他們的模型。在其他幾個(gè)案例中,Kyndi能夠在兩周內(nèi)通過演示、沙箱驗(yàn)證和部署來完成人工智能項(xiàng)目。
“我認(rèn)為,在未來10年的某個(gè)時(shí)候,世界上每一家企業(yè)的每一個(gè)搜索欄和每一個(gè)聊天界面都會有一個(gè)答案引擎。這將是我們在企業(yè)軟件中看到的最大的轉(zhuǎn)變。”Welsh說,并將這一時(shí)刻與從預(yù)處理到云的轉(zhuǎn)變進(jìn)行了比較。“我認(rèn)為目前沒有任何供應(yīng)商能夠主導(dǎo)這個(gè)市場。”
Welsh預(yù)測,在這個(gè)企業(yè)搜索領(lǐng)域的新時(shí)代,獲勝的公司是那些有遠(yuǎn)見將產(chǎn)品投放市場的公司。盡管競爭目前正在升溫,但其中一些新公司已經(jīng)落后了。他估計(jì)在獲得成功前,他們還有大約2-3年和價(jià)值3000萬美元的建設(shè)工作要做。