加州大學(xué)河濱分校的計(jì)算機(jī)科學(xué)家正在開發(fā)工具來幫助跟蹤和監(jiān)控新冠肺炎癥狀,并篩選社交媒體上有關(guān)該疾病的錯(cuò)誤信息。
使用谷歌趨勢(shì)數(shù)據(jù),由馬蘭和羅斯瑪麗伯恩斯工程學(xué)院副教授開發(fā)了一種算法,該算法確定了新冠肺炎獨(dú)有的三種癥狀:舌頭味覺功能喪失,呼吸急促,嗅覺喪失。
使用谷歌流感趨勢(shì)的大部分工作都集中在預(yù)測(cè)流感季節(jié),另一方面,我們用它來看看我們是否能在大海撈針中找到一根針:在人們尋找的所有流感樣癥狀中,新冠肺炎獨(dú)有的癥狀。
研究人員在2019年和2020年的Google趨勢(shì)中定位了癥狀,并使用一種DNA的技術(shù)來提取數(shù)據(jù)集。
假設(shè)2019年的癥狀搜索會(huì)導(dǎo)致流感或其他呼吸系統(tǒng)疾病,而2020年搜索相同癥狀的可能兩者皆有,使用DNA,我們能夠找到兩個(gè)數(shù)據(jù)集之間的差異。這恰好是臨床醫(yī)生已經(jīng)確定為新冠肺炎獨(dú)有的術(shù)語,表明我們的方法有效。
Papalexakis和Chen預(yù)計(jì)他們的工作,將幫助流行病學(xué)家和其他公共衛(wèi)生專家,使用谷歌趨勢(shì)作為醫(yī)院數(shù)據(jù)的代理來跟蹤和監(jiān)控新冠肺炎。
谷歌趨勢(shì)數(shù)據(jù)非常嘈雜,但醫(yī)院數(shù)據(jù)不公開。人們搜索癥狀可能是因?yàn)樗麄冋诮?jīng)歷這些癥狀,或者因?yàn)樗麄兟犝f過這些癥狀并想了解更多,搜索比積極體驗(yàn)癥狀的人更能反映對(duì)癥狀的興趣,但鑒于缺乏其他數(shù)據(jù),該工具可以幫助研究人員更好地了解癥狀。
該算法簡(jiǎn)單易行,作為一種潛在工具的一部分,可以幫助研究其他疾病的科學(xué)家了解潛在癥狀。
從Google趨勢(shì)數(shù)據(jù)中發(fā)現(xiàn)新冠肺炎癥狀的判別性知識(shí)發(fā)現(xiàn),發(fā)表在2021年的EpiDAMIK研討會(huì)上,該研討會(huì)是一個(gè)關(guān)于推進(jìn)流行病學(xué)知識(shí)的數(shù)據(jù)挖掘研討會(huì)。該研討會(huì)是作為最大的年度數(shù)據(jù)科學(xué)會(huì)議、計(jì)算機(jī)協(xié)會(huì)或ACM的一部分組織的。
Papalexakis和加州大學(xué)河濱分校的博士生William Shiao也在開發(fā)一種工具,該工具不僅可以識(shí)別新冠肺炎的錯(cuò)誤信息,還可以說明為什么這些與有關(guān)冠狀病毒相關(guān)聯(lián)的數(shù)據(jù)被標(biāo)記為虛假信息。
Papalexakis和Shiao使用了白宮和一個(gè)研究小組聯(lián)盟準(zhǔn)備的新冠肺炎開放研究數(shù)據(jù)集挑戰(zhàn)新冠肺炎中的90,000篇文章,并收集了20,000篇關(guān)于新型冠狀病毒的錯(cuò)誤信息的“野外”文章。使用他們稱為KI2TE的基于相似性矩陣的嵌入方法,將文章鏈接到一組參考文檔并進(jìn)行解釋。用于參考的文件是新冠肺炎數(shù)據(jù)集中包含的一組有關(guān)冠狀病毒研究的學(xué)術(shù)論文。
當(dāng)對(duì)被人類標(biāo)記為虛假或被Google Fact Check識(shí)別為虛假的文章進(jìn)行測(cè)試時(shí),他們的方法不僅正確識(shí)別了虛假故事,而且還指出了證實(shí)系統(tǒng)決策的科學(xué)來源。
盡管Papalexakis和Shiao開發(fā)的工具是一個(gè)正在積極研究開發(fā)的原型,但它最終可能會(huì)被整合到智能手機(jī)應(yīng)用程序或Facebook等社交媒體平臺(tái)中。
來源:賢集網(wǎng)