在2010年之前,訓(xùn)練計(jì)算的發(fā)展與摩爾定律同步,每?jī)赡暌环?自2010年代初,引入深度學(xué)習(xí)以來(lái),訓(xùn)練計(jì)算的速度已經(jīng)加快,大約每六個(gè)月增加一倍;2015年末,出現(xiàn)了一種新的趨勢(shì)。
基于這些觀察,機(jī)器學(xué)習(xí)的計(jì)算歷史被劃分為三個(gè)時(shí)代——前深度學(xué)習(xí)時(shí)代、深度學(xué)習(xí)時(shí)代和大規(guī)模時(shí)代。本文總結(jié)了用于訓(xùn)練高級(jí)機(jī)器學(xué)習(xí)系統(tǒng)快速增長(zhǎng)的計(jì)算需求。
趨勢(shì)
比較是在一個(gè)由123個(gè)里程碑式的機(jī)器學(xué)習(xí)系統(tǒng)組成的數(shù)據(jù)集上進(jìn)行的,并標(biāo)注了訓(xùn)練它們所需的計(jì)算量。在深度學(xué)習(xí)起步之前,有一段進(jìn)展緩慢的時(shí)間,這種趨勢(shì)在2010年加速,此后一直沒(méi)有放緩。另外,在2015年和2016年,出現(xiàn)了大規(guī)模模型的新趨勢(shì),以比上一個(gè)時(shí)代快兩個(gè)數(shù)量級(jí)的速度擴(kuò)張。
過(guò)渡到深度學(xué)習(xí)在深度學(xué)習(xí)出現(xiàn)之前和之后,人們注意到了兩種不同的趨勢(shì)機(jī)制。
此前,訓(xùn)練機(jī)器學(xué)習(xí)算法所需的算力是每17至29個(gè)月翻一番。之后,整體趨勢(shì)加快速,每4到9個(gè)月翻一番。
根據(jù)摩爾定律,晶體管密度每?jī)赡攴环?Moore,1965年),通常簡(jiǎn)化為計(jì)算性能每?jī)赡攴环?mdash;—基本上符合前深度學(xué)習(xí)時(shí)代的趨勢(shì)。目前尚不清楚深度學(xué)習(xí)時(shí)代何時(shí)開始,從前深度學(xué)習(xí)到深度學(xué)習(xí)時(shí)代的過(guò)渡沒(méi)有明顯的間斷。此外,無(wú)論深度學(xué)習(xí)時(shí)代始于2010年還是2012年,結(jié)果幾乎都不會(huì)改變。
大規(guī)模深度時(shí)代的趨勢(shì)
數(shù)據(jù)顯示,大規(guī)模型模型的新趨勢(shì)始于2015-2016年,這種新趨勢(shì)始于2015年底的AlphaGo,一直持續(xù)到現(xiàn)在,大規(guī)模模型是由大公司訓(xùn)練的,更高的訓(xùn)練預(yù)算可能是打破先前的趨勢(shì)的原因。
另外,常規(guī)規(guī)模模型受歡迎的程度并未受到影響,這一趨勢(shì)在2016年之前和之后是相同的速度,每5到6個(gè)月翻一番,如下表所示。大規(guī)模模型的計(jì)算量增加的趨勢(shì)明顯放緩,每9到10個(gè)月翻一番。由于這些模型的數(shù)據(jù)有限,明顯放緩可能是噪聲的結(jié)果。
這一發(fā)現(xiàn)與Amodei&Hernandez(2018)和Lyzhov(2021)形成對(duì)比,前者發(fā)現(xiàn)2012年至2018年的倍增期為3.4個(gè)月,后者發(fā)現(xiàn)2018年至2020年的倍增期超過(guò)2年。以前的評(píng)估無(wú)法區(qū)分這兩個(gè)獨(dú)立的模式,因?yàn)榇笠?guī)模的趨勢(shì)是最近才發(fā)展起來(lái)的。
結(jié)論
研究結(jié)果與早期研究一致,這顯示了訓(xùn)練計(jì)算更適度的規(guī)模。1952年到2010年有18個(gè)月的倍增時(shí)間,2010年到2022年有6個(gè)月的倍增時(shí)間,從2015年末到2022年的大規(guī)模新趨勢(shì),快了2到3個(gè)數(shù)量級(jí),倍增時(shí)間為10個(gè)月。
總而言之,在前深度學(xué)習(xí)時(shí)代,計(jì)算進(jìn)展緩慢,隨著2010年進(jìn)入深度學(xué)習(xí)時(shí)代,這種趨勢(shì)加速了。在2015年底,企業(yè)開始生產(chǎn)優(yōu)于趨勢(shì)的大規(guī)模模型,如AlphaGo,標(biāo)志著大規(guī)模時(shí)代的開始。然而,這并不能確定區(qū)分大規(guī)模和常規(guī)規(guī)模的模型而形成模式。
在計(jì)算機(jī)教學(xué)中,硬件基礎(chǔ)設(shè)施和工程師的作用越來(lái)越大,凸顯了兩者的戰(zhàn)略必要性。獲得巨大的計(jì)算預(yù)算或計(jì)算集群,以及應(yīng)用它們的專業(yè)知識(shí),已經(jīng)成為前沿機(jī)器學(xué)習(xí)研究的代名詞。