青青草原在线视频,亚洲视频无码专区,玖玖爱在线观看视频,国产A级理论片无码免费孕妇做为

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

基于機(jī)器學(xué)習(xí)的自動(dòng)化網(wǎng)絡(luò)流量分析

一、概述

目前機(jī)器學(xué)習(xí)(ML)廣泛應(yīng)用于網(wǎng)絡(luò)流量分析任務(wù),特征提取、模型選擇、參數(shù)調(diào)優(yōu)等眾多因素決定著模型的性能,每當(dāng)面對(duì)不同的網(wǎng)絡(luò)流量或新的任務(wù),就需要研究人員重新開(kāi)發(fā)模型,這個(gè)反復(fù)性的過(guò)程往往是費(fèi)時(shí)費(fèi)力的。因此有必要為不同網(wǎng)絡(luò)流量創(chuàng)建一個(gè)通用的表示,可以用于各種不同的模型,跨越廣泛的問(wèn)題類(lèi),并將整個(gè)建模過(guò)程自動(dòng)化。本文關(guān)注通用的自動(dòng)化網(wǎng)絡(luò)流量分析問(wèn)題,致力于使研究人員將更多的精力用于優(yōu)化模型和特征上,并有更多的時(shí)間在實(shí)踐中解釋和部署最佳模型。

二、自動(dòng)化網(wǎng)絡(luò)流量分析

傳統(tǒng)基于ML的網(wǎng)絡(luò)流量分析嚴(yán)重依賴人工,在實(shí)踐中,獲得特征、模型和參數(shù)的最優(yōu)組合通常是一個(gè)迭代的過(guò)程,這個(gè)過(guò)程有一些弊端。首先,數(shù)據(jù)的合適表示和特征選擇對(duì)于流量分析任務(wù)是十分重要的,但即便有專(zhuān)業(yè)領(lǐng)域知識(shí),特征工程仍然是一個(gè)脆弱且不完善的過(guò)程,人工分析時(shí)可能會(huì)忽略不夠明顯的或包含復(fù)雜關(guān)系的特征;其次,網(wǎng)絡(luò)環(huán)境復(fù)雜多變,流量模式的變化帶來(lái)特征的失效;最后,對(duì)于每一個(gè)新的流量檢測(cè)或分類(lèi)任務(wù),都需要重新設(shè)計(jì)新的特征,選擇合適的模型,并重新調(diào)整參數(shù)。

為了避免這些問(wèn)題,本節(jié)介紹一種適用于不同網(wǎng)絡(luò)流量分析任務(wù)的自動(dòng)化的方法[1],通過(guò)對(duì)網(wǎng)絡(luò)流量進(jìn)行統(tǒng)一表示,并結(jié)合自動(dòng)機(jī)器學(xué)習(xí)(AutoML)方法,實(shí)現(xiàn)在不同網(wǎng)絡(luò)流量分析問(wèn)題上的簡(jiǎn)單快速的自動(dòng)化迭代和部署。

2.1 數(shù)據(jù)表示

對(duì)于許多分類(lèi)問(wèn)題,數(shù)據(jù)表示與模型選擇同等重要,所以在應(yīng)用ML方法時(shí),如何對(duì)數(shù)據(jù)進(jìn)行表示和編碼是非常重要的。對(duì)于網(wǎng)絡(luò)流量數(shù)據(jù)的編碼需要滿足以下三個(gè)要求:

(1)完整的表示。我們的目標(biāo)不是選擇特定的特征,而是一種統(tǒng)一的數(shù)據(jù)編碼,以避免依賴專(zhuān)家知識(shí),所以需要保留包含包頭在內(nèi)的所有數(shù)據(jù)包信息;

(2)固定的大小。許多ML模型的輸入總是保持相同的大小,所以每個(gè)數(shù)據(jù)包表示都必須是常量大小;

(3)固有的規(guī)范化。當(dāng)特征被歸一化后,ML模型通常會(huì)表現(xiàn)得更好,也能減少訓(xùn)練時(shí)間并增加模型的穩(wěn)定性,所以如果數(shù)據(jù)的初始表示本身就是規(guī)范化的,將會(huì)非常方便;

(4)一致的表示。數(shù)據(jù)表示的每個(gè)位置都應(yīng)該對(duì)應(yīng)于所有數(shù)據(jù)包包頭的相同部分,也就是說(shuō),即使協(xié)議和報(bào)文長(zhǎng)度不同,特定的特征總是在數(shù)據(jù)包中具有相同的偏移量,對(duì)齊后的數(shù)據(jù)都能讓模型基于這樣的前提來(lái)學(xué)習(xí)特征表示。

如圖1所示,網(wǎng)絡(luò)流量表示的主要方式包括語(yǔ)義表示法和樸素二進(jìn)制表示法。

(1)語(yǔ)義表示法:每個(gè)報(bào)頭都有各自的語(yǔ)義字段,但它不保留具有區(qū)分度的可選字段的順序,同時(shí)需要領(lǐng)域?qū)I(yè)知識(shí)來(lái)解析每個(gè)協(xié)議的語(yǔ)義結(jié)構(gòu),即使擁有這些知識(shí),后續(xù)也還是不可避免進(jìn)行繁瑣的特征工程;

(2)樸素二進(jìn)制表示法:使用數(shù)據(jù)包的原始位圖表示來(lái)保持順序,但是忽略了不同的大小和協(xié)議,導(dǎo)致兩個(gè)數(shù)據(jù)包的特征向量對(duì)同一特征具有不同的含義,這種不對(duì)齊可能會(huì)在重要特征的地方引入噪聲而降低模型性能,同時(shí)也因?yàn)闊o(wú)法將每一位都映射到語(yǔ)義上而導(dǎo)致不可解釋。

語(yǔ)義表示法和樸素二進(jìn)制表示法

圖1 語(yǔ)義表示法和樸素二進(jìn)制表示法

以上兩種表示方法都無(wú)法滿足統(tǒng)一化表示數(shù)據(jù)的需求,如圖2所示,研究人員結(jié)合語(yǔ)義表示法和樸素二進(jìn)制表示法提出一種統(tǒng)一的網(wǎng)絡(luò)數(shù)據(jù)包表示方法nPrint。首先,它會(huì)保證任何數(shù)據(jù)包都可以被完整表示而不丟失任何信息;然后,使用內(nèi)部填充確保每個(gè)數(shù)據(jù)包以相同數(shù)量的特征表示,并且每個(gè)特征具有相同含義,這種在位級(jí)上可解釋的表示使我們能夠更好的理解模型;其次,直接使用數(shù)據(jù)包的位,區(qū)分于某個(gè)位被設(shè)置為0,將不存在的包頭用-1填充;最后,每個(gè)數(shù)據(jù)包都用相同數(shù)量的特征表示,對(duì)于給定的網(wǎng)絡(luò)流量分析任務(wù),將載荷設(shè)置為可選的字節(jié)數(shù)。此外,nPrint具有模塊化和可擴(kuò)展的特性,不僅可以將其他協(xié)議添加到表示中,也可以將一組數(shù)據(jù)包表示串聯(lián)起來(lái)構(gòu)建多包的nPrint指紋。

nPrint

圖2 nPrint

2.2 nPrintML

專(zhuān)家往往花費(fèi)數(shù)周甚至數(shù)年從原始數(shù)據(jù)包中提取特征,并在認(rèn)為最好的一個(gè)或一組模型上進(jìn)行訓(xùn)練,最后通過(guò)手工或結(jié)構(gòu)化搜索對(duì)模型進(jìn)行調(diào)優(yōu)。為了將整個(gè)過(guò)程標(biāo)準(zhǔn)化,在nPrint的基礎(chǔ)上結(jié)合AutoML工具,提出nPrintML,如圖3所示,實(shí)現(xiàn)了ML流程的自動(dòng)化。

nPrintML

圖3 nPrintML

nPrint使不同流量分析工作的特征提取過(guò)程標(biāo)準(zhǔn)化,AutoML旨在自動(dòng)化特征選擇、模型選擇和超參數(shù)調(diào)優(yōu),以便為給定的特征和帶標(biāo)簽數(shù)據(jù)集找到最優(yōu)模型。最終,nPrint為每個(gè)網(wǎng)絡(luò)流量分析任務(wù)提取最佳特征,AutoML用于確定最佳模型和超參數(shù)。

因?yàn)锳utoGluon集成了多個(gè)性能良好的單一模型,優(yōu)于許多其他AutoML工具,所以選擇AutoGluon作為AutoML工具。這里使用處理表格數(shù)據(jù)的功能子集AutoGluon-Tabular,它通過(guò)搜索一組基模型來(lái)進(jìn)行特征選擇、模型選擇和超參數(shù)優(yōu)化,包括深度神經(jīng)網(wǎng)絡(luò)、基于樹(shù)的方法(如隨機(jī)森林)、非參數(shù)方法(如k近鄰)以及梯度增強(qiáng)樹(shù)方法。此外,AutoGluon-Tabular也能從基模型中創(chuàng)建加權(quán)集成模型,以更少的訓(xùn)練時(shí)間實(shí)現(xiàn)比其他AutoML工具更高的性能。

研究人員結(jié)合nPrint與AutoGluon,用python實(shí)現(xiàn)了nPrintML[2],允許用戶在單個(gè)調(diào)用中在整個(gè)目錄上運(yùn)行。以被動(dòng)操作系統(tǒng)檢測(cè)為例,用例如下:

nprintml -L os_labels.txt -a index -P traffic.pcap -4 –t

2.3 實(shí)驗(yàn)結(jié)果

針對(duì)8個(gè)網(wǎng)絡(luò)流量分析場(chǎng)景,圖4展示了用nPrintML進(jìn)行分析的案例研究,實(shí)驗(yàn)結(jié)果表明,nPrintML不僅可以解決不同場(chǎng)景的網(wǎng)絡(luò)流量分析問(wèn)題,并且具有相較于傳統(tǒng)方法更好的性能。

nPrintML案例研究結(jié)果

圖4 nPrintML案例研究結(jié)果

三、小結(jié)

將ML應(yīng)用于網(wǎng)絡(luò)流量分析任務(wù)的性能,除了取決于模型本身之外,數(shù)據(jù)的適當(dāng)表示和特征的選擇同樣重要。本文介紹了一種自動(dòng)網(wǎng)絡(luò)流量分析的新思路,通過(guò)將數(shù)據(jù)包進(jìn)行統(tǒng)一表示,并將其轉(zhuǎn)化為適合表示學(xué)習(xí)和模型訓(xùn)練的格式,然后結(jié)合現(xiàn)有的自動(dòng)ML,最終將整個(gè)網(wǎng)絡(luò)流量分析過(guò)程完全自動(dòng)化。這種方法不僅適用于常見(jiàn)的網(wǎng)絡(luò)流量分析任務(wù),而且表現(xiàn)出比現(xiàn)有模型更好的性能。

猜你喜歡