時(shí)間:2023-07-17 16:22:52
序論:在您撰寫(xiě)神經(jīng)網(wǎng)絡(luò)文本分類(lèi)時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
關(guān)鍵詞:Web文本分類(lèi);RBF網(wǎng)絡(luò);高斯函數(shù);梯度下降法
中圖分類(lèi)號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)13-3107-02
The Researching of Web Text Classification Based on RBF Neural Network
XU Chun-yu
(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)
Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.
Key words: web text classification; RBF network; gauss Function; gradient descent algorithm
近年來(lái),web已經(jīng)成為擁有數(shù)十億個(gè)異構(gòu)的、半結(jié)構(gòu)化的、動(dòng)態(tài)的分布式信息空間,這些web信息源中有80%以上的信息是以web文本的形式出現(xiàn)的,如何從這些海量的web信息資源中尋找并獲取有價(jià)值的信息和知識(shí)模式,已經(jīng)成為信息處理的一個(gè)關(guān)鍵問(wèn)題,web文本分類(lèi)有助于人們完成這個(gè)目標(biāo)[1]。
1 web文本分類(lèi)
文本分類(lèi)就是先根據(jù)已有的樣例文本找出能描述并區(qū)分文本類(lèi)別的分類(lèi)器,然后利用該分類(lèi)器對(duì)新的未分類(lèi)的文本進(jìn)行分類(lèi)。根據(jù)機(jī)器學(xué)習(xí)的觀點(diǎn),文本自動(dòng)分類(lèi)問(wèn)題可以歸結(jié)為一個(gè)機(jī)器學(xué)習(xí)任務(wù):假定全體文本空間為D,預(yù)定義的文本類(lèi)別集合為C{c1,c2,…,c3}。待學(xué)習(xí)分類(lèi)法稱(chēng)為目標(biāo)分類(lèi)器,記作y,一般來(lái)說(shuō),y是從文本集到類(lèi)別集的一個(gè)映射,即y:DC,通常情況下該映射存在,但沒(méi)有解析表達(dá)式。文本分類(lèi)中機(jī)器學(xué)習(xí)的目的就是找到映射y的一個(gè)近似表達(dá)式或估計(jì):y:DC,使對(duì)于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h為分類(lèi)器[3]。
隨著web上海量文本信息的增加,文本分類(lèi)技術(shù)的處理對(duì)象從普通的文檔擴(kuò)展到了web文本,即形成了web文本分類(lèi)技術(shù),顯然,文本分類(lèi)技術(shù)是web文本分類(lèi)技術(shù)的基礎(chǔ)。
徑向基函數(shù)(Radial Basis Function,簡(jiǎn)稱(chēng)RBF)神經(jīng)元網(wǎng)絡(luò)是在借鑒生物局部調(diào)節(jié)和交疊接受區(qū)域知識(shí)的基礎(chǔ)上提出的一種采用局部接受域來(lái)執(zhí)行函數(shù)影射的人工神經(jīng)元網(wǎng)絡(luò)。在人的大腦皮層區(qū)域中,局部調(diào)節(jié)及交疊的感受是人腦反映的特點(diǎn)。RBF網(wǎng)絡(luò)同BP網(wǎng)絡(luò)類(lèi)似,也是一種三層前饋式神經(jīng)網(wǎng)絡(luò),輸入層節(jié)點(diǎn)傳遞輸入信號(hào)到隱含層,隱含層節(jié)點(diǎn)由像高斯函數(shù)那樣的輻射狀作用函數(shù)構(gòu)成,而輸出層節(jié)點(diǎn)通常是簡(jiǎn)單的線性函數(shù)。網(wǎng)絡(luò)模型如圖1所示。
從RBF的網(wǎng)絡(luò)模型圖可以看出,RBF網(wǎng)絡(luò)由兩部分組成,第一部分為非線性變換層,它的輸出公式如公式(1)所示:
(1)
其中X={x1,x2,…xn}為輸入向量,Ci={Ci(1),Ci(2),…Ci(N)}為第i個(gè)非線性變換單元的中心向量,Ct(q)表示第t個(gè)中心的第q個(gè)分量,σi為第i個(gè)非線性變換單元的寬度,||?||表示的是范數(shù),通常情況下取2范數(shù),g(?)表示的是非線性函數(shù)關(guān)系,一般取Gauss函數(shù),Gauss函數(shù)的函數(shù)關(guān)系如公式(2)所示:
(2)
第二部分:線性合并層,它的作用是將變換層的輸出線性加權(quán)合并,公式如(3)所示,其中l(wèi)為隱含層神經(jīng)元的個(gè)數(shù),m為輸出層神經(jīng)元的個(gè)數(shù)。
(3)
RBF網(wǎng)絡(luò)通過(guò)徑向基函數(shù)能夠更確切的描述人類(lèi)神經(jīng)元的活動(dòng)特性。在中心附近的區(qū)域內(nèi)網(wǎng)絡(luò)的輸出最大,網(wǎng)絡(luò)的輸出隨著中心距離的增大,逐漸減小,而這個(gè)過(guò)程的快慢則是由σ參數(shù)來(lái)決定的,σ越大則函數(shù)輸出曲線越平緩,對(duì)輸入的變化就越不敏感,因此,可以通過(guò)調(diào)節(jié)σ來(lái)進(jìn)一步模擬人類(lèi)的神經(jīng)元。RBF網(wǎng)絡(luò)最常用的算法是梯度下降法,常用的訓(xùn)練就是選定某種性能指標(biāo),然后采用梯度下降的方法來(lái)校正網(wǎng)絡(luò)參數(shù),使該網(wǎng)絡(luò)性能指標(biāo)取得最優(yōu)值,因此RBF網(wǎng)絡(luò)的學(xué)習(xí)實(shí)質(zhì)上就是一個(gè)最優(yōu)化問(wèn)題。具體的訓(xùn)練算法為:對(duì)于一般的RBF網(wǎng)絡(luò)結(jié)構(gòu),取性能指標(biāo)如公式(4)所示。
(4)
其中,i為網(wǎng)絡(luò)的輸出,具體關(guān)系式如下面的(5)式、(6)式和(7)式所示:
(5)
(6)
(7)
由上面的三個(gè)公式可以看出, J是關(guān)于Cj,wjt和σj的函數(shù)。網(wǎng)絡(luò)的訓(xùn)練過(guò)程就是調(diào)整以上三組參數(shù),使J趨于最小。求取J對(duì)各網(wǎng)絡(luò)參數(shù)wts,ct(q),σt的偏導(dǎo)數(shù),其中1≤t≤P(P是隱含層單元的個(gè)數(shù)),1≤s≤M(M是輸出層單元的個(gè)數(shù)),1≤q≤N(N是輸出層單元的個(gè)數(shù)),得到參數(shù)的校正方法。具體的校正方法為:權(quán)值wts的校正方向如公式(8)所示:
(8)
中心ct(q)的校正方向如公式(9)所示:
(9)
寬度σt的校正方向如公式(10)所示:
(10)
由此,可以得到RBF網(wǎng)絡(luò)的梯度下降法校正公式如(11)所示:
(11)
其中,1≤t≤P,1≤s≤M,1≤q≤N,P為隱含層單元個(gè)數(shù),N為輸入層單元個(gè)數(shù),M為輸出層單元個(gè)數(shù),λ為步長(zhǎng),通常λ=0.05左右。
隱含層到輸出層之間的變換是線性變換,所以采用的是比較成熟的RLS算法。給定樣本輸入,則在當(dāng)前的網(wǎng)絡(luò)隱含層單元中心Cj及寬度σj(1≤j≤P)參數(shù)下,隱含層單元輸出向量為HT=[h1,h2,…,hP],P為隱含層單元個(gè)數(shù)。
Y=HTW (12)
其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],這樣,根據(jù)RLS算法有權(quán)值的修正遞推公式如公式(13)所示:
(13)
這樣,按照上面的公式對(duì)網(wǎng)絡(luò)參數(shù)不斷地進(jìn)行循環(huán)校正,最終網(wǎng)絡(luò)性能將達(dá)到所要求的性能指標(biāo)[5]。
3 實(shí)驗(yàn)
實(shí)驗(yàn)過(guò)程中,首先設(shè)計(jì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),確定RBF網(wǎng)絡(luò)輸出層神經(jīng)元個(gè)數(shù),根據(jù)類(lèi)別的個(gè)數(shù)來(lái)確定輸出層神經(jīng)元的個(gè)數(shù),實(shí)驗(yàn)數(shù)據(jù)分別屬于10個(gè)類(lèi)別,因此網(wǎng)絡(luò)輸出層神經(jīng)元個(gè)數(shù)為10。輸入層神經(jīng)元的個(gè)數(shù)為文檔在進(jìn)行特征提取之后向量的維數(shù),實(shí)驗(yàn)中,經(jīng)過(guò)降維以后的每篇文檔特征向量的維數(shù)為30,所以將網(wǎng)絡(luò)的輸入層神經(jīng)元的個(gè)數(shù)選取為30。由于輸入樣本空間是確定的,可以預(yù)先給定一個(gè)隱含層節(jié)點(diǎn)數(shù),只要與輸入樣本的實(shí)際類(lèi)別數(shù)相差不是很大時(shí),就可以使用梯度下降法來(lái)不斷修正網(wǎng)絡(luò)的中心值,使網(wǎng)絡(luò)的特性逼近于實(shí)際系統(tǒng),這種方法比較簡(jiǎn)單,也是一種比較常用的方法,因此,實(shí)驗(yàn)中隱含層神經(jīng)元的個(gè)數(shù)取值為9。
RBF網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)完成之后就可以對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練了,實(shí)驗(yàn)數(shù)據(jù)來(lái)自中國(guó)期刊網(wǎng)上下載的600篇文檔,涵蓋了政治、經(jīng)濟(jì)、教育、娛樂(lè)等10個(gè)類(lèi)別,每個(gè)類(lèi)別包含60篇文檔,選取其中的500篇文檔作為樣本訓(xùn)練集,每個(gè)類(lèi)別選擇50篇,另外100篇文檔作為網(wǎng)絡(luò)的測(cè)試集。首先需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行文本特征提取、降維等過(guò)程。其次采用的是Matlab軟件進(jìn)行編程以實(shí)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練完成以后,輸入測(cè)試集中的數(shù)據(jù),測(cè)試網(wǎng)絡(luò)能否正確地將相關(guān)的文檔區(qū)分到各個(gè)類(lèi)別中。表1是RBF網(wǎng)絡(luò)的分類(lèi)結(jié)果。
4 結(jié)論
從上面的訓(xùn)練結(jié)果分析,RBF網(wǎng)絡(luò)能夠?qū)⒋蟛糠值奈谋菊_地劃分到所屬類(lèi)別,對(duì)于體育、娛樂(lè)、外語(yǔ)方面的文檔能夠取得較高的識(shí)別率,對(duì)于政治、經(jīng)濟(jì)、軍事等方面的文檔的識(shí)別率較低,主要原因是這些類(lèi)別的文檔中互相包含著相關(guān)的特征信息,這種類(lèi)型的文檔在進(jìn)行文本分類(lèi)的時(shí)候,需要在文本特征提取的時(shí)候進(jìn)行相應(yīng)的處理,以使得在輸入神經(jīng)網(wǎng)絡(luò)的時(shí)候能夠得到正確的分類(lèi)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,RBF網(wǎng)絡(luò)完全可以應(yīng)用到文本分類(lèi)中來(lái),并且能夠取得較好的分類(lèi)效果。
參考文獻(xiàn):
[1] 蒲筱哥.Web自動(dòng)文本分類(lèi)技術(shù)研究綜述[J].情報(bào)科學(xué),2009:233.
[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.
[3] 王曉慶. 基于RBF網(wǎng)絡(luò)的文本自動(dòng)分類(lèi)的研究[D].南昌:江西師范大學(xué),2003:9.
[4] Abhijit S, Rober B. 神經(jīng)網(wǎng)絡(luò)模式識(shí)別及其實(shí)現(xiàn)[M].徐勇,荊濤,譯.北京:電子工業(yè)出版社,1999:30-32,57-114.
[5] 柯慧燕. Web文本分類(lèi)研究及應(yīng)用[D].武漢:武漢理工大學(xué),2006:14-15,16-17.
[6] 飛思科技產(chǎn)品研發(fā)中心. 神經(jīng)網(wǎng)絡(luò)理論與MATLAB7實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2005:17.
P鍵詞:深度學(xué)習(xí);文本分類(lèi);多類(lèi)型池化
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0187-03
1 引言
為了進(jìn)行分類(lèi),我們建立句子模型來(lái)分析和表示句子的語(yǔ)義內(nèi)容。句子模型問(wèn)題的關(guān)鍵在于一定程度上的自然語(yǔ)言理解。很多類(lèi)型的任務(wù)需要采用句子模型,包括情感分析、語(yǔ)義檢測(cè)、對(duì)話分析、機(jī)器翻譯等。既然單獨(dú)的句子很少或基本不被采用,所以我們必須采用特征的方式來(lái)表述一個(gè)句子,而特征依賴(lài)于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據(jù)單詞和詞組提取特征的過(guò)程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。
各種類(lèi)型的模型已經(jīng)被提出?;诔煞謽?gòu)成的方法被應(yīng)用于向量表示,通過(guò)統(tǒng)計(jì)同時(shí)單詞同時(shí)出現(xiàn)的概率來(lái)獲取更長(zhǎng)的詞組。在有些情況下,通過(guò)對(duì)詞向量進(jìn)行代數(shù)操作生成句子層面的向量,從而構(gòu)成成分。在另外一些情況下,特征方程和特定的句法或者單詞類(lèi)型相關(guān)。
一種核心模型是建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。這種模型包含了單詞包或者詞組包的模型、更結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)、延遲的基于卷積操作的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模型有很多優(yōu)點(diǎn)。通過(guò)訓(xùn)練可以獲得通用的詞向量來(lái)預(yù)測(cè)一段上下文中單詞是否會(huì)出現(xiàn)。通過(guò)有監(jiān)督的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠根據(jù)具體的任務(wù)進(jìn)行良好的調(diào)節(jié)。除了作為強(qiáng)大的分類(lèi)器,神經(jīng)網(wǎng)絡(luò)模型還能夠被用來(lái)生成句子[6]。
我們定義了一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并將它應(yīng)用到句子語(yǔ)義模型中。這個(gè)網(wǎng)絡(luò)可以處理長(zhǎng)度不同的句子。網(wǎng)絡(luò)中的一維卷積層和多類(lèi)型動(dòng)態(tài)池化層是相互交錯(cuò)的。多類(lèi)型動(dòng)態(tài)池化是一種對(duì)求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現(xiàn)在兩個(gè)方面。第一,多類(lèi)型池化操作對(duì)一個(gè)線性的值序列進(jìn)行操作,返回序列中的多個(gè)數(shù)值而不是單個(gè)最大的數(shù)值。第二,池化參數(shù)k可以被動(dòng)態(tài)的選擇,通過(guò)網(wǎng)絡(luò)的其他參數(shù)來(lái)動(dòng)態(tài)調(diào)整k的值。
卷積層的一維卷積窗口對(duì)句子特征矩陣的每一行進(jìn)行卷積操作。相同的n-gram的卷積窗口在句子的每個(gè)位置進(jìn)行卷積操作,這樣可以根據(jù)位置獨(dú)立地提取特征。一個(gè)卷積層后面是一個(gè)多類(lèi)型動(dòng)態(tài)池化層和一個(gè)非線性的特征映射表。和卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的使用一樣,為豐富第一層的表述,通過(guò)不同的卷積窗口應(yīng)用到句子上計(jì)算出多重特征映射表。后續(xù)的層也通過(guò)下一層的卷積窗口的卷積操作計(jì)算出多重特征映射表。最終的結(jié)構(gòu)我們叫它多類(lèi)型池化的卷積神經(jīng)網(wǎng)絡(luò)。
在輸入句子上的多層的卷積和動(dòng)態(tài)池化操作產(chǎn)生一張結(jié)構(gòu)化的特征圖。高層的卷積窗口可以獲取非連續(xù)的相距較遠(yuǎn)的詞組的句法和語(yǔ)義關(guān)系。特征圖會(huì)引導(dǎo)出一種層級(jí)結(jié)構(gòu),某種程度上類(lèi)似于句法解析樹(shù)。這種結(jié)構(gòu)不僅僅是和句法相關(guān),它是神經(jīng)網(wǎng)絡(luò)內(nèi)部所有的。
我們將此網(wǎng)絡(luò)在四種場(chǎng)景下進(jìn)行了嘗試。前兩組實(shí)驗(yàn)是電影評(píng)論的情感預(yù)測(cè)[2],此網(wǎng)絡(luò)在二分和多種類(lèi)別的分類(lèi)實(shí)驗(yàn)中的表現(xiàn)都優(yōu)于其他方法。第三組實(shí)驗(yàn)在TREC數(shù)據(jù)集(Li and Roth, 2002)上的6類(lèi)問(wèn)題的分類(lèi)問(wèn)題。此網(wǎng)絡(luò)的正確率和目前最好的方法的正確率持平。第四組實(shí)驗(yàn)是推特的情感預(yù)測(cè),此網(wǎng)絡(luò)將160萬(wàn)條微博根據(jù)表情符號(hào)自動(dòng)打標(biāo)來(lái)進(jìn)行訓(xùn)練。在手工打標(biāo)的測(cè)試數(shù)據(jù)集上,此網(wǎng)絡(luò)將預(yù)測(cè)錯(cuò)誤率降低了25%。
本文的概要如下。第二段主要闡述MCNN的背景知識(shí),包括核心概念和相關(guān)的神將網(wǎng)絡(luò)句子模型。第三章定義了相關(guān)的操作符和網(wǎng)絡(luò)的層。第四章闡述生成的特征圖的處理和網(wǎng)絡(luò)的其他特點(diǎn)。第五章討論實(shí)驗(yàn)和回顧特征學(xué)習(xí)探測(cè)器。
2 背景
MCNN的每一層的卷積操作之后都伴隨一個(gè)池化操作。我們先回顧一下相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型。然后我們來(lái)闡述一維的卷積操作和經(jīng)典的延遲的神經(jīng)網(wǎng)絡(luò)(TDNN)[3]。在加了一個(gè)最大池化層到網(wǎng)絡(luò)后,TDNN也是一種句子模型[5]。
2.1 相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型
已經(jīng)有很多的神經(jīng)網(wǎng)絡(luò)句子模型被描述過(guò)了。 一種比較通用基本的模型是神經(jīng)網(wǎng)絡(luò)詞包模型(NBoW)。其中包含了一個(gè)映射層將單詞、詞組等映射到更高的維度;然后會(huì)有一個(gè)比如求和之類(lèi)的操作。結(jié)果向量通過(guò)一個(gè)或多個(gè)全連接層來(lái)進(jìn)行分類(lèi)。
有以外部的解析樹(shù)為基礎(chǔ)的遞歸神經(jīng)網(wǎng)絡(luò),還有在此基礎(chǔ)上更進(jìn)一步的RNN網(wǎng)絡(luò)。
最后一種是以卷積操作和TDNN結(jié)構(gòu)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)句子模型。相關(guān)的概念是動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),我們接下來(lái)介紹的就是它。
2.2 卷積
一維卷積操作便是將權(quán)重向量[m∈Rm]和輸入向量[s∈Rs]進(jìn)行操作。向量m是卷積操作的過(guò)濾器。具體來(lái)說(shuō),我們將s作為輸入句子,[si∈R]是與句子中第i個(gè)單詞相關(guān)聯(lián)的單獨(dú)的特征值。一維卷積操作背后的思想是通過(guò)向量m和句子中的每個(gè)m-gram的點(diǎn)積來(lái)獲得另一個(gè)序列c:
[ci=mTsi-m+1:i (1)]
根據(jù)下標(biāo)i的范圍的不同,等式1產(chǎn)生兩種不同類(lèi)型的卷積。窄類(lèi)型的卷積中s >= m并且會(huì)生成序列[c∈Rs-m+1],下標(biāo)i的范圍從m到s。寬類(lèi)型的卷積對(duì)m和s的大小沒(méi)有限制,生成的序列[c∈Rs+m-1],下標(biāo)i的范圍從1到s+m-1。超出下標(biāo)范圍的si窄(i < 1或者i > s)置為0。窄類(lèi)型的卷積結(jié)果是寬類(lèi)型的卷積結(jié)果的子序列。
寬類(lèi)型的卷積相比于窄類(lèi)型的卷積有一些優(yōu)點(diǎn)。寬類(lèi)型的卷積可以確保所有的權(quán)重應(yīng)用到整個(gè)句子,包括句子收尾的單詞。當(dāng)m被設(shè)為一個(gè)相對(duì)較大的值時(shí),如8或者10,這一點(diǎn)尤其重要。另外,寬類(lèi)型的卷積可以確保過(guò)濾器m應(yīng)用于輸入句子s始終會(huì)生成一個(gè)有效的非空結(jié)果集c,與m的寬度和s句子的長(zhǎng)度無(wú)關(guān)。接下來(lái)我們來(lái)闡述TDNN的卷積層。
4 驗(yàn)與結(jié)果分析
我們對(duì)此網(wǎng)絡(luò)進(jìn)行了4組不同的實(shí)驗(yàn)。
4.1 電影評(píng)論的情感預(yù)測(cè)
前兩組實(shí)驗(yàn)是關(guān)于電影評(píng)論的情感預(yù)測(cè)的,數(shù)據(jù)集是Stanford Sentiment Treebank.實(shí)驗(yàn)輸出的結(jié)果在一個(gè)實(shí)驗(yàn)中是分為2類(lèi),在另一種試驗(yàn)中分為5類(lèi):消極、略微消極、中性、略微積極、積極。而實(shí)驗(yàn)總的詞匯量為15448。
表示的是電影評(píng)論數(shù)據(jù)集情感預(yù)測(cè)準(zhǔn)確率。NB和BINB分別表示一元和二元樸素貝葉斯分類(lèi)器。SVM是一元和二元特征的支撐向量機(jī)。在三種神經(jīng)網(wǎng)絡(luò)模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機(jī)初始化的;它們的維度d被設(shè)為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個(gè)非線性化層、最大池化層和softmax分類(lèi)層。NBoW會(huì)將詞向量相加,并對(duì)詞向量進(jìn)行非線性化操作,最后用softmax進(jìn)行分類(lèi)。2類(lèi)分類(lèi)的MCNN的參數(shù)如下,卷積層之后折疊層、動(dòng)態(tài)多類(lèi)型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動(dòng)態(tài)多類(lèi)型池化層的k的值為4。網(wǎng)絡(luò)的最頂層是softmax層。5類(lèi)分類(lèi)的MCNN有相同的結(jié)構(gòu),但是濾波窗口的大小分別為10和7,k的值為5。
我們可以看到MCNN的分類(lèi)效果遠(yuǎn)超其他算法。NBoW的分類(lèi)效果和非神經(jīng)網(wǎng)絡(luò)算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因?yàn)檫^(guò)度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴(lài)外部的解析樹(shù)來(lái)生成結(jié)構(gòu)化特征,其他模型都不需要依賴(lài)外部資源。
4.2 問(wèn)題分類(lèi)
問(wèn)題分類(lèi)在問(wèn)答系統(tǒng)中應(yīng)用非常廣泛,一個(gè)問(wèn)題可能屬于一個(gè)或者多個(gè)問(wèn)題類(lèi)別。所用的數(shù)據(jù)集是TREC數(shù)據(jù)集,TREC數(shù)據(jù)集包含6種不同類(lèi)別的問(wèn)題,比如一個(gè)問(wèn)題是否關(guān)于地點(diǎn)、人或者數(shù)字信息。訓(xùn)練集包含5452個(gè)打標(biāo)的問(wèn)題和500個(gè)測(cè)試集。
4.3 Twitter情感預(yù)測(cè)
在我們最后的實(shí)驗(yàn)里,我們用tweets的大數(shù)據(jù)集進(jìn)行訓(xùn)練,我們根據(jù)tweet中出現(xiàn)的表情符號(hào)自動(dòng)地給文本進(jìn)行打標(biāo)簽,積極的或是消極的。整個(gè)數(shù)據(jù)集包含160萬(wàn)條根據(jù)表情符號(hào)打標(biāo)的tweet以及400條手工標(biāo)注的測(cè)試集。整個(gè)數(shù)據(jù)集包含76643個(gè)單詞。MCNN的結(jié)構(gòu)和4.1節(jié)中結(jié)構(gòu)相同。隨機(jī)初始化詞向量且維度d設(shè)為60。
我們發(fā)現(xiàn)MCNN的分類(lèi)效果和其他非神經(jīng)網(wǎng)絡(luò)的算法相比有極大的提高。MCNN和NBoW在分類(lèi)效果上的差別顯示了MCNN有極強(qiáng)的特征提取能力。
5 結(jié)語(yǔ)
在本文中我們闡述了一種動(dòng)態(tài)的卷積神經(jīng)網(wǎng)絡(luò),它使用動(dòng)態(tài)的多類(lèi)型池化操作作為非線性化取樣函數(shù)。此網(wǎng)絡(luò)在問(wèn)題分類(lèi)和情感預(yù)測(cè)方面取得了很好的效果,并且不依賴(lài)于外部特征如解析樹(shù)或其他外部資源。
參考文獻(xiàn)
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
關(guān)鍵詞:個(gè)性化;信息檢索;文本分類(lèi)
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿(mǎn)足不同目的,背景,時(shí)期的用戶(hù)查詢(xún)需求,因此需要針對(duì)擁護(hù)特征向用戶(hù)提供個(gè)性化服務(wù)。文本分類(lèi)方法通過(guò)構(gòu)造某種分類(lèi)模型,并以此判斷樣本所屬的類(lèi)別。文本分類(lèi)對(duì)合理組織,存儲(chǔ)文本信息,提高信息檢索速度,提高個(gè)性化信息檢索效率的基礎(chǔ)。
2 分類(lèi)方法
2.1 樸素貝葉斯方法
樸素貝葉斯方法是一種在已知先驗(yàn)概率與條件的情況下的模式識(shí)別方法,假設(shè)詞條之間是相互獨(dú)立的。設(shè)d為一任意文本,它屬于文檔類(lèi)C{c1,c2,…,ck}中的一類(lèi)Cj,引用詞條和分類(lèi)的聯(lián)合概率來(lái)計(jì)算給定文檔的分類(lèi)概率的公式如下:
計(jì)算所有文本類(lèi)在給定d情況下的概率,概率值最大的那個(gè)類(lèi)就是文本d所屬的類(lèi),既:
2.2 貝葉斯網(wǎng)絡(luò)分類(lèi)法
貝葉斯網(wǎng)絡(luò)分類(lèi)法考慮了特征之間的依賴(lài)關(guān)系,該方法更能真實(shí)反映文本的情況,但是計(jì)算復(fù)雜度比樸素貝葉斯高的多。
2.3 決策樹(shù)方法
決策樹(shù)極強(qiáng)的學(xué)習(xí)反義表達(dá)能力使得其適合于文本分類(lèi),它是通過(guò)一組無(wú)序,無(wú)規(guī)則的實(shí)例推理出樹(shù)型的分類(lèi)規(guī)則,采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值進(jìn)行判斷從該結(jié)點(diǎn)向下的分支,在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論,決策樹(shù)的建立算法有很多,文獻(xiàn)[5]其中包括基于信息增益的啟發(fā)式計(jì)算ID3;基于信息增益率的解決聯(lián)系屬性的算法C4.5;基于Gini系數(shù)的算法CART和可并行性算法SPRINT算法。決策樹(shù)方法特點(diǎn)是使用者只要將訓(xùn)練樣例能夠使用屬性-結(jié)合式的方法表達(dá)出來(lái),就能夠用該方法來(lái)學(xué)習(xí),但是這種算法生成的仍是多叉樹(shù)。
2.4 K-鄰近方法
K-鄰近方法,根據(jù)測(cè)試文本在訓(xùn)練文本中與之最相近的K篇文本的類(lèi)別來(lái)判定它的類(lèi)別,其中,K是一個(gè)重要的參數(shù),文獻(xiàn)[4]K值過(guò)大,則與待分類(lèi)文本實(shí)際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現(xiàn)待分類(lèi)文本的特點(diǎn).一般對(duì)K會(huì)選定一個(gè)初值,相似值的判定可取歐拉距離或余旋相似度等,若分類(lèi)系統(tǒng)中相似值的計(jì)算采用余旋相似度,則公式如下:
Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類(lèi)別屬性函數(shù),若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權(quán)重最大的類(lèi)別中去。
2.5 支持向量機(jī)
Vapnik提出在結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則理論上的支持向量機(jī)方法,能有效解決小樣本集的機(jī)器學(xué)習(xí)問(wèn)題,向量機(jī)主要是針對(duì)兩類(lèi)分類(lèi)問(wèn)題,在高維空間尋找一個(gè)滿(mǎn)足分類(lèi)要求的最優(yōu)超平作為兩類(lèi)的分割,既保證分類(lèi)精確度,又要使超平面兩側(cè)的空白區(qū)域最大化,以保證最小的分類(lèi)錯(cuò)誤率,文獻(xiàn)[1]對(duì)于大于兩類(lèi)的多類(lèi)文本分類(lèi),就對(duì)每個(gè)類(lèi)構(gòu)造一個(gè)超平面,將這一類(lèi)與其余的類(lèi)分開(kāi),有多個(gè)類(lèi)就構(gòu)造多個(gè)超平面,測(cè)試時(shí)就看哪個(gè)超平面最適合測(cè)試樣本。支持向量機(jī)方法避免了局部性問(wèn)題,樣本中的支持向量數(shù),能夠有效地用于解決高緯問(wèn)題。
2.6 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)是模仿人腦神經(jīng)網(wǎng)絡(luò)的基本組織特性構(gòu)成的新型信息處理系統(tǒng),其性質(zhì)取決于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),網(wǎng)絡(luò)的權(quán)值和工作規(guī)則.通常由等于樣本特征數(shù)的輸入層,輸出層,等于樣本類(lèi)數(shù)的神經(jīng)元組成。其中,每一個(gè)連接都有一定的權(quán)值,通過(guò)訓(xùn)練類(lèi)來(lái)訓(xùn)練的過(guò)程就是調(diào)整這些權(quán)值的過(guò)程,從而使神經(jīng)網(wǎng)絡(luò)與可以正確地預(yù)測(cè)類(lèi)別。
3 幾種方法的比較
3.1 樸素貝葉斯與網(wǎng)絡(luò)貝葉斯
樸素貝葉斯方法使用概率去表示所有形式的不確定性,學(xué)習(xí)或其他形式的推理都用概率規(guī)則來(lái)實(shí)現(xiàn),但是大部分情況是文本特征之間的依賴(lài)關(guān)系是相互存在的,所以特征獨(dú)立性會(huì)影響樸素貝葉斯分類(lèi)的結(jié)果;網(wǎng)絡(luò)貝葉斯能夠考慮特征之間的依賴(lài)關(guān)系,但是計(jì)算復(fù)雜度比樸素貝葉斯高得多;
3.2 支持向量機(jī)方法
支持向量機(jī)方法的優(yōu)點(diǎn):首先,該方法是針對(duì)有限樣本情況的分類(lèi)方法,其算法最終將轉(zhuǎn)化為一個(gè)二次型尋優(yōu)萬(wàn)惡提,理論上得到的將是全局最優(yōu)點(diǎn),避免了局部極值問(wèn)題;其次,該方法計(jì)算的復(fù)雜度不再取決于空間維度,而是取決于樣本數(shù),這可能有效地用于解決高維度問(wèn)題;再次,該方法對(duì)稀疏數(shù)據(jù)不敏感,能更好地捕捉數(shù)據(jù)的內(nèi)在特征。缺點(diǎn)是:該方法參數(shù)的調(diào)整比較困難,分類(lèi)比較費(fèi)時(shí)。
3.3 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn):首先,具有自適應(yīng)功能,它能根據(jù)所提供的數(shù)據(jù),通過(guò)學(xué)習(xí)找出輸出結(jié)果之間的內(nèi)在聯(lián)系,從而球的問(wèn)題的解答;其次,神經(jīng)網(wǎng)絡(luò)善于聯(lián)想、概括、類(lèi)比和推廣,任何局部的操作都不會(huì)影響整體效果;再次,具有高速尋找優(yōu)化解的能力。缺點(diǎn):該方法根據(jù)輸入輸出的關(guān)系訓(xùn)練網(wǎng)絡(luò),缺少解釋能力,受訓(xùn)練樣本影響大,訓(xùn)練過(guò)程較慢,不適應(yīng)大量數(shù)據(jù)的學(xué)習(xí)。
3.4 決策樹(shù)方法
決策樹(shù)方法的優(yōu)點(diǎn)是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí),只要訓(xùn)練樣例能夠使用屬性-結(jié)論式的方法表示出來(lái),就能使用該方法。缺點(diǎn)是測(cè)試屬性的選擇對(duì)該方法影響較大。
3.5 K-鄰近方法
K-鄰近方法的優(yōu)點(diǎn)是該方法訓(xùn)練過(guò)程較快,且可隨時(shí)添加或更新訓(xùn)練文本來(lái)調(diào)整;缺點(diǎn)是因?yàn)樾枰艽蟮目臻g來(lái)保存文本,所以它分類(lèi)的開(kāi)銷(xiāo)很大,K值確定較慢,分類(lèi)效果較差.
4 文本分類(lèi)方法效果評(píng)價(jià)
1) 精確度(查全率):是指通過(guò)分類(lèi)系統(tǒng)正確分類(lèi)的文本數(shù)與實(shí)際分類(lèi)的文本數(shù)的比值,其公式如下:
精確度:=
2) 召回率(查全率):是指通過(guò)分類(lèi)系統(tǒng)正確分類(lèi)的文本數(shù)與人工分類(lèi)中應(yīng)有的文本數(shù)的比值,公式如下:
召回率:=
3) F1測(cè)試值:對(duì)查權(quán)率和查準(zhǔn)綠的綜合測(cè)試
F1測(cè)試值:=
參考文獻(xiàn):
[1] 史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版,2002.
[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科技大學(xué)出版社,2002.
[3] 王繼成,潘金貴,張福炎.web文本挖掘技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2000,37(5):513-520.
關(guān)鍵詞:競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò);分類(lèi);訓(xùn)練誤差;特征向量
文本分類(lèi)數(shù)是據(jù)挖掘的一個(gè)重要研究領(lǐng)域,國(guó)內(nèi)外的眾多學(xué)者已經(jīng)進(jìn)行了比較深入的研究,取得了不少研究成果。常見(jiàn)的文本分類(lèi)技術(shù)有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機(jī)方法(SVM)、模糊c均值(FCM)算法和等,現(xiàn)在有很多學(xué)者把神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到分類(lèi)算法中,在這些分類(lèi)算法中,神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)更具有優(yōu)越的性能。袁飛云利用SOINN自動(dòng)產(chǎn)生聚類(lèi)數(shù)目和保留數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)的兩項(xiàng)能力,尋找更有效的單詞和設(shè)計(jì)更有效的編碼方式,提出了基于自組織增量神經(jīng)網(wǎng)絡(luò)(SOINN)的碼書(shū)產(chǎn)生方法;申明金利用自組織特征映射神經(jīng)網(wǎng)絡(luò)(SOM)以無(wú)監(jiān)督方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,具有自組織功能的特點(diǎn),利用自組織特征映射神經(jīng)網(wǎng)絡(luò)對(duì)不同產(chǎn)地金銀花進(jìn)行分類(lèi);彭俊等將不同空氣質(zhì)量等級(jí)下的各空氣指標(biāo)作為原型模式,通過(guò)輸入樣本模式,利用競(jìng)爭(zhēng)網(wǎng)絡(luò)的競(jìng)爭(zhēng)特點(diǎn)得到勝者,以此得出空氣質(zhì)量等級(jí);郝曉麗等通過(guò)篩選基于輪廓系數(shù)的優(yōu)秀樣木群,來(lái)尋找最佳初始聚類(lèi)中心,并將該改進(jìn)算法用于構(gòu)造徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)分類(lèi)器和快速有效地確定隱含層節(jié)點(diǎn)徑向基函數(shù)中心及函數(shù)的寬度,從而提高了分類(lèi)精度;孫進(jìn)進(jìn)利用神經(jīng)網(wǎng)絡(luò)技術(shù)中的自組織映射SOM)網(wǎng)絡(luò)對(duì)我國(guó)主要機(jī)場(chǎng)進(jìn)行聚類(lèi)分析評(píng)價(jià),得出我國(guó)主要機(jī)場(chǎng)分為8層的主要結(jié)論;劉艷杰在非監(jiān)督的自組織映射神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了一定的改進(jìn),構(gòu)建了有監(jiān)督的神經(jīng)網(wǎng)絡(luò)分類(lèi)模型;李楊將神經(jīng)網(wǎng)絡(luò)與群體智能算法、云計(jì)算相結(jié)合的方法,實(shí)現(xiàn)對(duì)不同規(guī)模農(nóng)業(yè)數(shù)據(jù)集的分類(lèi),提出基于神經(jīng)網(wǎng)絡(luò)分類(lèi)器的設(shè)計(jì)與優(yōu)化方法。而競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的自組織、自適應(yīng)學(xué)習(xí)能力,進(jìn)一步拓寬了神經(jīng)網(wǎng)絡(luò)在模式分類(lèi)和識(shí)別方面的應(yīng)用。競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制或競(jìng)爭(zhēng)的作用來(lái)進(jìn)行信息處理,可在訓(xùn)練中無(wú)監(jiān)督自組織學(xué)習(xí),通過(guò)學(xué)習(xí)提取數(shù)據(jù)中的重要特征或內(nèi)在規(guī)律,進(jìn)而實(shí)現(xiàn)分類(lèi)分析的功能。
1競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的描述
1.1競(jìng)爭(zhēng)型網(wǎng)絡(luò)的結(jié)構(gòu)
競(jìng)爭(zhēng)學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,該網(wǎng)絡(luò)具有R維輸入和s個(gè)輸出,由前饋層和競(jìng)爭(zhēng)層組成。圖中的llndlstll模塊表示對(duì)輸入矢量P和神經(jīng)元權(quán)值矢量w之間的距離取負(fù)。該網(wǎng)絡(luò)的輸出層是競(jìng)爭(zhēng)層,圖中的模塊c表示競(jìng)爭(zhēng)傳遞函數(shù),其輸出矢量由競(jìng)爭(zhēng)層各神經(jīng)元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關(guān)系。競(jìng)爭(zhēng)過(guò)后只有一個(gè)神經(jīng)元有非零輸出,獲勝的神經(jīng)元指明輸入屬于哪類(lèi)(每個(gè)原型向量代表一個(gè)類(lèi))。
1.2競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的原理
競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上,既不同于階層型的各層神經(jīng)元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競(jìng)爭(zhēng)層構(gòu)成的兩層網(wǎng)絡(luò)。兩層之間各神經(jīng)元實(shí)現(xiàn)雙向全連接,沒(méi)有隱含層,有時(shí)競(jìng)爭(zhēng)層各神經(jīng)元之間還存在橫向連接。在學(xué)習(xí)方法上,不是以網(wǎng)絡(luò)的誤差或能量函數(shù)的單調(diào)遞減作為算法準(zhǔn)則。而是依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制、競(jìng)爭(zhēng)的作用來(lái)進(jìn)行信息處理,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)與工作。
網(wǎng)絡(luò)在剛開(kāi)始建立的時(shí)候,輸入層和輸出層之間的連接權(quán)值已經(jīng)開(kāi)始了,如果與競(jìng)爭(zhēng)層某一神經(jīng)元對(duì)應(yīng)的矢量子類(lèi)別屬于線性層某個(gè)神經(jīng)元所對(duì)應(yīng)的目標(biāo)類(lèi)別,則這兩個(gè)神經(jīng)元的連接權(quán)值為1,否則二者的連接權(quán)值為0,這樣的權(quán)值矩陣就實(shí)現(xiàn)了子類(lèi)別到目標(biāo)類(lèi)別的合并。在建立競(jìng)爭(zhēng)型網(wǎng)絡(luò)時(shí),每類(lèi)數(shù)據(jù)占數(shù)據(jù)總數(shù)的百分比是已知的,這也是競(jìng)爭(zhēng)層神經(jīng)元?dú)w并到線性層的各個(gè)輸出時(shí)所依據(jù)的比例。
1.3存在的問(wèn)題
競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)按Kohonen學(xué)習(xí)規(guī)則對(duì)獲勝神經(jīng)元的權(quán)值進(jìn)行調(diào)整,通過(guò)輸入向量進(jìn)行神經(jīng)元權(quán)值的調(diào)整,因此在模式識(shí)別的應(yīng)用中是很有用的。通過(guò)學(xué)習(xí),那些最靠近輸入向量的神經(jīng)元權(quán)值向量得到修正,使之更靠近輸入向量,其結(jié)果是獲勝的神經(jīng)元在下一次相似的輸入向量出現(xiàn)時(shí),獲勝的可能性更大;而對(duì)于那些與輸入向量相差很遠(yuǎn)的神經(jīng)元權(quán)值向量,獲勝的可能性將變得很小。這樣,當(dāng)經(jīng)過(guò)越來(lái)越多的訓(xùn)練樣本學(xué)習(xí)后,每一個(gè)網(wǎng)絡(luò)層中的神經(jīng)元權(quán)值向量很快被調(diào)整為最接近某一類(lèi)輸入向量的值。最終的結(jié)果是,如果神經(jīng)元的數(shù)量足夠多,則具有相似輸入向量的各類(lèi)模式作為輸入向量時(shí),其對(duì)應(yīng)的神經(jīng)元輸出為1;而對(duì)于其他模式的輸入向量,其對(duì)應(yīng)的神經(jīng)元輸出為0。所以,競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)具有對(duì)輸入向量進(jìn)行學(xué)習(xí)分類(lèi)的能力。
例子:以競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)為工具,對(duì)下面的數(shù)據(jù)進(jìn)行分類(lèi):
運(yùn)用Matlab編程實(shí)現(xiàn),發(fā)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練誤差能達(dá)到要求,最后也能實(shí)現(xiàn)很好的分類(lèi)效果。運(yùn)行結(jié)果如圖2所示。
有運(yùn)行結(jié)果可以看到,訓(xùn)練誤差達(dá)到要求,分類(lèi)結(jié)果也很合理。
但是在實(shí)際應(yīng)用過(guò)程中,我們發(fā)現(xiàn),當(dāng)對(duì)于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)特征十分明顯的時(shí)候,本文設(shè)計(jì)的網(wǎng)絡(luò)模型可以對(duì)訓(xùn)練的數(shù)據(jù)進(jìn)行合理有效的分類(lèi),但是,當(dāng)訓(xùn)練數(shù)據(jù)的特征不太明顯區(qū)分的時(shí)候,本文設(shè)計(jì)的訓(xùn)練模型的分類(lèi)效果就不是太有優(yōu)勢(shì),所得到的分類(lèi)結(jié)果就不能達(dá)到我們預(yù)期的效果。
我們利用競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)樣本進(jìn)行分類(lèi),其中參數(shù)設(shè)置為學(xué)習(xí)效率0.1,網(wǎng)絡(luò)競(jìng)爭(zhēng)層有4個(gè)神經(jīng)元,運(yùn)用Matlab編程實(shí)現(xiàn),發(fā)現(xiàn)結(jié)果如下:
例子:我們利用本文設(shè)計(jì)的網(wǎng)絡(luò)分類(lèi)模型進(jìn)行對(duì)數(shù)據(jù)分類(lèi)處理:進(jìn)行分類(lèi)處理數(shù)據(jù)的樣本數(shù)據(jù)如下所示:
通過(guò)運(yùn)行學(xué)習(xí)發(fā)現(xiàn)訓(xùn)練誤差較大,分類(lèi)結(jié)果也達(dá)不到要求。
2改進(jìn)的方法
2.1問(wèn)題分析
通過(guò)比較分析我們發(fā)現(xiàn),上面的數(shù)據(jù)樣本沒(méi)有明顯的分類(lèi)特征,所以,以競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi),其輸入向量?jī)H僅依靠數(shù)據(jù)本身的固有的特征時(shí)不夠的,但我們可以把數(shù)據(jù)樣本看作是二維數(shù)據(jù),假設(shè)同符號(hào)的特征值為1,不同符號(hào)的特征值為2,于是一個(gè)新的訓(xùn)練樣本就確定了,即成為三維數(shù)據(jù)模型。
2.2改進(jìn)的算法
第一步:給定數(shù)據(jù)集X=[X1,X2……,Xi),對(duì)網(wǎng)絡(luò)進(jìn)行初始化,隨機(jī)給定網(wǎng)絡(luò)競(jìng)爭(zhēng)層與輸入層間的初始權(quán)向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競(jìng)爭(zhēng)層間的連接權(quán)值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權(quán)矢量)。
第二步:創(chuàng)建競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò),首先根據(jù)給定的問(wèn)題確定訓(xùn)練樣本的輸入向量,當(dāng)學(xué)習(xí)模式樣本本身雜亂無(wú)章,沒(méi)有明顯的分類(lèi)特征,網(wǎng)絡(luò)對(duì)輸入模式的響應(yīng)呈現(xiàn)震蕩的現(xiàn)象,不足以區(qū)分各類(lèi)模式時(shí),在創(chuàng)建網(wǎng)絡(luò)之前,提取訓(xùn)練樣本的特征值,設(shè)置輸入樣本的特征向量,然后再創(chuàng)建網(wǎng)絡(luò)模型,并根據(jù)模式分類(lèi)數(shù)確定神經(jīng)元的數(shù)目,最后任取一輸入模式Ak。
第三步:計(jì)算競(jìng)爭(zhēng)層各神經(jīng)元的輸入值si:
第四步:對(duì)本文建立的網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),網(wǎng)絡(luò)訓(xùn)練最大次數(shù)的初始值設(shè)置為230,當(dāng)訓(xùn)練誤差大于預(yù)期的設(shè)定值的時(shí)候,可以嘗試增加訓(xùn)練的最大次數(shù),按“勝者為王”(Winner Takes All)原則,將訓(xùn)練網(wǎng)絡(luò)中獲得最接近預(yù)期值的神經(jīng)元作為勝者,輸出狀態(tài)設(shè)置為1,沒(méi)有獲勝的神經(jīng)元的輸出狀態(tài)設(shè)置為0。如果有兩個(gè)以上神經(jīng)元的sj相同,取左邊的為獲勝單元。
第五步:獲勝神經(jīng)元連接權(quán)修正如下:
第六步:另選一學(xué)習(xí)模式,返回步驟3,直至所有學(xué)習(xí)模式提供一遍。
第七步:如果不滿(mǎn)足要求,則返回到最初的訓(xùn)練狀態(tài),反復(fù)訓(xùn)練直至訓(xùn)練網(wǎng)絡(luò)中神經(jīng)元獲得最接近預(yù)期值,最終的訓(xùn)練結(jié)束。
第八步:根據(jù)測(cè)試樣本利用Matlab編寫(xiě)程序進(jìn)行仿真實(shí)驗(yàn)。
通過(guò)實(shí)例訓(xùn)練,我們發(fā)現(xiàn)本算法和改進(jìn)前的算法相比,改進(jìn)后的算法訓(xùn)練誤差卻大大降低,已經(jīng)達(dá)到了訓(xùn)練的精度要求,同時(shí)也很好地實(shí)現(xiàn)了分類(lèi)要求。
法,并介紹了在TMS320C540
>> 一種新的基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 AVS解碼器流水線控制機(jī)制的一種改進(jìn)設(shè)計(jì) 一種SoC架構(gòu)的AVS硬件解碼器設(shè)計(jì)方案 一種基于BP神經(jīng)網(wǎng)絡(luò)整定的PID控制器的算法改進(jìn) 一種基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)方法 基于一種改進(jìn)BP神經(jīng)網(wǎng)絡(luò)算法的教學(xué)質(zhì)量評(píng)價(jià)研究 一種基于ART2神經(jīng)網(wǎng)絡(luò)的算法改進(jìn) 一種基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)T/R組件溫度的方法 一種基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的高效模糊聚類(lèi)算法 一種基于模糊神經(jīng)網(wǎng)絡(luò)的印刷品字符識(shí)別器 一種基于遺傳神經(jīng)網(wǎng)絡(luò)文本分類(lèi)器的研究 一種新的基于灰色關(guān)聯(lián)分析的BP神經(jīng)網(wǎng)絡(luò)剪枝算法 一種新的基于神經(jīng)網(wǎng)絡(luò)的IRT項(xiàng)目參數(shù)估計(jì)模型 一種基于短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯的高效柱搜索解碼器 一種基于SOM神經(jīng)網(wǎng)絡(luò)的污水處理工藝方案比選方法 一種基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)控機(jī)床伺服系統(tǒng)控制器 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法在入侵檢測(cè)中的應(yīng)用 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)車(chē)牌識(shí)別算法的研究 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法分析 一種ART2神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:中國(guó) > 科技 > 一種新的基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 一種新的基于改進(jìn)的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 雜志之家、寫(xiě)作服務(wù)和雜志訂閱支持對(duì)公帳戶(hù)付款!安全又可靠! document.write("作者:未知 如您是作者,請(qǐng)告知我們")
申明:本網(wǎng)站內(nèi)容僅用于學(xué)術(shù)交流,如有侵犯您的權(quán)益,請(qǐng)及時(shí)告知我們,本站將立即刪除有關(guān)內(nèi)容。 摘 要:本文提出了一種新的基于改進(jìn)的AD址INE神經(jīng)網(wǎng)絡(luò)DTMF信號(hào)檢測(cè)算
法,并介紹了在TMS320C5402和TLV320AICl0上采用此算法的DTMF
關(guān)鍵詞:極限學(xué)習(xí)機(jī);稀疏自動(dòng)編碼器;集成學(xué)習(xí);文本分類(lèi)
1 概述
隨著現(xiàn)代社會(huì)的發(fā)展,互聯(lián)網(wǎng)成為了人們獲取文本信息的重要手段。然而網(wǎng)上的信息雜亂無(wú)章,使得人們很難快速而準(zhǔn)確的獲得所需要的文本信息。因此如何有效的對(duì)文本進(jìn)行分類(lèi),幫助用戶(hù)找到所需的信息成為當(dāng)代信息技術(shù)領(lǐng)域的一個(gè)重要課題[1]。
本文提出利用深度學(xué)習(xí)中的稀疏自動(dòng)編碼器自動(dòng)選取文本的特征,然后利用極限學(xué)習(xí)機(jī)作為基分類(lèi)器進(jìn)行文本的分類(lèi),最后結(jié)合Adaboost集成學(xué)習(xí)方法將極限學(xué)習(xí)機(jī)作為基分類(lèi)器組合成一個(gè)效果更好的分類(lèi)器。實(shí)驗(yàn)結(jié)果表明,該算法在文本分類(lèi)方面,可以有效地提高文本分類(lèi)的準(zhǔn)確性。
2 相關(guān)理論基礎(chǔ)
2.1 稀疏自動(dòng)編碼器
稀疏自動(dòng)編碼器(sparse auto encoder,SAE)是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)構(gòu)造而成的網(wǎng)絡(luò)。稀疏自動(dòng)編碼器的訓(xùn)練過(guò)程分為兩個(gè)步:第一步是預(yù)訓(xùn)練,即先利用無(wú)監(jiān)督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓(xùn)練算法確定網(wǎng)絡(luò)的參數(shù)。第二步是微調(diào),其思想是整個(gè)網(wǎng)絡(luò)視為一個(gè)整體,用有監(jiān)督學(xué)習(xí)的方法優(yōu)化整個(gè)網(wǎng)絡(luò)的參數(shù),由于SAE訓(xùn)練過(guò)程的復(fù)雜性,具體過(guò)程可參考文獻(xiàn)[2]。
2.2 極限學(xué)習(xí)機(jī)
針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程時(shí)間漫長(zhǎng),優(yōu)化困難等缺點(diǎn),新加坡南洋理工大學(xué)的黃廣斌教授提出了一種全新的單隱層前饋神經(jīng)網(wǎng)絡(luò)-極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[3],該網(wǎng)絡(luò)能夠以極快的學(xué)習(xí)速度達(dá)到較好的泛化性能,從而解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢的限制。該網(wǎng)絡(luò)主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經(jīng)元通過(guò)激活函數(shù)把輸入的數(shù)據(jù)進(jìn)行變換,然后把變換后的數(shù)據(jù)輸出到輸出層,在網(wǎng)絡(luò)中輸入層和隱藏層的權(quán)值是隨機(jī)設(shè)置的,只有隱藏層到輸出層的權(quán)值需要求解,因此加快了網(wǎng)絡(luò)的學(xué)習(xí)速度。
2.3 Adaboost分類(lèi)器
由于單個(gè)分類(lèi)器通常無(wú)法滿(mǎn)足分類(lèi)任務(wù)的要求,因此需要通過(guò)集成學(xué)習(xí)來(lái)構(gòu)建并結(jié)合多個(gè)分類(lèi)器來(lái)完成分類(lèi)任務(wù),這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的變現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)收到更多關(guān)注,然后基于調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)基學(xué)習(xí)器;如此重復(fù)進(jìn)行,直到基學(xué)習(xí)器數(shù)目達(dá)到指定的值,最終將這幾個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。Adaboost是一種迭代算法,具體訓(xùn)練過(guò)程可參考南京大學(xué)周志華教授編寫(xiě)的機(jī)器學(xué)習(xí)課本中關(guān)于Adaboost算法的章節(jié)。
3 SEA文本分類(lèi)算法
在本文中,結(jié)合稀疏編碼器,極限學(xué)習(xí)機(jī)與Adaboost這三種機(jī)器學(xué)習(xí)方法提出SEA文本分類(lèi)算法,該算法的工作流程如圖1所示。
該分類(lèi)算法的第一步為輸入,輸入的是經(jīng)過(guò)了向量化表示的文本,但沒(méi)有經(jīng)過(guò)任何的手工特征提取。第二步是利用SAE算法對(duì)數(shù)據(jù)的重建能力自動(dòng)選擇文本的特征,用SAE算法選擇的文本特征可以有效地復(fù)原原始文本信息。第三步是利用ELM分類(lèi)器作為該算法的基分類(lèi)器,ELM作為第四步中的基分類(lèi)器參與訓(xùn)練,最后一步是輸出該文本屬于哪一類(lèi)。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
本文選用的分類(lèi)文本數(shù)據(jù)來(lái)源于新聞數(shù)據(jù)集[5],該數(shù)據(jù)集復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系李榮陸提供,數(shù)據(jù)集標(biāo)注比較規(guī)范,規(guī)模適中,適合于進(jìn)行文本分類(lèi)的仿真實(shí)驗(yàn)。
在文本分類(lèi)中常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率P(Precision)和召回率R(Recall),公式如下:
P=M/(M+N),R=M/(M+T)
其中,M為正確分類(lèi)到該類(lèi)的文本數(shù),N為錯(cuò)分到該類(lèi)中的文本數(shù),T為屬于該類(lèi)確誤分為別類(lèi)的文本數(shù)。
4.2 實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文提出的SEA文本分類(lèi)模型,需要將文本數(shù)據(jù)集進(jìn)行預(yù)處理,對(duì)于SEA模型來(lái)說(shuō),就是進(jìn)行文本分詞。本實(shí)驗(yàn)文本分詞采用的是NLPIR漢語(yǔ)分詞系統(tǒng),其主要功能包括中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,用戶(hù)字典功能等,是國(guó)內(nèi)比較成熟,用戶(hù)較多的中文文本分詞系統(tǒng)。經(jīng)過(guò)文本預(yù)處理后,按照本文提出的SEA文本分模型進(jìn)行實(shí)驗(yàn),并和幾種經(jīng)典的分類(lèi)算法做對(duì)比。在本實(shí)驗(yàn)中Adaboost集成學(xué)習(xí)算法中基分類(lèi)器的個(gè)數(shù)設(shè)置為10個(gè),基分類(lèi)器ELM中隱藏層的個(gè)數(shù)設(shè)置為輸入層的0.75倍,稀疏自動(dòng)編碼器中隱藏層數(shù)設(shè)置為4,實(shí)驗(yàn)結(jié)果如表1和表2所示。
從表1和表2可以看出隨著文本數(shù)量的增加,SEA模型的分類(lèi)準(zhǔn)確率和召回率逐漸提高,這是由于在訓(xùn)練數(shù)據(jù)集較小時(shí),稀疏編碼器對(duì)自動(dòng)提取的文本特征變現(xiàn)地不是很理想,容易造成SEA分類(lèi)模型產(chǎn)生過(guò)擬合現(xiàn)象,從而影響分類(lèi)準(zhǔn)確率和召回率。SVM算法在訓(xùn)練數(shù)據(jù)集比較小時(shí),變現(xiàn)良好,這是由于在訓(xùn)練數(shù)據(jù)較少時(shí),可以較容易地找到分類(lèi)超平面,在數(shù)據(jù)量變大時(shí),由于計(jì)算量的增大,使得計(jì)算量變大,導(dǎo)致計(jì)算得到的超平面效果不好,使得分類(lèi)準(zhǔn)確率和召回率不斷下降。BP和ELM算法都隨著訓(xùn)練數(shù)據(jù)的增大,其分類(lèi)準(zhǔn)確率和召回率在不斷變大,這是由于隨著訓(xùn)練數(shù)據(jù)的增大,BP和ELM可以更有效的提取輸入數(shù)據(jù)的特征,但ELM算法相比BP算法變現(xiàn)得更好,這是由于BP算法可能無(wú)法收斂到最優(yōu)值,導(dǎo)致分類(lèi)算法的準(zhǔn)確率下降。
綜上所述,本文提出的SEA文本分類(lèi)模型可以有效的提高文本分類(lèi)的準(zhǔn)確率和召回率,尤其是隨著訓(xùn)練數(shù)據(jù)集的不斷增大。
5 結(jié)束語(yǔ)
文本分類(lèi)在文本處理中占據(jù)著重要的地位,其分類(lèi)的好壞直接影響著后續(xù)的文本處理,如何有效地對(duì)文本分類(lèi)是一個(gè)重要的研究課題。本文結(jié)合稀疏自動(dòng)編碼器,極限學(xué)習(xí)機(jī)與Adaboost集成學(xué)習(xí)方法提出SEA文本分類(lèi)方法,實(shí)驗(yàn)結(jié)果表明該分類(lèi)方法可以有效將文本分類(lèi)過(guò)程中的特征提取和分類(lèi)器結(jié)合在一起,從而提高了分類(lèi)結(jié)果的準(zhǔn)確性。
參考文獻(xiàn)
[1]秦勝君,盧志平.稀疏自動(dòng)編碼器在文本分類(lèi)中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2013,13(31):9422-9426.
[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.
[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.
[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語(yǔ)言模型;分析
1 卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
CNN語(yǔ)言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類(lèi)層。輸入層是表示語(yǔ)言的矩陣,該矩陣可以是通過(guò)Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語(yǔ)言的向量表示。輸入層之后是通過(guò)線性濾波器對(duì)輸入矩陣進(jìn)行卷積操作的卷積層。在NLP問(wèn)題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因?yàn)榫仃嚨拿恳恍卸急硎倦x散的符號(hào),例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實(shí)現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問(wèn)題時(shí),卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過(guò)池化函數(shù)為特征映射進(jìn)行降維并且減少了待估計(jì)參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過(guò)池化操作,可以將卷積層生成的特征連接成更抽象的高級(jí)特征,所得到的高級(jí)特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級(jí)特征輸入softmax分類(lèi)層進(jìn)行分類(lèi)操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機(jī)地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過(guò)該值時(shí),將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類(lèi)的交叉熵?fù)p失,要估計(jì)的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項(xiàng)以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型應(yīng)用分析
CNN語(yǔ)言模型已經(jīng)廣泛應(yīng)用于諸如文本分類(lèi),關(guān)系挖掘以及個(gè)性化推薦等NLP任務(wù),下面將對(duì)這些應(yīng)用進(jìn)行具體的介紹與分析。
2.1 CNN在文本分類(lèi)中的應(yīng)用分析
kim提出了利用CNN進(jìn)行句子分類(lèi)的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實(shí)現(xiàn)了效果很優(yōu)異的句子分類(lèi)方法。通過(guò)對(duì)輸入向量的調(diào)整,進(jìn)一步提高了性能實(shí)現(xiàn)了包括情感極性分析以及話題分類(lèi)的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計(jì)了兩種通道,一種是靜態(tài)通道,另一種是動(dòng)態(tài)通道。在卷積層每一個(gè)濾波器都通過(guò)靜態(tài)與動(dòng)態(tài)兩種通道進(jìn)行計(jì)算,然后將計(jì)算結(jié)果進(jìn)行拼接。在池化層采用dropout正則化策略,并對(duì)權(quán)值向量進(jìn)行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評(píng)論數(shù)據(jù)集,內(nèi)容為一句話的電影評(píng)論,其分類(lèi)包括積極情感極性與消極情感極性?xún)深?lèi)。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹(shù)庫(kù)是MR數(shù)據(jù)集的擴(kuò)展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗(yàn)證集及測(cè)試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類(lèi)任務(wù)是將句子分為主觀句與客觀句兩類(lèi)。TREC數(shù)據(jù)集為問(wèn)題數(shù)據(jù)集,其分類(lèi)任務(wù)是將所有問(wèn)題分為六類(lèi),例如關(guān)于數(shù)字、人物或位置等信息的問(wèn)題。CR數(shù)據(jù)集為評(píng)論數(shù)據(jù)集,包括客戶(hù)對(duì)MP3、照相機(jī)等數(shù)碼產(chǎn)品的評(píng)論,其分類(lèi)任務(wù)是將其分為積極評(píng)價(jià)與消極評(píng)價(jià)兩類(lèi)。MPQA數(shù)據(jù)集是意見(jiàn)極性檢測(cè)任務(wù)數(shù)據(jù)集。通過(guò)實(shí)驗(yàn)證明,該方法在這幾個(gè)典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應(yīng)用分析
Shen等人提出了一種新的潛在語(yǔ)義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢(xún)和Web文檔學(xué)習(xí)低維語(yǔ)義向量表示。為了在網(wǎng)絡(luò)查詢(xún)或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過(guò)輸入單詞序列上下文時(shí)間窗口中的每個(gè)單詞來(lái)獲取詞匯級(jí)的n-gram語(yǔ)法特征,將這些特征聚合成句子級(jí)特征向量。最后,應(yīng)用非線性變換來(lái)提取高級(jí)語(yǔ)義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過(guò)上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過(guò)max池化將word-n-gram特征合并為句子級(jí)的高級(jí)特征。在池化層之后增加了語(yǔ)義層來(lái)提取更高級(jí)的語(yǔ)義表示向量。
2.3 CNN在個(gè)性化推薦中的應(yīng)用分析
Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過(guò)預(yù)標(biāo)注的100,000標(biāo)簽進(jìn)行訓(xùn)練。該方法除了標(biāo)簽預(yù)測(cè)任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對(duì)于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類(lèi)似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時(shí)將標(biāo)簽也使用查找表來(lái)表示。對(duì)于給定的文檔利用10萬(wàn)條最頻繁出現(xiàn)的標(biāo)簽通過(guò)評(píng)分函數(shù)對(duì)任何給定的主題標(biāo)簽進(jìn)行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過(guò)對(duì)分?jǐn)?shù)f(w,t)進(jìn)行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進(jìn)行推薦。實(shí)驗(yàn)數(shù)據(jù)集采用了兩個(gè)大規(guī)模語(yǔ)料集,均來(lái)自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個(gè)數(shù)據(jù)集稱(chēng)作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬(wàn)條文本,共含有55億單詞。第二個(gè)數(shù)據(jù)集被稱(chēng)作pages,包括3530萬(wàn)條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語(yǔ)
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)言模型已經(jīng)取得了非常大的發(fā)展,對(duì)于自然語(yǔ)言處理中的各項(xiàng)任務(wù)均取得了優(yōu)異的結(jié)果。本文通過(guò)對(duì)幾項(xiàng)典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過(guò)綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會(huì)優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。