中文久久久字幕|亚洲精品成人 在线|视频精品5区|韩国国产一区

歡迎來(lái)到優(yōu)發(fā)表網(wǎng),期刊支持:400-888-9411 訂閱咨詢:400-888-1571股權(quán)代碼(211862)

購(gòu)物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀范文

時(shí)間:2023-10-13 16:07:25

序論:在您撰寫網(wǎng)絡(luò)輿情分析研究現(xiàn)狀時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀

第1篇

【關(guān)鍵詞】網(wǎng)絡(luò)輿情監(jiān)測(cè) 現(xiàn)狀 發(fā)展路徑

網(wǎng)絡(luò)輿情監(jiān)測(cè)業(yè)的現(xiàn)狀

輿情監(jiān)測(cè)是指整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù),通過(guò)對(duì)互聯(lián)網(wǎng)海量信息自動(dòng)抓取、自動(dòng)分類聚類、主題檢測(cè)、專題聚焦,滿足用戶的網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專題追蹤等信息需求,形成簡(jiǎn)報(bào)、報(bào)告、圖表等分析結(jié)果,為客戶全面掌握群眾思想動(dòng)態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。①針對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè),目前有兩種觀點(diǎn),一種觀點(diǎn)重在強(qiáng)調(diào)網(wǎng)絡(luò)輿情監(jiān)測(cè)軟件系統(tǒng)的作用,即網(wǎng)絡(luò)輿情監(jiān)測(cè)是通過(guò)對(duì)網(wǎng)絡(luò)各類信息匯集、分類、整合、篩選等技術(shù)處理,再形成對(duì)網(wǎng)絡(luò)熱點(diǎn)、動(dòng)態(tài)、網(wǎng)民意見(jiàn)等實(shí)時(shí)統(tǒng)計(jì)報(bào)表的軟件工具。另一種觀點(diǎn)認(rèn)為網(wǎng)絡(luò)輿情監(jiān)測(cè)是全部網(wǎng)絡(luò)輿情服務(wù)工作的最基礎(chǔ)部分,它是高度人機(jī)合一的工作。輿論監(jiān)測(cè)機(jī)構(gòu)以第三方的身份進(jìn)行觀察,將事件各方視為平等媒介主體,通過(guò)搭建適當(dāng)?shù)臏贤ㄇ老`解、解決問(wèn)題,同時(shí)提供客觀、中立的意見(jiàn),是客戶的智囊和顧問(wèn)。筆者認(rèn)為,這兩種觀點(diǎn)都只是部分反映了網(wǎng)絡(luò)輿情的現(xiàn)實(shí),是不全面的。因此,本文所討論的是建立在二者基礎(chǔ)上的網(wǎng)絡(luò)輿情監(jiān)測(cè)及其相關(guān)產(chǎn)業(yè)??偟膩?lái)說(shuō),國(guó)內(nèi)的網(wǎng)絡(luò)輿情監(jiān)測(cè)服務(wù)機(jī)構(gòu)大致可以分為四類:

第一類由軟件公司和傳統(tǒng)的市場(chǎng)調(diào)查公司聯(lián)合成立的輿情監(jiān)測(cè)軟件企業(yè),以方正電子、拓爾思、軍犬為代表,它們的技術(shù)實(shí)力較為雄厚,抓取網(wǎng)絡(luò)輿情數(shù)據(jù)能力較強(qiáng)。

第二類是依托人民網(wǎng)、新華網(wǎng)等主流媒體建立的輿情監(jiān)測(cè)平臺(tái),即輿情監(jiān)測(cè)行業(yè)的媒體派,如人民網(wǎng)輿情監(jiān)測(cè)室、新華網(wǎng)“輿情在線”。這兩個(gè)輿情監(jiān)測(cè)系統(tǒng)主要針對(duì)社情民意進(jìn)行監(jiān)測(cè),對(duì)時(shí)事熱點(diǎn)和受眾心理變化的敏感度較高。

第三類由高校或?qū)W術(shù)機(jī)構(gòu)創(chuàng)辦的輿情研究所。如中國(guó)傳媒大學(xué)網(wǎng)絡(luò)輿情(口碑)研究所、中國(guó)人民大學(xué)輿論研究所等。這類機(jī)構(gòu)具有濃厚的學(xué)術(shù)傳統(tǒng),匯聚了新聞學(xué)、傳播學(xué)專業(yè)的各類精英,善于捕捉網(wǎng)絡(luò)輿情的變化,并將其歸納、梳理,總結(jié)規(guī)律并且上升到理論研究的高度。

第四類是由輿情監(jiān)測(cè)軟件機(jī)構(gòu)和高校新聞與傳播研究所合作成立的輿情實(shí)驗(yàn)室,如南京大學(xué)—谷尼網(wǎng)絡(luò)輿情監(jiān)測(cè)與分析實(shí)驗(yàn)室、清華—優(yōu)訊輿情實(shí)驗(yàn)室。這一類機(jī)構(gòu)將高校多學(xué)科團(tuán)隊(duì)的學(xué)術(shù)優(yōu)勢(shì)與先進(jìn)互聯(lián)網(wǎng)監(jiān)控軟件的技術(shù)優(yōu)勢(shì)、市場(chǎng)經(jīng)驗(yàn)相結(jié)合,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。

這些網(wǎng)絡(luò)輿情的監(jiān)測(cè)機(jī)構(gòu)都有一套較為完整的網(wǎng)絡(luò)輿情監(jiān)測(cè)理論體系、工作方法、工作流程和應(yīng)用技術(shù),既可以對(duì)傳統(tǒng)媒體的網(wǎng)絡(luò)版,又可以對(duì)各大網(wǎng)站的新聞、新聞跟帖、網(wǎng)絡(luò)論壇、微博、博客、網(wǎng)絡(luò)時(shí)評(píng)等進(jìn)行24小時(shí)監(jiān)測(cè),并進(jìn)行專業(yè)的統(tǒng)計(jì)和分析,最終形成監(jiān)測(cè)分析研究報(bào)告。但是,它們之間的不同之處亦很明顯:

第一,服務(wù)的對(duì)象不同。輿情監(jiān)控系統(tǒng)功能、工作流程大同小異,服務(wù)的對(duì)象不盡相同,有專攻一個(gè)領(lǐng)域的,有做全面監(jiān)測(cè)的。如紅麥輿情監(jiān)測(cè)系統(tǒng)重點(diǎn)在做金融行業(yè),已經(jīng)形成了成熟的工作流程和方法;新華輿情在線主要是專為中央有關(guān)部門服務(wù)的。第二,宣傳的重點(diǎn)不同。大多數(shù)機(jī)構(gòu)強(qiáng)調(diào)自己的技術(shù)實(shí)力,只有部分輿情監(jiān)測(cè)服務(wù)機(jī)構(gòu)強(qiáng)調(diào)自己的智力和人才資源。如清華優(yōu)訊,倡導(dǎo)是“中國(guó)目前唯一一家可以監(jiān)測(cè)電視、報(bào)刊、網(wǎng)站、論壇、博客、微博的全媒體輿情監(jiān)測(cè)服務(wù)商?!钡谌?,對(duì)新產(chǎn)品開(kāi)發(fā)的重視程度不同。以軟件系統(tǒng)著稱的技術(shù)派在其網(wǎng)站的主頁(yè)上只有案例庫(kù)匯集,缺少衍生品的開(kāi)發(fā),而依托主流媒體或者高校的輿情監(jiān)測(cè)機(jī)構(gòu)非常重視衍生品的開(kāi)發(fā)。

我國(guó)輿情監(jiān)測(cè)業(yè)存在的問(wèn)題

從目前的情況來(lái)看,我國(guó)的輿情監(jiān)測(cè)業(yè)存在的問(wèn)題主要表現(xiàn)為以下幾個(gè)方面:

輿情監(jiān)測(cè)機(jī)構(gòu)的專業(yè)人員嚴(yán)重缺乏。雖然有許多輿情監(jiān)測(cè)機(jī)構(gòu)在廣告中都提出依靠軟件系統(tǒng)能解決大部分問(wèn)題,但是仍然需要輿情分析師結(jié)合軟件數(shù)據(jù),撰寫人工分析結(jié)論。目前,國(guó)內(nèi)的輿情分析師大多數(shù)由傳統(tǒng)的新聞宣傳工作者轉(zhuǎn)型而來(lái),但是離市場(chǎng)的需求還有相當(dāng)大的人才缺口。據(jù)相關(guān)機(jī)構(gòu)調(diào)查顯示,我國(guó)專業(yè)輿情人才缺口現(xiàn)已超過(guò)120萬(wàn)。②

輿情服務(wù)機(jī)構(gòu)的產(chǎn)業(yè)鏈不完善。國(guó)內(nèi)的一些公司如大旗網(wǎng)、藍(lán)色光標(biāo)等,它們提供的服務(wù)比較簡(jiǎn)單,大都是企業(yè)發(fā)生危機(jī)后進(jìn)行滅火工作。還有一些輿情監(jiān)測(cè)公司更像是體檢中心,不具備預(yù)警和危機(jī)應(yīng)對(duì)功能,客戶在得知自身問(wèn)題后,也不能采取專業(yè)有效的措施去處理危機(jī)。從輿情監(jiān)測(cè)的產(chǎn)業(yè)鏈上看,整個(gè)行業(yè)由輿情監(jiān)測(cè)、分析、應(yīng)對(duì)處理多個(gè)環(huán)節(jié)構(gòu)成。從用戶需求的情況來(lái)看,用戶需要的是“高質(zhì)量的監(jiān)測(cè)平臺(tái)+專業(yè)的輿情服務(wù)”,而不僅僅是一個(gè)監(jiān)測(cè)軟件。與此同時(shí),傳統(tǒng)媒體作為輿情產(chǎn)業(yè)鏈上的一環(huán),作用雖然非常重要,但從目前來(lái)看,它們往往處于產(chǎn)業(yè)鏈的下游,自主性嚴(yán)重不足。

重視對(duì)客戶的服務(wù),忽視對(duì)民意的研究。目前一些網(wǎng)絡(luò)監(jiān)測(cè)機(jī)構(gòu)只強(qiáng)調(diào)對(duì)政府和企業(yè)的服務(wù),對(duì)網(wǎng)上輿論則采取“堵”的解決策略。甚至還有一些專門的“刪帖公司”,甚至有一些輿情監(jiān)測(cè)公司就在自己的網(wǎng)頁(yè)上明確寫著可以替客戶“刪除負(fù)面信息”,這種同時(shí)兼營(yíng)網(wǎng)絡(luò)刪帖業(yè)務(wù)的輿情監(jiān)測(cè)公司在行業(yè)內(nèi)大概占到20%。③還有一些地方與部門不是著眼于研究民意、改進(jìn)工作,而是想借助輿情監(jiān)測(cè)和監(jiān)測(cè)機(jī)構(gòu)或主流媒體建立聯(lián)系,以便幫助他們監(jiān)控和處理負(fù)面信息。

輿情監(jiān)測(cè)行業(yè)規(guī)范尚未建立。由于目前有關(guān)管理部門尚未出臺(tái)嚴(yán)格的行業(yè)規(guī)范和標(biāo)準(zhǔn),一些商業(yè)網(wǎng)站、廣告公司、營(yíng)銷公司、公關(guān)公司等,也開(kāi)始紛紛涉足網(wǎng)絡(luò)輿情監(jiān)測(cè)業(yè)務(wù),不規(guī)范的業(yè)務(wù)運(yùn)作使得“網(wǎng)絡(luò)刪帖”、“網(wǎng)絡(luò)水軍”等大量出現(xiàn),嚴(yán)重影響了輿論監(jiān)測(cè)行業(yè)的健康發(fā)展。截至2012年1月,經(jīng)過(guò)工信部軟件司認(rèn)定登記頒證的“輿情”軟件共有約68款,市場(chǎng)上還大量存在未經(jīng)認(rèn)證的同類軟件。在輿情監(jiān)測(cè)產(chǎn)業(yè)壯大的同時(shí),呼吁推動(dòng)輿情服務(wù)業(yè)透明化、規(guī)范化的呼聲也越來(lái)越多。

我國(guó)輿情監(jiān)測(cè)機(jī)構(gòu)的發(fā)展路徑

加強(qiáng)專業(yè)網(wǎng)絡(luò)輿情分析師的培養(yǎng)。輿情監(jiān)測(cè)軟件和平臺(tái)提高了效率,但人工分析仍是重點(diǎn)。在輿情分析師這個(gè)新職業(yè)群體中,雖然不乏搜索引擎專家、網(wǎng)絡(luò)調(diào)查專家、統(tǒng)計(jì)高手、圖表專家等“高技術(shù)”人才,但是分析師們所需要的不僅僅是技術(shù)。輿情分析師的五大基礎(chǔ)技能包括挖掘與收集網(wǎng)絡(luò)輿情信息、概括剖析網(wǎng)絡(luò)言論、抽樣統(tǒng)計(jì)網(wǎng)絡(luò)輿情數(shù)據(jù)、撰寫輿情分析報(bào)告、預(yù)測(cè)輿情走勢(shì)。一名合格的網(wǎng)絡(luò)輿情分析師,除了要有輿論學(xué)、傳播學(xué)、統(tǒng)計(jì)學(xué)、公共管理學(xué)等學(xué)科的理論知識(shí)以外,還應(yīng)具備很強(qiáng)的新聞敏感性、輿情分析研判和危機(jī)管理能力,熟悉網(wǎng)絡(luò)輿情抽樣、統(tǒng)計(jì)、分析工具和模型,對(duì)社會(huì)心理與網(wǎng)絡(luò)語(yǔ)言文化有長(zhǎng)期觀察研究。作為獨(dú)立的第三方,輿情分析師樹(shù)立穩(wěn)定的價(jià)值觀至關(guān)重要。除此之外,還必須了解突發(fā)事件演變規(guī)律及輿情分析研判能力。

輿情監(jiān)測(cè)機(jī)構(gòu)與高等院?;蚩蒲兴蛐侣劽襟w結(jié)合,實(shí)現(xiàn)業(yè)務(wù)實(shí)踐與理論研究、硬技術(shù)與軟實(shí)力雙贏。大數(shù)據(jù)時(shí)代輿情監(jiān)測(cè)機(jī)構(gòu)要想謀求很好的發(fā)展,必須走強(qiáng)強(qiáng)聯(lián)合之路。具體來(lái)講,就是高等院校或科研所或新聞媒體相結(jié)合,實(shí)現(xiàn)業(yè)務(wù)實(shí)踐與理論研究、硬技術(shù)與軟實(shí)力雙贏,這在輿情監(jiān)測(cè)業(yè)界已經(jīng)有不少的成功案例。如2012年9月,紅麥聚信(北京)軟件技術(shù)有限公司與暨南大學(xué)成立“暨大—紅麥輿情研究實(shí)驗(yàn)室”,以紅麥輿情監(jiān)測(cè)系統(tǒng)技術(shù)平臺(tái)為基礎(chǔ),收集和處理網(wǎng)絡(luò)、微博輿情信息數(shù)據(jù),提供給實(shí)驗(yàn)室作為輿情研究的數(shù)據(jù);實(shí)驗(yàn)室依據(jù)紅麥軟件提供的網(wǎng)絡(luò)、數(shù)據(jù),制作輿情深度分析報(bào)告。

整合資源,開(kāi)發(fā)新產(chǎn)品,構(gòu)建完整的網(wǎng)絡(luò)輿情監(jiān)測(cè)產(chǎn)業(yè)鏈。輿情監(jiān)測(cè)機(jī)構(gòu)要選擇戰(zhàn)略合作伙伴,有效地整合資源才能提供快準(zhǔn)全的輿情、競(jìng)爭(zhēng)情報(bào)等業(yè)務(wù)。如紅麥軟件與華聲財(cái)訊成功攜手,將技術(shù)、服務(wù)、業(yè)緣關(guān)系等優(yōu)勢(shì)完美結(jié)合。2012年8月,兩家簽署全面戰(zhàn)略合作伙伴協(xié)議,攜手進(jìn)軍在云計(jì)算、大數(shù)據(jù)背景下的業(yè)務(wù)情報(bào)市場(chǎng)。經(jīng)過(guò)資源整合,促進(jìn)彼此的發(fā)展??偟膩?lái)說(shuō),當(dāng)前輿情業(yè)從監(jiān)測(cè)、處理分析到應(yīng)對(duì)的整個(gè)產(chǎn)業(yè)鏈條上都已經(jīng)有了足夠多的競(jìng)爭(zhēng)者。對(duì)于未來(lái),誰(shuí)能將整個(gè)鏈條打通并有效整合,誰(shuí)將是未來(lái)的最大贏家。④

研究客戶需求和網(wǎng)絡(luò)民意,促進(jìn)兩個(gè)輿論場(chǎng)良性互動(dòng)。研究客戶需求,就是針對(duì)不同需求的客戶,開(kāi)發(fā)出幾套特定的監(jiān)測(cè)系統(tǒng),進(jìn)行輿情預(yù)警、危機(jī)指導(dǎo)、危機(jī)公關(guān)與修復(fù)、媒體溝通、法律維權(quán)等全方位的服務(wù)。研究網(wǎng)絡(luò)民意,就是對(duì)網(wǎng)絡(luò)上反映的問(wèn)題在第一時(shí)間發(fā)現(xiàn)并及時(shí)處理,變堵為疏,而不是無(wú)視民意,任期發(fā)酵,讓其成為“爛尾”新聞。

“大眾麥克風(fēng)時(shí)代”,民心可敬、民意可畏、民氣可用,輿情監(jiān)測(cè)機(jī)構(gòu)要本著中央“三貼近”的要求,善于從群眾利益角度,觸摸民意脈搏,從基本事實(shí)的認(rèn)定到價(jià)值判斷,乃至話語(yǔ)方式,與網(wǎng)民坦誠(chéng)交流;同時(shí)讓黨和政府的聲音進(jìn)入網(wǎng)絡(luò)社區(qū),推動(dòng)互聯(lián)網(wǎng)上官民的順暢溝通和良性互動(dòng)。

(作者單位:南陽(yáng)師范學(xué)院新聞與傳播學(xué)院;本文系河南省2013年軟科學(xué)研究計(jì)劃項(xiàng)目成果,項(xiàng)目編號(hào):132400411125)

【注釋】

①高忠業(yè):“青島入列首批國(guó)家輿情師培訓(xùn)計(jì)劃”,《青島財(cái)經(jīng)日?qǐng)?bào)》,2013年5月8日

②李光:“百億市場(chǎng)前景催生網(wǎng)絡(luò)輿情監(jiān)測(cè)業(yè)”,《鳳凰周刊》,2010年7月5日。

第2篇

關(guān)鍵詞:智能檢測(cè)與分析;網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘

中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)絡(luò)言論活躍已達(dá)到前所未有的程度,不論是對(duì)國(guó)家政策的討論,還是針對(duì)國(guó)內(nèi)或國(guó)際的重大事件,都能馬上形成網(wǎng)上輿論,這種網(wǎng)絡(luò)來(lái)表達(dá)觀點(diǎn)、傳播思想產(chǎn)生輿論壓力,達(dá)到任何部門、機(jī)構(gòu)都無(wú)法忽視的地步。

網(wǎng)絡(luò)輿情通過(guò)BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等形式對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題等進(jìn)行反應(yīng),其中不乏較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對(duì)社會(huì)公共安全形成較大威脅。對(duì)相關(guān)政府部門來(lái)說(shuō),如何加強(qiáng)對(duì)網(wǎng)絡(luò)輿論的及時(shí)監(jiān)測(cè)、有效引導(dǎo),以及對(duì)網(wǎng)絡(luò)輿論危機(jī)的積極化解,對(duì)維護(hù)社會(huì)穩(wěn)定、促進(jìn)國(guó)家發(fā)展具有重要的現(xiàn)實(shí)意義,也是創(chuàng)建和諧社會(huì)的應(yīng)有內(nèi)涵。

1 系統(tǒng)價(jià)值

1.1 社會(huì)效益分析

網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與分析系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的統(tǒng)計(jì)分析,并以此作為網(wǎng)絡(luò)輿情監(jiān)測(cè)的管理的依據(jù)。具體作用表現(xiàn)在以下幾個(gè)方面:

1) 系統(tǒng)向決策者提供客觀、準(zhǔn)確的輿情信息,有利于決策者做出正確的決策

2) 系統(tǒng)向決策者提供系統(tǒng)的、高效的、綜合的、全面的輿情信息,便于決策者全面的、正確的把握所需的信息, 提高決策效率, 啟迪決策思維

3) 系統(tǒng)能提供各種輿情的趨勢(shì)分析信息給決策者

1.2 經(jīng)濟(jì)效益分析

目前,由于互聯(lián)網(wǎng)的日益普及,各種輿情的不斷涌現(xiàn),好的、壞的都有。政府部門、大型機(jī)構(gòu)、社會(huì)企業(yè)等都希望能盡早識(shí)別不良傾向的、帶有煽動(dòng)或甚至含有社會(huì)危害的言論,或者是獲取政策落實(shí)、制度實(shí)施效果等信息。這些需要揭示了系統(tǒng)建設(shè)在帶來(lái)巨大的社會(huì)價(jià)值的同時(shí)帶來(lái)巨大的經(jīng)濟(jì)效益。

2 同類系統(tǒng)現(xiàn)狀

基于目前的網(wǎng)絡(luò)現(xiàn)狀,為數(shù)不多的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)基本上是采用關(guān)鍵詞搜索進(jìn)行輿情信息檢測(cè),由于關(guān)鍵詞搜索的查全率和查準(zhǔn)率都不高,因此網(wǎng)絡(luò)輿情監(jiān)測(cè)的效果不夠理想,更是無(wú)法自動(dòng)發(fā)現(xiàn)新的輿情點(diǎn)。

部分網(wǎng)絡(luò)輿情檢測(cè)系統(tǒng)只是在企業(yè)內(nèi)部使用,無(wú)法適用于政府部門等大型機(jī)構(gòu),部分系統(tǒng)采用的算法效率低,不能快速對(duì)數(shù)據(jù)進(jìn)行處理,因而無(wú)法滿足超大網(wǎng)絡(luò)環(huán)境下的輿情檢測(cè)與分析,無(wú)法做到自學(xué)習(xí)成長(zhǎng),沒(méi)有類似知識(shí)庫(kù)的自動(dòng)累積處理功能,必須人工協(xié)助處理?;诖朔N情況,提出創(chuàng)建《網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)》項(xiàng)目來(lái)解決這些問(wèn)題。

3 網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)簡(jiǎn)介

該系統(tǒng)核心部分包括信息獲取、信息處理、前端信息展現(xiàn)幾個(gè)部分。實(shí)現(xiàn)從網(wǎng)頁(yè)獲取數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗、提煉、分析總結(jié),最終形成決策信息并存入數(shù)據(jù)庫(kù)中,提供靈活的前端查詢機(jī)制,把信息傳遞給決策人員。

網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)實(shí)現(xiàn)以下目標(biāo):1) 對(duì)熱點(diǎn)話題、敏感話題識(shí)別。2) 實(shí)現(xiàn)傾向性分析。3) 實(shí)現(xiàn)對(duì)輿情主題的跟蹤。4) 自動(dòng)形成輿情摘要。5) 形成趨勢(shì)分析報(bào)告。6) 自動(dòng)識(shí)別突發(fā)事件及發(fā)展趨勢(shì)。7) 對(duì)敏感內(nèi)容實(shí)現(xiàn)預(yù)警。8) 提供輿情分析統(tǒng)計(jì)報(bào)告提供決策支持。

4 系統(tǒng)關(guān)鍵技術(shù)研究

4.1 網(wǎng)絡(luò)輿情行為模式識(shí)別技術(shù)

對(duì)于“行為模式識(shí)別”算法應(yīng)用最廣和成熟的是防垃圾郵件的“行為模式識(shí)別技術(shù)”。在垃圾郵件的行為模式識(shí)別技術(shù)的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)輿情的特點(diǎn),輿情內(nèi)容內(nèi)在結(jié)構(gòu)關(guān)系、演化規(guī)律等基礎(chǔ)信息,收集網(wǎng)絡(luò)上典型的熱點(diǎn)話題、敏感話題、政策熱議等方面的適當(dāng)數(shù)量的文章組成行為識(shí)別學(xué)習(xí)訓(xùn)練庫(kù),利用網(wǎng)上話題的熱度、焦度、敏度、頻度、銳度、歧度、粘度等度量指標(biāo)作為輿情分析的依據(jù),配以科學(xué)的算法,通過(guò)對(duì)“訓(xùn)練庫(kù)“進(jìn)行學(xué)習(xí)及總結(jié)、計(jì)算,結(jié)合網(wǎng)絡(luò)輿情信息產(chǎn)生和傳播的典型行為特征,建立網(wǎng)絡(luò)輿情行為模式數(shù)學(xué)統(tǒng)計(jì)模型,以此實(shí)現(xiàn)網(wǎng)絡(luò)輿情的智能發(fā)現(xiàn)。

4.2 自動(dòng)分類和聚類技術(shù)[1]

自動(dòng)分類是指按照已有的分類,把相關(guān)信息按照分類的標(biāo)準(zhǔn)進(jìn)行歸類。聚類則事先沒(méi)有定義特點(diǎn)的分類及標(biāo)準(zhǔn),是在分析過(guò)程中利用一定的算法,把類似的內(nèi)容進(jìn)行自動(dòng)劃類并聚合的處理過(guò)程。

根據(jù)輿情分析的特點(diǎn),本系統(tǒng)基于統(tǒng)計(jì)的自動(dòng)分類技術(shù),利用向量空間模型來(lái)表示輿情分析的文檔。對(duì)輿情文檔特征進(jìn)行抽取和加權(quán)、機(jī)器學(xué)習(xí)。在處理過(guò)程中,考慮到不同位置出現(xiàn)的語(yǔ)詞的價(jià)值不同而給定不同的加權(quán)系數(shù)。機(jī)器學(xué)習(xí)的方法主要有支撐向量機(jī)、最近K鄰居方法和貝葉斯算法[2] 等,可以根據(jù)輿情文檔的特點(diǎn)而選擇相應(yīng)的方法。

輿情文檔自動(dòng)聚類的關(guān)鍵步驟有文檔表示、相似度計(jì)算、聚類和給出聚類標(biāo)識(shí)等。常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測(cè)試法、圖聚類法等。在網(wǎng)絡(luò)輿情分析中,根據(jù)輿情分析的目的,選擇那些最具有區(qū)分性的特征,而不是大多數(shù)文檔都具有的特征來(lái)實(shí)現(xiàn)自動(dòng)聚類。

在本系統(tǒng)解決方案中采取了自動(dòng)歸類和自動(dòng)聚類相結(jié)合的方式,先進(jìn)行自動(dòng)歸類,再在各類別之下進(jìn)行自動(dòng)聚類。

4.3 內(nèi)容分析技術(shù)

內(nèi)容分析法是一種對(duì)于傳播內(nèi)容進(jìn)行客觀,系統(tǒng)和定量的描述的研究方法。其實(shí)質(zhì)是對(duì)傳播內(nèi)容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準(zhǔn)確意義的過(guò)程。內(nèi)容分析的過(guò)程是層層推理的過(guò)程。隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)的性能不斷提高,各種內(nèi)容分析技術(shù)也逐漸成熟,為網(wǎng)絡(luò)輿情的深度挖掘分析奠定了很好的基礎(chǔ)。

《內(nèi)容分析法:媒介信息量化研究技巧》[3]一書提供了系統(tǒng)全面的內(nèi)容分析研究的操作指南,深入分析了內(nèi)容分析中的各種常見(jiàn)問(wèn)題,如測(cè)量、抽樣、信度、效度和數(shù)據(jù)分析中的各種技術(shù)。在進(jìn)行網(wǎng)絡(luò)輿情內(nèi)容分析前,獲取相關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,獲取有針對(duì)性的、信息量大、覆蓋全面的、連續(xù)的內(nèi)容樣例,定義分析單元。對(duì)數(shù)據(jù)進(jìn)行量化處理形成評(píng)判記錄和進(jìn)行信度分析兩部分內(nèi)容,再根據(jù)網(wǎng)絡(luò)輿情建立合適的維度,最后進(jìn)行統(tǒng)計(jì)分析,并形成分析結(jié)論。

5 系統(tǒng)實(shí)現(xiàn)

在系統(tǒng)開(kāi)發(fā)過(guò)程中,要建立了若干知識(shí)庫(kù),利用垂直搜索、知識(shí)發(fā)現(xiàn)、自動(dòng)分詞和抽詞、自動(dòng)分類和聚類、內(nèi)容分析等技術(shù),實(shí)現(xiàn)對(duì)海量網(wǎng)絡(luò)信息進(jìn)行監(jiān)測(cè)、網(wǎng)絡(luò)輿情的自動(dòng)發(fā)現(xiàn)和分析。該系統(tǒng)建設(shè)的核心是要收集圍繞主題的、足夠量的數(shù)據(jù),并經(jīng)過(guò)整理形成規(guī)范數(shù)據(jù)再進(jìn)行挖掘,輸出有用的決策信息,系統(tǒng)結(jié)構(gòu)圖如圖1所示。

系統(tǒng)涉及五個(gè)主要方面:

5.1 數(shù)據(jù)收集處理

進(jìn)行網(wǎng)絡(luò)輿情分析的前提是獲取基于某個(gè)主題的、數(shù)量足夠多的、完整的網(wǎng)絡(luò)數(shù)據(jù)。為了解決這個(gè)問(wèn)題,系統(tǒng)建設(shè)時(shí)考慮通過(guò)建立數(shù)據(jù)收集規(guī)則來(lái)達(dá)到此目的。在數(shù)據(jù)收集規(guī)則時(shí)主要考慮要收集的主題、要搜索的范圍、更新頻度、收集要到達(dá)的數(shù)據(jù)量等。

在規(guī)則制定后,信息收集組件利用類似“網(wǎng)絡(luò)爬蟲”的技術(shù),按照已經(jīng)設(shè)置的收集規(guī)則,到網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)收集。 數(shù)據(jù)收集后按照主題歸于相應(yīng)的數(shù)據(jù)庫(kù)中,以便下一步的數(shù)據(jù)處理。

5.2 信息處理模塊

需要把收集的數(shù)據(jù)轉(zhuǎn)為有用的信息,在收集到相關(guān)數(shù)據(jù)后,先期對(duì)已經(jīng)收集完成的數(shù)據(jù)進(jìn)行格式化、數(shù)據(jù)清洗、信息處理加工等步驟,最終形成規(guī)范的、適于統(tǒng)計(jì)的數(shù)據(jù)。然后再利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,形成相應(yīng)的統(tǒng)計(jì)信息,便于查詢輸出。下面將就關(guān)鍵核心的處理步驟進(jìn)行說(shuō)明。

5.2.1 對(duì)原始數(shù)據(jù)的預(yù)處理

為了在數(shù)據(jù)挖掘分析前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,形成最終有效的待分析數(shù)據(jù)。首先是繼續(xù)數(shù)據(jù)格式化,利用數(shù)據(jù)格式化實(shí)現(xiàn)對(duì)各種網(wǎng)頁(yè)格式的數(shù)據(jù)進(jìn)行模式化解析,形成系統(tǒng)統(tǒng)一的數(shù)據(jù)格式;然后進(jìn)行數(shù)據(jù)清洗把“臟”的“洗掉”。該處理步驟主要把不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等不規(guī)范的數(shù)據(jù)進(jìn)行清洗,去除無(wú)效的、重復(fù)的數(shù)據(jù),形成數(shù)量足夠的、時(shí)間段連續(xù)的、內(nèi)容圍繞主題的數(shù)據(jù),為下一步的深度挖掘做準(zhǔn)備。

5.2.2 實(shí)現(xiàn)對(duì)敏感輿情的報(bào)警

為了解決相關(guān)管理人員需要及時(shí)掌握敏感熱點(diǎn)或大事件的動(dòng)態(tài),系統(tǒng)特增加了此處理步驟,在此將利用對(duì)敏感熱點(diǎn)或大事件的特征進(jìn)行布控,在布控策略規(guī)則中設(shè)置需要關(guān)注的熱點(diǎn)敏感關(guān)鍵字,相關(guān)組件將對(duì)存儲(chǔ)的內(nèi)容進(jìn)行掃描、分析。對(duì)匹配上的內(nèi)容進(jìn)行預(yù)警并產(chǎn)生預(yù)警記錄,同時(shí)支持手機(jī)和郵件的報(bào)警方式,及時(shí)把相關(guān)信息發(fā)送給預(yù)設(shè)的人員。該模塊包括關(guān)鍵字匹配組件、報(bào)警處理組件。

5.2.3 數(shù)據(jù)的深度挖掘分析處理

經(jīng)過(guò)預(yù)處理的數(shù)據(jù)還只是數(shù)據(jù),并沒(méi)有形成有用的信息,所以引入數(shù)據(jù)挖掘分析處理步驟,以便對(duì)數(shù)據(jù)利用前面介紹的輿情行為模式分析、內(nèi)容分析等挖掘技術(shù)進(jìn)行深度挖掘及分析,形成系統(tǒng)的核心信息數(shù)據(jù),為數(shù)據(jù)展現(xiàn)提供數(shù)據(jù)來(lái)源。

為了對(duì)數(shù)據(jù)進(jìn)行挖掘,系統(tǒng)內(nèi)置的多種數(shù)據(jù)挖掘算法,實(shí)現(xiàn)自動(dòng)對(duì)信息進(jìn)行分類、總結(jié)。具體內(nèi)容如下:

針對(duì)中文信息的處理與分析,系統(tǒng)中的自動(dòng)分詞組件采用詞典和規(guī)則為基礎(chǔ),綜合利用了基于概率分析的語(yǔ)言模型方法,使分詞的準(zhǔn)確性達(dá)到99%以上。在語(yǔ)義分析的基礎(chǔ)上,綜合考慮詞頻、詞性、位置信息,實(shí)現(xiàn)準(zhǔn)確的自動(dòng)關(guān)鍵詞與自動(dòng)摘要。利用網(wǎng)絡(luò)輿情模式識(shí)別技術(shù)可以自動(dòng)發(fā)現(xiàn)新的網(wǎng)絡(luò)輿情模式,便于用戶盡早布防。

為解決自動(dòng)分類的難題,系統(tǒng)內(nèi)置自動(dòng)分類組件通過(guò)對(duì)訓(xùn)練庫(kù)的學(xué)習(xí),獲取每個(gè)分類的屬性特征模型,然后使用這一分類體系對(duì)未知分類情況的數(shù)據(jù)進(jìn)行分類。聚類組件將結(jié)構(gòu)化的數(shù)據(jù)集合中的數(shù)據(jù)根據(jù)需要統(tǒng)計(jì)的主題劃分不同的子集,自動(dòng)學(xué)習(xí)形成新的分類,滿足自動(dòng)擴(kuò)展分類的需要。

面對(duì)收集的海量數(shù)據(jù),如何獲取用戶所需的信息這個(gè)是一個(gè)關(guān)鍵問(wèn)題,系統(tǒng)通過(guò)關(guān)聯(lián)分析、趨勢(shì)分析,從海量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則。同時(shí),利用趨勢(shì)分析技術(shù),分析網(wǎng)絡(luò)輿論等隨時(shí)間的發(fā)展趨勢(shì)情況,以便實(shí)現(xiàn)對(duì)輿論環(huán)境的監(jiān)測(cè)與不良傾向的預(yù)警。

做到上面的內(nèi)容還只是實(shí)現(xiàn)了系統(tǒng)的一部分,系統(tǒng)另外提供對(duì)新的知識(shí)的自動(dòng)發(fā)現(xiàn)。利用自動(dòng)分類與聚類等技術(shù)基礎(chǔ),對(duì)知識(shí)進(jìn)行挖掘并匯總分析,能實(shí)現(xiàn)對(duì)新的網(wǎng)絡(luò)輿情的發(fā)現(xiàn)及獲取發(fā)展趨勢(shì)。同時(shí)把結(jié)果合并到系統(tǒng)已有的知識(shí)庫(kù),達(dá)到不斷擴(kuò)展知識(shí)庫(kù)的要求。

有時(shí)候用戶會(huì)要對(duì)特定的事件或輿情進(jìn)行跟蹤,為了解決此問(wèn)題,通過(guò)系統(tǒng)提供的對(duì)象跟蹤組件,利用用戶在系統(tǒng)中設(shè)置的需要特別跟蹤的對(duì)象的特征,在分析過(guò)程中對(duì)涉及該對(duì)象的數(shù)據(jù)進(jìn)行特別分析和處理,形成該對(duì)象的信息鏈存儲(chǔ)到數(shù)據(jù)庫(kù)中,在數(shù)據(jù)展現(xiàn)時(shí)可以通過(guò)圖表等方式展現(xiàn)對(duì)象跟蹤鏈的相關(guān)信息。

5.3 海量數(shù)據(jù)的存儲(chǔ)

網(wǎng)絡(luò)輿情數(shù)據(jù)量是海量的,如何提高查詢的反饋速度是另外一個(gè)重要的問(wèn)題,系統(tǒng)通過(guò)建立全文索引技術(shù),對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)建立合理的索引,使數(shù)據(jù)查詢輸出時(shí)提高輸出速度及準(zhǔn)確性,特別是針對(duì)重要的關(guān)鍵字進(jìn)行檢索時(shí)能大大的提高查詢速度。

除了全文索引,數(shù)據(jù)管理系統(tǒng)的選擇是另外一個(gè)重點(diǎn)??疾炷壳耙呀?jīng)成熟的數(shù)據(jù)庫(kù)管理系統(tǒng),發(fā)現(xiàn)Oracle是最合適的。所以本系統(tǒng)就采用Oracle作為數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)可以利用其提供的多維查詢技術(shù),實(shí)現(xiàn)Olap的查詢要求。

5.4 數(shù)據(jù)快速,準(zhǔn)確的展現(xiàn)

有了海量的、有用的信息,如何把這些數(shù)據(jù)展現(xiàn)給用戶?在本系統(tǒng)主要考慮對(duì)關(guān)鍵字的查詢輸出、輿情新關(guān)鍵字挖掘查詢、輿情報(bào)告的輸出、報(bào)警信息的查詢、各種統(tǒng)計(jì)報(bào)表的輸出。

對(duì)于輸出的技術(shù)要求,在數(shù)據(jù)輸出時(shí)系統(tǒng)利用Oracle系統(tǒng)的Olap技術(shù)結(jié)合系統(tǒng)提供的查詢頁(yè)面框架,可以實(shí)現(xiàn)用戶從多個(gè)角度對(duì)各類數(shù)據(jù)的查詢,在頁(yè)面處理上目前市面上已經(jīng)有相關(guān)的成熟的技術(shù)可以作為參考,相信不會(huì)有技術(shù)難點(diǎn)。

針對(duì)輸出的內(nèi)容,系統(tǒng)內(nèi)置了部分統(tǒng)計(jì)報(bào)表,這些報(bào)表是基于網(wǎng)絡(luò)輿情分析專家在輿情檢測(cè)與分析方面的專業(yè)知識(shí)進(jìn)行設(shè)計(jì),能滿足大多數(shù)用戶的需要。為了滿足個(gè)性化的查詢輸出,同時(shí)系統(tǒng)支持用戶自定義適合自己的統(tǒng)計(jì)報(bào)表。

5.5 通過(guò)系統(tǒng)管理功能保證系統(tǒng)正常運(yùn)行

為了滿足個(gè)性化的管理要求,系統(tǒng)提供系統(tǒng)設(shè)置、角色管理、用戶管理、數(shù)據(jù)備份等功能,支持定義常用的網(wǎng)頁(yè)結(jié)構(gòu)及識(shí)別規(guī)則的定義,用于在數(shù)據(jù)獲取后的格式化分析。解決網(wǎng)頁(yè)結(jié)構(gòu)識(shí)別規(guī)則定義、報(bào)警關(guān)鍵字設(shè)置、報(bào)警記錄接收手機(jī)號(hào)或郵箱設(shè)置、系統(tǒng)管理用戶權(quán)限管理等內(nèi)容。

6 小結(jié)

該文先介紹了目前網(wǎng)絡(luò)現(xiàn)狀、同時(shí)就同類分析產(chǎn)品的不足進(jìn)行了描述。另外著重從《網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)》的兩個(gè)重點(diǎn)部分進(jìn)行描述,從最核心的技術(shù)與模塊組成來(lái)闡述系統(tǒng)是如何實(shí)現(xiàn)的。

參考文獻(xiàn):

[1] Han J,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].Morgan Kaufmann,2000.

第3篇

關(guān)鍵詞:微博; 輿情監(jiān)測(cè); 輿情分析; Scool; NoSQL

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2013)02-0050-04

0引言

目前,隨著網(wǎng)絡(luò)全球化的進(jìn)程加快以及移動(dòng)技術(shù)的推廣,微博已經(jīng)成為了網(wǎng)絡(luò)輿情的主要源頭和有效傳播路徑。由于微博具有的進(jìn)入門檻低、操作便捷、互動(dòng)性強(qiáng)等特點(diǎn),近兩年在全國(guó)得到了迅速的普及,獲得廣泛的應(yīng)用。但是不可忽視的隱患也隨之呈現(xiàn)。微博已經(jīng)成為了各種謠言和違法信息滋生、蔓延的主要平臺(tái),對(duì)社會(huì)也造成了無(wú)法預(yù)知的不良影響。因此,開(kāi)展微博的輿情監(jiān)控和分析研究已是大勢(shì)所趨,勢(shì)在必行。

1研究現(xiàn)狀

目前,已有針對(duì)網(wǎng)絡(luò)輿情分析和挖掘的軟件產(chǎn)品,較典型的有 Autonomy 網(wǎng)絡(luò)輿情聚成系統(tǒng)、Goonie 互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)、TRS 互聯(lián)網(wǎng)輿情信息監(jiān)控系統(tǒng)、方正智思輿情預(yù)警輔助決策支持系統(tǒng)、中科點(diǎn)擊(北京)科技有限公司研發(fā)的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)等。這些系統(tǒng)均能對(duì)網(wǎng)絡(luò)輿情發(fā)揮一定的監(jiān)測(cè)、分析和預(yù)警的作用,為社會(huì)和諧穩(wěn)定提供了有效的技術(shù)和決策支持。雖然如此,但針對(duì)微博輿情監(jiān)測(cè)和分析的大部分系統(tǒng)卻沒(méi)有充分考慮到微博用戶基數(shù)大、覆蓋面廣、數(shù)據(jù)量巨大、更新速度快的特點(diǎn),而在這種情況下,采用普通的關(guān)系數(shù)據(jù)庫(kù)顯然無(wú)法滿足要求,因此,引入NoSQL技術(shù)存儲(chǔ)數(shù)據(jù)則是一個(gè)頗有前景的發(fā)展方向。

2微博輿情傳播特點(diǎn)

基于上述對(duì)微博使用方式的分析,決定了微博輿情的傳播將具有如下特點(diǎn):

(1)信息生成和傳播簡(jiǎn)便。只要簡(jiǎn)單操作,就可以第一時(shí)間關(guān)注微博新聞中的相關(guān)人物,或轉(zhuǎn)發(fā)傳統(tǒng)新聞和論壇中的內(nèi)容,而且由于移動(dòng)終端對(duì)微博的支持,微博就超越了時(shí)間與地域的限制,完全實(shí)現(xiàn)了微博的簡(jiǎn)便簡(jiǎn)易性。

(2)傳播信息快捷。僅以“7 .23”動(dòng)車事件為例,2011 年7 月23 日晚20 點(diǎn)38 分事故發(fā)生,4分鐘后網(wǎng)友發(fā)出了第一條微博,比傳統(tǒng)媒體提早了兩個(gè)多小時(shí)。

(3)病毒爆發(fā)式的信息傳播模式。消息一經(jīng)發(fā)出,用戶的所有關(guān)注者都能收到,而這一群體再亦如此繼續(xù)向外傳播,則微博信息就呈現(xiàn)了病毒爆發(fā)式擴(kuò)散傳播的態(tài)勢(shì)。

3基于noSQL的數(shù)據(jù)庫(kù)設(shè)計(jì)

NoSQL最初出現(xiàn)于2009年6月11日由Oskarsson在舊金山發(fā)起并組織的一個(gè)非正式會(huì)議上。NoSQL是當(dāng)下數(shù)據(jù)庫(kù)家族的外來(lái)者,雖然有些通用的特征,但卻沒(méi)有一個(gè)特征得到了明確定義。

根據(jù)輿情監(jiān)控系統(tǒng)的數(shù)據(jù)實(shí)際情況,在其系統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)中引入NoSQL,當(dāng)寫入數(shù)據(jù)時(shí),可在MySQL、NoSQL中分別寫入一條數(shù)據(jù)的不同字段,而讀取數(shù)據(jù)時(shí),則從MySQL、NoSQL組合字段完成讀取。這一讀/寫過(guò)程如圖1所示。

在如圖1所示的組合結(jié)構(gòu)中,MySQL中存儲(chǔ)著需要查詢字段中的數(shù)字、時(shí)間等類型的小字段,其后按照查詢建立相應(yīng)的索引,而NoSQL中則存儲(chǔ)著包括大文本字段在內(nèi)的其他并不需要的字段。查詢過(guò)程可描述為,首先將數(shù)據(jù)主鍵從MySQL中查詢出來(lái),再?gòu)腘oSQL中直接取出對(duì)應(yīng)的數(shù)據(jù)。

文中設(shè)計(jì)的架構(gòu)模式使得MySQL和NoSQL能夠各自發(fā)揮所長(zhǎng),即由MySQL實(shí)現(xiàn)關(guān)系存儲(chǔ),而NoSQL則實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。這種設(shè)計(jì)的優(yōu)點(diǎn)如下:節(jié)省MySQL的IO開(kāi)銷、提高M(jìn)ySQl Query Cache緩存命中率、改進(jìn)了MySQL主從同步效率、提升了MySQL數(shù)據(jù)備份和恢復(fù)的速度、具有更好的擴(kuò)展性。

還需一提的是,這種以MySQL為主、NoSQL為輔的架構(gòu)設(shè)計(jì)與MySQL的單體架構(gòu)相比,系統(tǒng)的多樣性能和可擴(kuò)展性均得到了有效提高。

4基于微博的Scool輿情監(jiān)測(cè)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

基于微博的Scool輿情監(jiān)測(cè)分析系統(tǒng)旨在取代傳統(tǒng)的人工收集和監(jiān)控工作,實(shí)現(xiàn)深入、高效挖掘,并實(shí)時(shí)得到微博網(wǎng)絡(luò)中相對(duì)敏感的輿論信息,以警示管理人員及時(shí)采取相應(yīng)措施。

基于微博的Scool輿情監(jiān)測(cè)分析系統(tǒng)的實(shí)現(xiàn)過(guò)程是,每日需定時(shí)、周期地對(duì)新浪微博、騰訊微博、網(wǎng)易微博、搜狐微博進(jìn)行網(wǎng)頁(yè)抓取后,并對(duì)其內(nèi)容實(shí)行解析后存入數(shù)據(jù)庫(kù),而后通過(guò)分詞索引以建立搜索引擎,實(shí)現(xiàn)數(shù)據(jù)索引,再通過(guò)用戶設(shè)定的關(guān)鍵詞庫(kù)對(duì)采集的數(shù)據(jù)進(jìn)行關(guān)鍵詞集過(guò)濾,由此獲得敏感輿情信息文本返回給用戶界面。系統(tǒng)還應(yīng)對(duì)收集的信息進(jìn)行自然語(yǔ)言處理,從而識(shí)別得到熱點(diǎn)話題和熱門事件。

4.1軟件體系結(jié)構(gòu)

系統(tǒng)分為后臺(tái)數(shù)據(jù)分析模塊和前臺(tái)數(shù)據(jù)展示模塊。后臺(tái)模塊負(fù)責(zé)實(shí)現(xiàn)數(shù)據(jù)抓取與分析,是系統(tǒng)的核心。前臺(tái)模塊負(fù)責(zé)完成微博、Web數(shù)據(jù)展示和基本維護(hù)操作。

4.1.1前臺(tái)結(jié)構(gòu)

前臺(tái)展示程序分為四大塊,分別是:輿情信息展示、輿情搜索、用戶監(jiān)控網(wǎng)址和關(guān)鍵詞設(shè)置、用戶登錄與管理。其中,輿情整體全面展示則按五類來(lái)進(jìn)行和表現(xiàn),分別是:最新輿情展示、按網(wǎng)站類型展示、按監(jiān)控網(wǎng)址展示、按話題事件展示和輿情統(tǒng)計(jì)。前臺(tái)模塊的結(jié)構(gòu)框架如圖2所示。

前臺(tái)展示程序主要基于JAVA開(kāi)源SSH框架來(lái)進(jìn)行構(gòu)建而得以實(shí)現(xiàn),其設(shè)計(jì)結(jié)構(gòu)如圖3所示。

在本系統(tǒng)的架構(gòu)設(shè)計(jì)中,將在表示層上構(gòu)設(shè)的Struts框架,在業(yè)務(wù)邏輯層構(gòu)設(shè)的Spring框架以及在數(shù)據(jù)訪問(wèn)層構(gòu)設(shè)

(1)表現(xiàn)層使用JSP來(lái)實(shí)現(xiàn)構(gòu)建,為客戶端提供對(duì)應(yīng)用程序的訪問(wèn);

(2)控制層接受客戶端的請(qǐng)求,并根據(jù)不同的請(qǐng)求調(diào)用相應(yīng)的事務(wù)邏輯,再將處理結(jié)果返回到相關(guān)的頁(yè)面;

(3)業(yè)務(wù)邏輯層用來(lái)提供相關(guān)的業(yè)務(wù)邏輯;

(4)數(shù)據(jù)訪問(wèn)層提供對(duì)數(shù)據(jù)庫(kù)的各種操作。

系統(tǒng)設(shè)計(jì)中的三大框架有機(jī)配合、協(xié)調(diào)統(tǒng)一,其各自實(shí)現(xiàn)功能為:

在表現(xiàn)層中,由Struts框架負(fù)責(zé)處理JSP頁(yè)面的請(qǐng)求和轉(zhuǎn)發(fā)工作;在系統(tǒng)中用Hibernate來(lái)封裝數(shù)據(jù)庫(kù)的連接類,通過(guò)該框架所提供的注解方式實(shí)現(xiàn)了實(shí)體類與數(shù)據(jù)庫(kù)表結(jié)構(gòu)間的映射關(guān)系,并由該框架完成在數(shù)據(jù)訪問(wèn)層與數(shù)據(jù)庫(kù)間的交互工作,再通過(guò)Hibernate框架的二級(jí)緩存EHCache提供對(duì)用戶關(guān)鍵詞和行業(yè)惡劣情感詞的高效緩存。此外,系統(tǒng)使用Spring框架作為系統(tǒng)運(yùn)行輕量級(jí)的容器,負(fù)責(zé)在業(yè)務(wù)邏輯層處理業(yè)務(wù)邏輯工作。通過(guò)在配置文件中設(shè)置對(duì)象的創(chuàng)建方式及對(duì)象之間的關(guān)系,即可由Spring框架的IoC的容器來(lái)創(chuàng)建對(duì)象,同時(shí)也維護(hù)對(duì)象之間的依賴關(guān)系。通過(guò)這三大框架的整合,有效降低了系統(tǒng)中各模塊之間的相關(guān)性,由此形成一個(gè)結(jié)構(gòu)科學(xué)、功能強(qiáng)大和層次清晰的框架體系。

4.1.2后臺(tái)結(jié)構(gòu)

由圖6可知道,后臺(tái)結(jié)構(gòu)可分為數(shù)據(jù)緩沖池隊(duì)列,線程池線程和數(shù)據(jù)庫(kù)三部分。其中,緩存隊(duì)列負(fù)責(zé)數(shù)據(jù)流的來(lái)源,關(guān)鍵處理流程則拆分至各個(gè)線程中獨(dú)立實(shí)現(xiàn);線程控制數(shù)據(jù)緩存池中數(shù)據(jù)流的走向,各線程本身的并發(fā)運(yùn)行均交由線程池實(shí)現(xiàn)統(tǒng)一管理。數(shù)據(jù)庫(kù)則采用上述的NoSQL與關(guān)系數(shù)據(jù)庫(kù)相結(jié)合的對(duì)應(yīng)技術(shù)來(lái)主導(dǎo)實(shí)現(xiàn)。

4.2系統(tǒng)實(shí)現(xiàn)

用戶注冊(cè)、登錄系統(tǒng)后,可以點(diǎn)擊頁(yè)面上的相應(yīng)標(biāo)簽來(lái)查看有關(guān)的輿情記錄。同時(shí),系統(tǒng)也會(huì)將每天最新的輿情記錄完整、清晰地呈現(xiàn)。用戶還可以點(diǎn)擊更多的輿情鏈接來(lái)查看當(dāng)日之前任何一天的輿情記錄。

可以點(diǎn)擊系統(tǒng)主頁(yè)上的輿情搜索標(biāo)簽來(lái)進(jìn)行包含指定關(guān)鍵詞的輿情記錄,搜索頁(yè)面如圖7所示。在輸入框中輸入關(guān)鍵詞,就可以看到相關(guān)的信息。

5.結(jié)束語(yǔ)

在Scool輿情監(jiān)測(cè)和分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)過(guò)程中,有關(guān)信息存儲(chǔ)方面,本文主要提出了NoSQL和MySQL相結(jié)合的方法。實(shí)驗(yàn)證明,采用這種信息存儲(chǔ)的方法可節(jié)省MySQL的IO開(kāi)銷、提高M(jìn)ySQL數(shù)據(jù)備份和恢復(fù)的速度、且比以前更容易實(shí)現(xiàn)擴(kuò)展。對(duì)其后類似系統(tǒng)的設(shè)計(jì)提供了有益借鑒,并顯示了一定參考價(jià)值。由于時(shí)間及技術(shù)的限制,測(cè)試和抓取的數(shù)據(jù)還不夠連續(xù)和充分,下一步仍可繼續(xù)完善和推進(jìn)這一方面的工作。

參考文獻(xiàn):

[1]賈焰,劉江寧. 微博的輿情特點(diǎn)及其謠言治理[J]. 圖書情報(bào)知識(shí),2012(6):7-9.

[2]張玉峰,何超. 基于Web挖掘的網(wǎng)絡(luò)智能分析研究[J]. ITA,2011(4):64-68.

[3]汝艷紅. 微博信息傳播的特點(diǎn)及發(fā)展趨勢(shì)[J]. 青年記者,2012(8):27-30.

[4]鐘瑛,劉利芳. 微博傳播的輿論影響力[J]. 新聞與傳播研究,2013(2):8-12.

[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20

[6]齊海鳳. 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)與事件跟蹤技術(shù)研究[D]. 哈爾濱:哈爾濱工程大學(xué),2006:11-30.

第4篇

關(guān)鍵詞 情報(bào)學(xué);碩士論文;關(guān)鍵詞

中圖分類號(hào)G251 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2014)114-0013-02

當(dāng)前,世界各國(guó)的許多高等院校和科學(xué)研究機(jī)構(gòu)都在加強(qiáng)對(duì)圖書情報(bào)的研究,許多世界一流院校,比如Harvard University(哈佛大學(xué))、Princeton University(普林斯頓大學(xué))、Yale University(耶魯大學(xué))、Massachusetts Inst. of Technology(麻省理工學(xué)院)等都建立了比較完善的情報(bào)學(xué)教育體系。而比較而言,在我國(guó)高等院校與科研院所對(duì)圖書情報(bào)學(xué)的相關(guān)研究,明顯要相對(duì)落后,近年來(lái)隨著改革開(kāi)放的深入推進(jìn),有關(guān)情報(bào)學(xué)的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長(zhǎng)態(tài)勢(shì),然而由于研究?jī)?nèi)容相對(duì)較為高深,而且研究的靶場(chǎng)顯得較為前沿化與多元化?;陉P(guān)鍵詞對(duì)學(xué)位論文進(jìn)行統(tǒng)計(jì)、研究與分析是文獻(xiàn)計(jì)量學(xué)的范疇,是圖書情報(bào)學(xué)研究的重要內(nèi)容。即以學(xué)位文獻(xiàn)或?qū)W位文獻(xiàn)的某些特點(diǎn)為標(biāo)的,以聚集梳理一定數(shù)量文獻(xiàn)為基礎(chǔ),由此展開(kāi)對(duì)某一時(shí)域某一領(lǐng)域科學(xué)技術(shù)基本狀況與基本特征的研究,并由此論述和預(yù)測(cè)該領(lǐng)域科學(xué)技術(shù)在今后一段時(shí)期的研究趨勢(shì)與特點(diǎn)規(guī)律態(tài)勢(shì)。基于獨(dú)特關(guān)鍵詞進(jìn)行圖書情報(bào)領(lǐng)域的碩士學(xué)位論文進(jìn)行分析,是情報(bào)學(xué)研究的一項(xiàng)重要方法,是一種將文獻(xiàn)資料中的眾多核心要素關(guān)聯(lián)起來(lái),進(jìn)行統(tǒng)計(jì)分析的引證分析方法,其可以較為科學(xué)地評(píng)價(jià)文獻(xiàn)所研究與發(fā)展的現(xiàn)狀和趨勢(shì),揭示學(xué)科當(dāng)時(shí)研究的熱點(diǎn),較為準(zhǔn)確地評(píng)價(jià)文獻(xiàn)所代表的學(xué)術(shù)水平。

1 研究對(duì)象數(shù)據(jù)來(lái)源

本文研究的對(duì)象定位于對(duì)國(guó)內(nèi)圖書情報(bào)領(lǐng)域這一總體框架,并于此基礎(chǔ)上將“靶向”集中于碩士學(xué)位論文的統(tǒng)計(jì)、分析與研究,將“靶標(biāo)”聚集到碩士學(xué)位論文的研究熱點(diǎn)、趨勢(shì)、重點(diǎn)、前沿以及其變化情況,從而更加清晰地梳理出我國(guó)情報(bào)學(xué)研究的發(fā)展脈絡(luò),從而為我國(guó)情報(bào)學(xué)教育發(fā)展提供參考。研究的主要數(shù)據(jù)來(lái)源集中于國(guó)內(nèi)著名的學(xué)位論文收集庫(kù)――中國(guó)知網(wǎng)CNKI學(xué)術(shù)文獻(xiàn)總庫(kù)、維普期刊資源整合服務(wù)平臺(tái)與萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)“三大論文數(shù)據(jù)庫(kù)”,以及國(guó)內(nèi)高等院校圖書館自建特色數(shù)據(jù)庫(kù)。其中,中國(guó)知網(wǎng)CNKI和萬(wàn)方數(shù)據(jù)庫(kù)是國(guó)內(nèi)收錄學(xué)位論文最為全面的數(shù)據(jù)庫(kù),因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來(lái)自該兩個(gè)數(shù)據(jù)庫(kù),著重定位于“學(xué)科專業(yè)名稱”、“學(xué)科專業(yè)分類”選項(xiàng)進(jìn)行檢索,而檢索的時(shí)間區(qū)域定位于近10年,對(duì)于兩個(gè)數(shù)據(jù)庫(kù)檢索出來(lái)的文獻(xiàn),對(duì)于相同的通過(guò)采用SQL 語(yǔ)句進(jìn)行篩選,剔除重復(fù)的以及不符合的。

由此,以“情報(bào)學(xué)”作為檢索詞,從中國(guó)知網(wǎng)CNKI數(shù)據(jù)庫(kù)獲得1640篇碩士論文,從萬(wàn)方數(shù)據(jù)庫(kù)中獲致1315篇碩士論文,通過(guò)SQL篩選剔除重復(fù)的以及不符合的795篇,總共獲得有效國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士論文2160篇。

2 基于高頻關(guān)鍵詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn)

通過(guò)對(duì)獲取到的2160篇國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士論文進(jìn)行研究,綜合統(tǒng)計(jì)論文的關(guān)鍵詞,累計(jì)關(guān)鍵詞有13976個(gè),經(jīng)過(guò)分析研究,去除不能表達(dá)論文主題概念的關(guān)鍵詞3645個(gè),共得10331個(gè),平均每篇碩士文獻(xiàn)關(guān)鍵詞數(shù)為4.78個(gè),由此可說(shuō)明該統(tǒng)計(jì)是科學(xué)的,與國(guó)外科文獻(xiàn)資料對(duì)關(guān)鍵詞的標(biāo)引規(guī)則相符(國(guó)內(nèi)外科技期刊要求的每篇關(guān)鍵詞應(yīng)標(biāo)出 3-8 個(gè)),接著對(duì)關(guān)鍵詞的詞頻進(jìn)行統(tǒng)計(jì)分析,將關(guān)鍵詞的頻度大于60作為標(biāo)準(zhǔn),將其定義為“高頻詞”,通過(guò)對(duì)“高頻詞”的統(tǒng)計(jì)分析,可以非常清晰地看出,有關(guān)“知識(shí)管理”這一主題的頻次最高,多達(dá)126次。無(wú)疑,這也證實(shí)了近些年來(lái),學(xué)術(shù)界對(duì)知識(shí)管理這個(gè)方向的研究熱點(diǎn)。此外,“電子商務(wù)”為121次、“信息化”為118次、“信息技術(shù)”為112次、“競(jìng)爭(zhēng)情報(bào)”為102次、“信息服務(wù)”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書”為84次、“信息資源”為79次、“電子政務(wù)”為75次、 “知識(shí)服務(wù)”為71次、“知識(shí)共享”為68次、“數(shù)據(jù)倉(cāng)庫(kù)”為63次,從中也反映了我國(guó)對(duì)信息化建設(shè)、知識(shí)服務(wù)、數(shù)字化建設(shè)等關(guān)注在日益提升,也驗(yàn)證了我國(guó)國(guó)務(wù)院學(xué)位委員會(huì)重新頒布的《授予博士、碩士學(xué)位和培養(yǎng)研究生的學(xué)科、專業(yè)目錄》中“圖書館、情報(bào)與檔案管理”的實(shí)效,表明了情報(bào)學(xué)與管理學(xué)之間滲透和結(jié)合日益加強(qiáng),也可以折射出當(dāng)前研究的重點(diǎn)、熱點(diǎn)仍然集中在情報(bào)學(xué)基礎(chǔ)領(lǐng)域,并預(yù)示著今后情報(bào)學(xué)研究的一個(gè)重點(diǎn)將是對(duì)網(wǎng)絡(luò)信息資源的開(kāi)發(fā)、整合與利用。

3 基于聚類共詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn)

通常來(lái)說(shuō),僅僅通過(guò)孤獨(dú)地察看論文的某一關(guān)鍵詞,通常是難以有充足的理由說(shuō)明該論文所研究的主題,然而通過(guò)關(guān)注兩個(gè)或者兩個(gè)以上的關(guān)鍵詞,將可以給予人們更加充分的信息去把握論文的大致內(nèi)容和論文的主題脈絡(luò)。通過(guò)采取計(jì)算機(jī)數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對(duì)出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關(guān)鍵詞進(jìn)行“聚類性”分析,統(tǒng)計(jì)在同一論文中兩兩同時(shí)出現(xiàn)的關(guān)鍵詞,從而構(gòu)建出60 × 60的“聚類共詞矩陣”,通過(guò)這一矩陣的研究,非常清晰地顯示出“聚類共詞矩陣”是一個(gè)對(duì)稱矩陣,其中位于矩陣對(duì)角線上的數(shù)據(jù)顯示的是某關(guān)鍵詞自身一同出現(xiàn)的頻次,這個(gè)一同出現(xiàn)的現(xiàn)象就實(shí)質(zhì)來(lái)說(shuō),就是論文之間的相關(guān)度,對(duì)于非對(duì)角線上的數(shù)據(jù),則表示不同關(guān)鍵詞之間的共現(xiàn)頻次。通過(guò)這個(gè)矩陣可以從另一個(gè)側(cè)反題出,關(guān)鍵詞分布既有交叉、相互滲透又具有群組分布的獨(dú)立性。通過(guò)Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識(shí)管理”為124次,“電子商務(wù)”為106次,“競(jìng)爭(zhēng)情報(bào)”為101次,“高校圖書館”為98次,“信息服務(wù)”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學(xué)圖書館”為83次,“信息資源”為81次,“電子政務(wù)”為79次,“知識(shí)共享”為72次,“數(shù)據(jù)倉(cāng)庫(kù)”為66次。由此可以看出,在國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文的研究主題中,當(dāng)前基于數(shù)字化、信息化、電子化的知識(shí)管理與數(shù)據(jù)挖掘是個(gè)熱點(diǎn),同時(shí)也說(shuō)明我國(guó)情報(bào)學(xué)教育研究的領(lǐng)域在不斷拓寬。

綜合以上,關(guān)注獨(dú)特關(guān)鍵詞下國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文研究的學(xué)科結(jié)構(gòu)特點(diǎn),獲得了基于高頻關(guān)鍵詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn),以及基于聚類共詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn),通過(guò)對(duì)研究結(jié)果的比較分析,得出了一些有較為充足理由支撐的結(jié)論,那就是從中可以較為清晰地得出,當(dāng)前以及今后一段時(shí)期國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文研究的側(cè)重點(diǎn)在于“數(shù)字化、信息化、電子化的知識(shí)管理與數(shù)據(jù)信息挖掘”。

參考文獻(xiàn)

[1]曾學(xué)喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系構(gòu)建[J].情報(bào)理論與實(shí)踐,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

第5篇

關(guān)鍵詞 科技;宣傳;機(jī)制;對(duì)策研究

中圖分類號(hào)G206.3 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2012)58-0006-02

經(jīng)歷改革開(kāi)放30年后,廣東科技工作站在了一個(gè)新的發(fā)展起點(diǎn),肩負(fù)著以“科學(xué)發(fā)展、先行先試”為動(dòng)力加快建設(shè)創(chuàng)新型廣東的歷史重任。在新的形勢(shì)下,加強(qiáng)科技宣傳工作尤為重要和迫切。加強(qiáng)科技宣傳工作,是深入貫徹落實(shí)國(guó)家和省委、省政府新時(shí)期科技發(fā)展方針政策和決策部署,切實(shí)把增強(qiáng)自主創(chuàng)新能力貫徹到廣東現(xiàn)代化建設(shè)各個(gè)方面的需要;是增強(qiáng)全省推進(jìn)自主創(chuàng)新決心和應(yīng)對(duì)國(guó)際金融危機(jī)信心的需要;是廣泛集聚人才、資金、項(xiàng)目等創(chuàng)新要素的需要;是提高全社會(huì)科技意識(shí)和公眾科學(xué)素質(zhì),不斷優(yōu)化廣東自主創(chuàng)新環(huán)境的需要。廣東科技宣傳要按照“大科技配套大宣傳,大宣傳服務(wù)大發(fā)展”的思路,創(chuàng)新宣傳方式,加強(qiáng)科技宣傳工作。為各項(xiàng)科技工作順利開(kāi)展提供有力保障,為全省自主創(chuàng)新?tīng)I(yíng)造良好社會(huì)氛圍。

1 廣東科技宣傳工作現(xiàn)狀

1.1 建立科技宣傳組織機(jī)構(gòu),健全媒體聯(lián)絡(luò)制度

廣東省科技廳于2003年成立的省科技宣傳小組圍繞廣東科技工作中心任務(wù),制訂科技宣傳工作計(jì)劃,向主流媒體提供新聞報(bào)道線索和深度新聞背景。該小組通過(guò)不定期召開(kāi)科技新聞會(huì)、科技新聞通氣會(huì)和科技新聞工作者聯(lián)誼會(huì),及時(shí)向主流媒體通報(bào)科技工作的進(jìn)展情況,積極配合新聞媒體做好科技宣傳報(bào)道工作。近年來(lái),每年都開(kāi)展的全省科技系統(tǒng)信息宣傳員業(yè)務(wù)培訓(xùn)工作,更邀請(qǐng)了省政府和科技日?qǐng)?bào)有關(guān)專家舉辦科技宣傳知識(shí)講座。為了提高科技記者業(yè)務(wù)水平和深入科技報(bào)道的積極性,廣東各級(jí)政府科技部門積極組織科技好新聞評(píng)比活動(dòng)和科技傳播論文評(píng)選活動(dòng),促進(jìn)了科技宣傳隊(duì)伍整體水平的提高。近年來(lái),由廣東科技新聞工作者協(xié)會(huì)牽頭組織年度科技好新聞的評(píng)選活動(dòng)。2010年,第13屆廣東科技好新聞評(píng)選活動(dòng)中,南方日?qǐng)?bào)社、科技日?qǐng)?bào)社、人民日?qǐng)?bào)社、羊城晚報(bào)社、科學(xué)時(shí)報(bào)社及廣東電視臺(tái)、廣州電視臺(tái)等7家媒體的作品榮獲一等獎(jiǎng)。另外,有52篇作品分別獲得二、三等獎(jiǎng)。通過(guò)這次活動(dòng),進(jìn)一步密切了科技管理部門與新聞媒體的聯(lián)系,調(diào)動(dòng)了科技記者的積極性。

1.2 建立了一個(gè)多層次的科技宣傳平臺(tái)

目前,廣東省科技廳已經(jīng)建立了以主流媒體為主,橫向覆蓋報(bào)紙、廣播、電視、網(wǎng)絡(luò),縱向貫穿地市媒體的大范圍,多層次的科技宣傳平臺(tái)。它們包括:中央主要媒體《人民日?qǐng)?bào)》、《科技日?qǐng)?bào)》、新華社、中央電視臺(tái)、中國(guó)新聞社、《高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》,省內(nèi)主要媒體《南方日?qǐng)?bào)》、《羊城晚報(bào)》、《廣州日?qǐng)?bào)》、《南方都市報(bào)》、廣東電視臺(tái)、廣東電臺(tái)、南方電視臺(tái),地市主要媒體《深圳商報(bào)》、深圳電視臺(tái)、《佛山日?qǐng)?bào)》、佛山電視臺(tái)等,港澳媒體《香港文匯報(bào)》、《香港大公報(bào)》、鳳凰衛(wèi)視等。通過(guò)平臺(tái)內(nèi)各媒體資源的充分整合,廣東省的科技宣傳獲得了寬廣而暢通的傳播渠道。

1.3 深入開(kāi)展主題宣傳活動(dòng)

一方面,廣東省科技廳根據(jù)每個(gè)月或季度的科技宣傳重點(diǎn),積極組織新聞媒體到高新區(qū)、重點(diǎn)實(shí)驗(yàn)室、科研院所和企業(yè)等進(jìn)行采訪,加深了媒體對(duì)廣東自主創(chuàng)新工作新進(jìn)展、新做法的了解,搭建起媒體與科研院所、創(chuàng)新型企業(yè)之間的溝通橋梁,該做法得到媒體的一致認(rèn)可。另一方面,緊緊圍繞省委、省政府的中心工作,聚焦廣東科技工作的重大事件,在做好常規(guī)性科技新聞宣傳的同時(shí),重點(diǎn)抓好幾個(gè)專題宣傳報(bào)道是廣東科技新聞宣傳的一大特點(diǎn)。此外,廣東省科技廳定期召開(kāi)專題新聞會(huì),均邀請(qǐng)了中央駐粵及省市媒體參與報(bào)道,營(yíng)造了良好的創(chuàng)新氛圍。

1.4 以廣東省“科技進(jìn)步活動(dòng)月”為平臺(tái),切實(shí)提高科技宣傳的社會(huì)影響力

自1992年開(kāi)展首屆廣東省“科技進(jìn)步活動(dòng)月”(下稱“活動(dòng)月”)以來(lái),至今已屆第20年?;顒?dòng)月已成為廣東省參與面最廣、社會(huì)效益最顯著的科普活動(dòng)品牌。按照科技部每年的統(tǒng)一部署和省委省政府的有關(guān)工作安排,我省組織舉辦了內(nèi)容豐富、形式多樣的一系列活動(dòng),組織和協(xié)助各大新聞媒體加大對(duì)“活動(dòng)月”的宣傳力度,營(yíng)造濃厚的科技創(chuàng)新氛圍,進(jìn)一步提高社會(huì)影響力。由于“活動(dòng)月”內(nèi)容豐富,吸引了中央和省的各大新聞媒體對(duì)各項(xiàng)活動(dòng)進(jìn)行多種渠道、多種形式的宣傳報(bào)道,各地方電視臺(tái)、電臺(tái)等媒體相應(yīng)配合當(dāng)?shù)亍盎顒?dòng)月”工作的開(kāi)展,制作了各具特色的新聞報(bào)道、專題片等,使“科技進(jìn)步活動(dòng)月”的活動(dòng)參與和主題宣傳深入到廣大城鎮(zhèn)和農(nóng)村,在全省營(yíng)造了良好的氛圍。

1.5 多渠道開(kāi)展科技宣傳工作

除了主流媒體傳播渠道,科技傳播由于其傳播內(nèi)容的特殊性和傳播過(guò)程的復(fù)雜性,還存在著其他傳播渠道,主要有:一是專業(yè)交流渠道,如科技會(huì)展業(yè)、科技學(xué)術(shù)會(huì)議、科技學(xué)術(shù)團(tuán)體進(jìn)行的正式和非正式交流等,這些專業(yè)傳播渠道在廣東有較為豐富的資源;二是廣東高等院校、研究所數(shù)量多,高校、研究機(jī)構(gòu)的科技教育也是重要的科技傳播渠道;三是面向社會(huì)公眾的科學(xué)普及傳播渠道,這類傳播形式多樣,貼近社會(huì)生活,廣東開(kāi)展已久的科技活動(dòng)月就是代表;四是技術(shù)本身轉(zhuǎn)移和采用的傳播。有關(guān)專家指出,最有價(jià)值的科技傳播是科技在應(yīng)用中的傳播。廣東作為區(qū)域經(jīng)濟(jì)中心省份,是科技創(chuàng)業(yè)的沃土和高新技術(shù)成果轉(zhuǎn)化集散地,在聚集和擴(kuò)散兩種基本運(yùn)動(dòng)形式下,廣東具備了發(fā)達(dá)的科技傳播和擴(kuò)散網(wǎng)絡(luò),與其周邊省份以及經(jīng)濟(jì)腹地間存在著緊密的聯(lián)系和科技傳播。

然而,面對(duì)新形勢(shì)新要求,廣東省科技宣傳工作存在的問(wèn)題日益顯現(xiàn)。主要體現(xiàn)在:對(duì)科技宣傳工作的重視和投入不夠、科技宣傳網(wǎng)絡(luò)不健全、科技宣傳資源力量分散、科技宣傳機(jī)制和方法創(chuàng)新不足等。

因此,創(chuàng)新科技宣傳工作思路,采取有力措施,只有堅(jiān)持用創(chuàng)新的理念、創(chuàng)新的思維、創(chuàng)新的手段和方法,不斷加強(qiáng)和改進(jìn)科技宣傳工作,才能不斷適應(yīng)形勢(shì)發(fā)展的需要,做到體現(xiàn)時(shí)代特點(diǎn),把握時(shí)代脈搏,努力做到在內(nèi)容上出色,形式上出彩,立意上出新。

2 廣東科技宣傳工作建議與對(duì)策

切實(shí)加強(qiáng)科技宣傳工作對(duì)于擴(kuò)大科技工作影響,提高全社會(huì)科技意識(shí),廣泛吸引集聚科技創(chuàng)新資源,增強(qiáng)公眾的科技意識(shí)和科學(xué)素養(yǎng),加速科技信息傳遞和科技成果轉(zhuǎn)化,推動(dòng)全社會(huì)科技事業(yè)發(fā)展都具有非常重要的意義。

廣東科技宣傳工作的渠道與方法主要從“兩個(gè)轉(zhuǎn)變”方面著手研究。一是在宣傳渠道上研究如何從過(guò)去僅僅依靠傳統(tǒng)平臺(tái),到以傳統(tǒng)平臺(tái)為主、同時(shí)注重搭建新興平臺(tái)的轉(zhuǎn)變。二是在宣傳方法上要從過(guò)去大包大攬到注重把關(guān)決策轉(zhuǎn)變。

2.1 充分發(fā)掘新興媒體的科技宣傳作用,開(kāi)辟科技宣傳的新陣地

不同的物質(zhì)載體,不同的傳播愿望,不同的用戶需求,都促進(jìn)媒體窄眾、分眾傳播的步伐加快。報(bào)紙、電視、廣播、網(wǎng)絡(luò)等成熟的大眾媒體具有覆蓋面廣、公信力強(qiáng)等特點(diǎn),是宣傳科技工作重要的、也是主要的渠道,而專業(yè)媒體及行業(yè)媒體卻有著專業(yè)性強(qiáng),報(bào)道深刻等大眾媒體不可取代的優(yōu)勢(shì)??萍脊ぷ鞯男麄骶褪且⒁飧鶕?jù)不同層次、不同地域人群對(duì)科技信息的不同需求,利用這些成熟的宣傳渠道,搭建新的傳播平臺(tái),進(jìn)行分眾傳播。

2011年,科技日?qǐng)?bào)社、科技興市研究會(huì)與廣東省科技廳合辦的“中國(guó)科技報(bào)道”網(wǎng)絡(luò)視頻網(wǎng)站就是利用網(wǎng)絡(luò)媒體和多媒體技術(shù)搭建的一個(gè)新的傳播平臺(tái)。該平臺(tái)以科技視頻新聞報(bào)道和宣傳工作為起點(diǎn),面向全社會(huì)逐步提供科技視頻信息、查詢和咨詢服務(wù)。在此基礎(chǔ)上,不斷充實(shí)和豐富中國(guó)科技報(bào)道的信息量,為社會(huì)提供多方面、多層次的科技信息。

手機(jī)等新興媒體的出現(xiàn)為科技宣傳帶來(lái)了新的渠道和發(fā)展契機(jī)。以手機(jī)短信為例,由于具有成本低廉、傳播迅速、操作簡(jiǎn)便等強(qiáng)大優(yōu)勢(shì),為以“互動(dòng)性”和“參與性”為發(fā)展趨勢(shì)的傳統(tǒng)媒體所用為新的盈利工具的同時(shí),也應(yīng)該直接為科技宣傳所用,成為新的傳播渠道。此外,各地市也應(yīng)因地制宜地搭建自己的科技宣傳平臺(tái)。有科普?qǐng)鲳^的地市,要強(qiáng)化科普?qǐng)鲳^的科技宣傳功能,利用其場(chǎng)地大、受眾廣的優(yōu)勢(shì),使其不僅成為科普宣傳的陣地,更成為科技工作宣傳的窗口。

“高交會(huì)”、“留交會(huì)”、“科技下鄉(xiāng)”、“科技進(jìn)步活動(dòng)月”都是廣東省科技活動(dòng)的品牌,我們要把它們作為科技宣傳平臺(tái),搞小型展覽,印發(fā)宣傳資料,進(jìn)行分眾、定向的科技宣傳。據(jù)不完全統(tǒng)計(jì),2011年廣東省“科技進(jìn)步活動(dòng)月”期間,全省共組織各類培訓(xùn)班800多場(chǎng)次,受培訓(xùn)人員65000多人次。組織各類講座、咨詢活動(dòng)和論壇200多場(chǎng)次,參與群眾數(shù)萬(wàn)人次。這些科技活動(dòng)是科技宣傳的一個(gè)很好的載體。

2.2 注重頂層的科技宣傳規(guī)劃,下放具體的科技宣傳事務(wù)

科技宣傳是項(xiàng)復(fù)雜而繁瑣的工作,必須有科學(xué)專業(yè)知識(shí),有科技管理知識(shí),還要有傳播理論知識(shí)與技巧。作為科技管理部門,就應(yīng)該遵循社會(huì)分工的理念,發(fā)動(dòng)科技企事業(yè)單位、高校、科研院所的在職或退休科技工作者廣泛地開(kāi)展科技信息采集工作,發(fā)動(dòng)傳播媒體和社會(huì)上的宣傳專業(yè)團(tuán)體進(jìn)行科技宣傳策劃及具體宣傳操作。科技管理部門負(fù)責(zé)對(duì)宣傳內(nèi)容的科學(xué)性、政治性、重大性,宣傳形式創(chuàng)新性,宣傳時(shí)機(jī)的準(zhǔn)確性進(jìn)行把關(guān),學(xué)會(huì)“牽牛鼻子”。只有這樣,科技管理部門才能夠從繁瑣的事務(wù)性工作和自己不擅長(zhǎng)的傳播專業(yè)工作中解脫出來(lái),同時(shí)也發(fā)揮了社會(huì)各界的能動(dòng)性,為專業(yè)傳播機(jī)構(gòu)提供更廣闊的創(chuàng)作空間。

如2008年,我省舉辦的紀(jì)念火炬計(jì)劃實(shí)施20周年宣傳活動(dòng),2009年高新區(qū)工作會(huì)議,2010年產(chǎn)學(xué)研工作會(huì)議的宣傳工作會(huì)議,2011年專業(yè)鎮(zhèn)轉(zhuǎn)型升級(jí)會(huì)議等重大會(huì)議,省科技廳有關(guān)處室主要負(fù)責(zé)對(duì)內(nèi)容、形式的把關(guān)決策,電視片的制作、紀(jì)念晚會(huì)的籌劃、舉辦等工作都交給了社會(huì)上的專業(yè)機(jī)構(gòu)去操作,宣傳活動(dòng)得到了廣泛的好評(píng)。

2.3 廣東科技宣傳工作機(jī)制創(chuàng)新

在學(xué)習(xí)借鑒兄弟省份科技宣傳先進(jìn)經(jīng)驗(yàn)的基礎(chǔ)上,完善我省科技宣傳機(jī)制,創(chuàng)新科技宣傳模式,加強(qiáng)科技宣傳工作能力,是打開(kāi)我省科技宣傳工作新局面的重要手段。例如浙江、遼寧分別與當(dāng)?shù)仉娨暸_(tái)合辦《創(chuàng)新故事》、《創(chuàng)新遼寧》欄目,搭建電視宣傳陣地;浙江與省委黨報(bào)《浙江日?qǐng)?bào)》簽訂了全年100萬(wàn)元的戰(zhàn)略合作協(xié)議,規(guī)劃了全年的專版數(shù)量及頭版新聞條數(shù)。借鑒兩省的經(jīng)驗(yàn)做法,建議廣東省科技廳根據(jù)不同媒體的特點(diǎn),優(yōu)化合作模式,建立戰(zhàn)略合作關(guān)系,構(gòu)建立體高效的科技宣傳網(wǎng)絡(luò)。一是劃定核心媒體范圍,重點(diǎn)加強(qiáng)溝通聯(lián)系;二是與主要媒體簽訂合作協(xié)議,商定專版版面量、專題(專欄)量及頭版頭條新聞量,更加系統(tǒng)地組織實(shí)施科技宣傳工作;三是與電視臺(tái)媒體建立穩(wěn)定的合作陣地,以定期播出的形式建立起長(zhǎng)效的合作機(jī)制。

2.4 組織科技宣傳專業(yè)化采編隊(duì)伍

隨著宣傳工作的不斷延伸,亟需一批相對(duì)固定的、專業(yè)的寫作班子來(lái)完成重點(diǎn)宣傳材料的采寫,以提高宣傳質(zhì)量和效率。一是建議統(tǒng)籌安排科技系統(tǒng)內(nèi)《科技日?qǐng)?bào)》、《廣東科技報(bào)》、《廣東科技》雜志的采編力量,以“人才租賃”(即不自己招人養(yǎng)人,利用現(xiàn)有專業(yè)人員力量,給予一定經(jīng)費(fèi)支持)等方式,集中3~4名人員組成相對(duì)固定的寫作班子,負(fù)責(zé)重要信息和宣傳稿件的撰稿等工作。根據(jù)宣傳計(jì)劃,適時(shí)集中寫作班子力量,聯(lián)合主要媒體做好專題宣傳工作;二是與高等院校的新聞學(xué)院建立合作關(guān)系,由廣東省科技廳提供實(shí)習(xí)場(chǎng)地和必要的條件,校方提供2~3名優(yōu)秀實(shí)習(xí)生參與宣傳采訪和稿件撰寫工作。

2.5 設(shè)立省科技廳科技宣傳工作實(shí)體機(jī)構(gòu)

一是在廣東省科技宣傳工作小組的基礎(chǔ)上設(shè)立廣東省科技廳科技宣傳工作小組辦公室,負(fù)責(zé)根據(jù)廳黨組和廳科技宣傳工作小組的工作部署,具體落實(shí)有關(guān)科技宣傳工作任務(wù)。二是建立廣東省科技傳播和輿情分析中心,以進(jìn)一步整合科技宣傳資源、擴(kuò)大科技宣傳渠道、優(yōu)化科技宣傳隊(duì)伍,提高科技傳播效果,

2.6引進(jìn)專業(yè)宣傳機(jī)構(gòu)和團(tuán)隊(duì)參與策劃

在大力培養(yǎng)自身宣傳隊(duì)伍的同時(shí),建議引進(jìn)外部的專業(yè)宣傳機(jī)構(gòu)參與策劃和實(shí)施工作,提高科技宣傳工作的專業(yè)性和效果。一是與高等院校新聞學(xué)院合作開(kāi)展廣東科技輿情監(jiān)測(cè)研究等工作,對(duì)科技宣傳工作進(jìn)行動(dòng)態(tài)評(píng)價(jià)和監(jiān)測(cè),及時(shí)提出有針對(duì)性的改進(jìn)建議,提高科技宣傳科學(xué)化水平;二是以開(kāi)設(shè)專版、專題等形式,組織主要媒體的骨干力量參與重大科技宣傳活動(dòng)的策劃工作;三是組織有實(shí)力的傳媒咨詢服務(wù)機(jī)構(gòu)策劃實(shí)施科技宣傳工作。

2.7建立健全科技宣傳考核激勵(lì)機(jī)制

完善的科技宣傳考核激勵(lì)機(jī)制,有利于提高各地市和媒體的積極性。結(jié)合廣東省實(shí)際情況,一是制定對(duì)地市科技局的科技宣傳考核激勵(lì)制度。由各地市科技局劃定主要媒體,年底向省科技廳報(bào)送該市主要媒體刊登科技新聞的數(shù)量,根據(jù)廣東省科技廳制定的評(píng)分規(guī)則進(jìn)行評(píng)選,對(duì)得分最高的前五名給予一定獎(jiǎng)勵(lì)并予以通報(bào)。此外,建議以珠三角經(jīng)濟(jì)發(fā)達(dá)的地市為切入口,建立緊密型的省市科技宣傳聯(lián)動(dòng)機(jī)制;二是加大對(duì)媒體記者的激勵(lì)力度。通過(guò)廣東省科技新聞工作者協(xié)會(huì)統(tǒng)計(jì)主要媒體全年的發(fā)稿數(shù)量,對(duì)發(fā)稿量較多的記者加以額外獎(jiǎng)勵(lì),并將信息反饋給其所在單位,從而進(jìn)一步提高媒體發(fā)稿的積極性;三是聘請(qǐng)?zhí)丶s記者、評(píng)論員和專家學(xué)者擔(dān)任顧問(wèn),負(fù)責(zé)重要新聞稿件的撰寫和把關(guān),保證稿件質(zhì)量。四是與高等院校傳播學(xué)院進(jìn)行合作,邀請(qǐng)優(yōu)秀實(shí)習(xí)生進(jìn)入廣東省科技傳播和輿情分析中心進(jìn)行實(shí)習(xí),并探討合作開(kāi)展輿情分析研究工作,加強(qiáng)輿情分析科學(xué)化水平。

參考文獻(xiàn)

[1]應(yīng)向偉.創(chuàng)新科技宣傳工作的思考.浙江省科技信息研究院―維普資訊.

[2]翟全杰.讓科技跨越時(shí)空[M].北京理工大學(xué)出版社,2002.

第6篇

關(guān)鍵詞:依存句法分析, 特征選擇, 有監(jiān)督學(xué)習(xí), 模型一體化

中圖分類號(hào):TP3911 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2013)02-0011-05

0引言

依存句法分析模型可用于精確地自動(dòng)構(gòu)建給定句子中詞匯之間的依存關(guān)系[1]。該類模型可大致分為基于有監(jiān)督學(xué)習(xí)和基于文法規(guī)則兩類模型?;谟斜O(jiān)督學(xué)習(xí)的依存句法分析模型是指使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,通過(guò)從大量標(biāo)注語(yǔ)料中學(xué)習(xí)參數(shù)而相應(yīng)構(gòu)建的依存句法分析模型。而基于文法規(guī)則的依存句法分析模型則指依據(jù)專家提煉或數(shù)據(jù)挖掘的文法規(guī)則而憑此構(gòu)建的依存句法分析模型。兩種模型各有優(yōu)缺點(diǎn),前者一般可以獲得較高的預(yù)測(cè)精度,但卻需要設(shè)計(jì)大量的標(biāo)注依存結(jié)構(gòu)的句子作為學(xué)習(xí)樣本訓(xùn)練模型;后者通常不需要設(shè)計(jì)大量訓(xùn)練樣本,但由于專家的知識(shí)受限,規(guī)則領(lǐng)域適應(yīng)性較差,導(dǎo)致該種模型預(yù)測(cè)精度并不高。藉此分析,基于有監(jiān)督學(xué)習(xí)的依存句法分析模型具有較高的預(yù)測(cè)精度,因此,本文將圍繞該類模型的研究現(xiàn)狀而展開(kāi)綜述。具體內(nèi)容如下。

基于有監(jiān)督學(xué)習(xí)的依存句法分析模型的構(gòu)建過(guò)程一般可分為兩步[2]:

(1)學(xué)習(xí)。給定一個(gè)標(biāo)注依存結(jié)構(gòu)的句子集合,人工構(gòu)建依存特征模板,再?gòu)募现谐槿∫来嫣卣?。其后,設(shè)定模型參數(shù),并在有限步驟內(nèi)推導(dǎo)得出一個(gè)依存句法分析模型;

(2)評(píng)價(jià)。給定測(cè)試集合及評(píng)價(jià)方法,若該模型的預(yù)測(cè)結(jié)果滿足期望值,模型構(gòu)建完成,否則進(jìn)入步驟(1)。

有監(jiān)督學(xué)習(xí)的依存句法分析模型又可分為基于移近規(guī)約和基于圖兩類。其中,基于圖的依存句法分析模型在效率和精確度都有良好表現(xiàn),因而廣受關(guān)注?;趫D的依存句法分析模型的原理是借助最大生成樹(shù)算法,實(shí)現(xiàn)句子的依存句法分析。例如句子“漢族/nR 醫(yī)學(xué)/n 又/d 有/v 中醫(yī)/n 之/uJDE 稱/n”的依存句法分析結(jié)果如圖1所示。

在構(gòu)建基于有監(jiān)督學(xué)習(xí)的依存句法分析模型時(shí),主要集中于兩個(gè)方面:資源建設(shè)和特征工程。針對(duì)其相關(guān)研究,本文給出了較為系統(tǒng)、詳盡的綜述。在資源建設(shè)研究方面,人們通過(guò)依存關(guān)系映射和主動(dòng)學(xué)習(xí)兩種方法緩解語(yǔ)料匱乏的困境。通過(guò)將源領(lǐng)域中標(biāo)注依存關(guān)系的映射到目標(biāo)領(lǐng)域?qū)崿F(xiàn)目標(biāo)領(lǐng)域的依存關(guān)系自動(dòng)化標(biāo)注,達(dá)到自動(dòng)化構(gòu)建目標(biāo)領(lǐng)域語(yǔ)料的目的,進(jìn)而在目標(biāo)領(lǐng)域借助自動(dòng)標(biāo)注的語(yǔ)料構(gòu)建依存句法分析模型;而借助主動(dòng)學(xué)習(xí)思想,一方面可選擇頗具價(jià)值的人工標(biāo)注對(duì)象進(jìn)行人工標(biāo)注,擴(kuò)充標(biāo)注集合,另一方面也可降低人工標(biāo)注的工作量。在特征工程研究方面,人們分析了不同特征對(duì)構(gòu)建依存句法分析模型的貢獻(xiàn),涉及的特征包括詞匯特征、句子特征,以及語(yǔ)言形態(tài)特征等,同時(shí)介紹了如何因解決特征稀疏而導(dǎo)致的模型性能下降的問(wèn)題。此外,具體而深入地分析、評(píng)價(jià)了依存句法分析模型一體化的優(yōu)勢(shì)和不足。

本文的組織結(jié)構(gòu)如下:第二部分針對(duì)語(yǔ)料匱乏、特征選擇和獲取、以及模型一體化問(wèn)題,詳細(xì)比較和分析了現(xiàn)有模型的研究現(xiàn)狀;第三部分從事件抽取、產(chǎn)品評(píng)論分析,以及輿情分析角度說(shuō)明了現(xiàn)有模型最近的應(yīng)用情況;最后總結(jié)現(xiàn)有模型研究并對(duì)未來(lái)可能研究方向給予展望。

1基于有監(jiān)督學(xué)習(xí)的依存句法分析模型

1.1標(biāo)注語(yǔ)料匱乏

近年來(lái),在標(biāo)注語(yǔ)料匱乏研究方面,人們借助依存關(guān)系映射和主動(dòng)學(xué)習(xí)方法改進(jìn)標(biāo)注語(yǔ)料不足的狀況。在依存關(guān)系映射研究方面,已有學(xué)者采用規(guī)則過(guò)濾[3]、適應(yīng)性標(biāo)注方法[4]、動(dòng)態(tài)規(guī)劃方法[5]解決源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異,但效果并不明顯。Jiang等[6]采用一種依存結(jié)構(gòu)映射策略,將源領(lǐng)域中豐富的依存關(guān)系映射到資源短缺的目標(biāo)領(lǐng)域中,實(shí)現(xiàn)目標(biāo)領(lǐng)域依存關(guān)系語(yǔ)言的自動(dòng)構(gòu)建。例如,將標(biāo)注依存關(guān)系的英語(yǔ)語(yǔ)料中的依存關(guān)系映射到中文語(yǔ)料中,實(shí)現(xiàn)中文語(yǔ)料的自動(dòng)標(biāo)注。實(shí)現(xiàn)依存映射時(shí),若采用詞對(duì)齊方法實(shí)現(xiàn)依存關(guān)系映射,映射過(guò)程中會(huì)產(chǎn)生詞對(duì)齊的錯(cuò)誤和不同語(yǔ)言之間因句法差異產(chǎn)生的錯(cuò)誤。與已有方法不同,作者采用的映射方法不是將整棵句子依存樹(shù)映射到目標(biāo)領(lǐng)域,而是映射詞匯依存關(guān)系。給定詞對(duì)齊雙語(yǔ)語(yǔ)料,源領(lǐng)域的句子標(biāo)注了依存句法結(jié)構(gòu),其中的依存關(guān)系是布爾型,表示是否存在依存關(guān)系。而后將源領(lǐng)域中詞對(duì)的依存關(guān)系映射為目標(biāo)領(lǐng)域的詞對(duì)。在目標(biāo)領(lǐng)域產(chǎn)生依存關(guān)系的實(shí)例過(guò)程中,最先獲得詞對(duì)齊的映射,采用映射矩陣而不是單個(gè)的詞對(duì)齊,這樣可以減少詞對(duì)齊的錯(cuò)誤。而且詞對(duì)齊的映射不是一一映射,因而能夠獲得多種映射組合。假設(shè)詞對(duì)(a, b),其中,詞a有n種映射射結(jié)果,詞b有m種映射結(jié)果,則詞對(duì)(a, b)就存在n×m種映射可能。然后,根據(jù)源端句法樹(shù)庫(kù)以及映射矩陣計(jì)算目標(biāo)領(lǐng)域存在依存關(guān)系的概率。最后,設(shè)定閾值T確定在目標(biāo)領(lǐng)域是否產(chǎn)生依存關(guān)系。大于閾值T,則存在依存關(guān)系,即為正例;若小于(1 - T),則不存在依存關(guān)系,即為反例。如此就獲得了大量目標(biāo)領(lǐng)域的依存關(guān)系樣例。通過(guò)在目標(biāo)領(lǐng)域產(chǎn)生的樣例上訓(xùn)練最大熵分類器實(shí)現(xiàn)目標(biāo)端的依存關(guān)系預(yù)測(cè)。該種映射方法降低了依存關(guān)系映射時(shí)產(chǎn)生錯(cuò)誤關(guān)系的概率,并且一定程度上借助英文標(biāo)注語(yǔ)料應(yīng)對(duì)中文依存分析語(yǔ)料匱乏的狀況。但該模型仍然無(wú)法避免兩種語(yǔ)言在句法差異上導(dǎo)致的錯(cuò)誤的關(guān)系映射。此外,也難以精確設(shè)定閾值來(lái)判定映射結(jié)果是否為依存關(guān)系。

其中,si表示n-best的句法分析結(jié)果中第i個(gè)預(yù)測(cè)結(jié)果分值,n表示利用DP預(yù)測(cè)得到的句法分析樹(shù)的數(shù)量。當(dāng)n-best的句法分析結(jié)果的分值互相之間越發(fā)接近時(shí),熵值也將越高。這時(shí),句法分析器預(yù)測(cè)結(jié)果“徘徊”在n-best之中,即根據(jù)句法分析器預(yù)測(cè)結(jié)果是很難選擇得到最好的句法分析樹(shù)的,因此,句子s需要人工標(biāo)注依存句法結(jié)構(gòu)。依據(jù)上述思想,可從未標(biāo)注集合中挑選k個(gè)不確定性最高的樣本進(jìn)行人工依存句法結(jié)構(gòu)標(biāo)注。

此后,將標(biāo)記結(jié)果加入到標(biāo)注集合中,重新訓(xùn)練句法分析器,獲得新的句法分析器。上述過(guò)程反復(fù)迭代,直到未標(biāo)注集合為空。通過(guò)這種方式擴(kuò)充標(biāo)注集合來(lái)解決語(yǔ)料匱乏問(wèn)題。

另外,句子中只有部分依存關(guān)系不確定,通過(guò)標(biāo)注這些不確定的依存關(guān)系就可以完成句子的依存結(jié)構(gòu)標(biāo)注。借助依存關(guān)系熵來(lái)度量依存關(guān)系的不確定性,具體計(jì)算如式(3)所示。

由圖2可知,首先根據(jù)標(biāo)注集合訓(xùn)練得到依存句法分析器DP,借助DP構(gòu)建未標(biāo)注集合中句子依存句法分析樹(shù),再根據(jù)句子不確定函數(shù)選擇k個(gè)不確定句子,同時(shí)根據(jù)依存關(guān)系不確定函數(shù)選擇k’個(gè)依存關(guān)系并人工標(biāo)注,由此將標(biāo)注結(jié)果加入標(biāo)注集合,重新訓(xùn)練構(gòu)建依存句法分析器,上述過(guò)程反復(fù)進(jìn)行,直到未標(biāo)注集合為空。

1.2特征提取與選擇

在特征提取與選擇研究方面,人們分別從不同特征對(duì)構(gòu)建依存句法分析模型的貢獻(xiàn)角度,以及特征稀疏對(duì)構(gòu)建模型產(chǎn)生的影響角度展開(kāi)研究。其中的特征主要分為:句子級(jí)特征、詞類別特征、語(yǔ)言形態(tài)特征、以及高階特征等,下面對(duì)其相關(guān)工作分別作以綜合分析。

在句子級(jí)特征研究方面,Gadde[8]等使用短句信息提高句法分析性能。將短句的邊界信息作為依存關(guān)系的限制特征來(lái)豐富特征集合,并提高依存關(guān)系預(yù)測(cè)精度。將ICON2009的數(shù)據(jù)集作為測(cè)試集,使用MSTParser[1]作為依存句法分析器,在無(wú)標(biāo)記和有標(biāo)記的評(píng)測(cè)中預(yù)測(cè)精度分別為87%和77%。在詞類別特征提取研究方面,Agirre等[9]嘗試從WordNet中獲得詞匯的基本語(yǔ)義類作為依存特征,同時(shí)采用詞義消歧算法減少詞義歧義帶來(lái)的噪聲,以此提升依存句法關(guān)系預(yù)測(cè)精度。Haffari等[10]在MSTParser依存句法分析器框架下提出將詞匯表示為句法和語(yǔ)義兩種表示方式,并采用線性加權(quán)方式將這兩種表示形式的特征信息相融合,由此將依存句法分析精度則從90.82%提升到92.13%。在利用語(yǔ)言形態(tài)特征研究方面, Marton等[11]探索了形態(tài)學(xué)特征對(duì)句法分析的貢獻(xiàn),并發(fā)現(xiàn)時(shí)態(tài)、單復(fù)數(shù)、詞綴均可提升阿拉伯語(yǔ)的依存句法分析精度。而在利用高階特征研究方面,Massimiliano Ciaramita等[12]使用依存語(yǔ)言模型和beam搜索構(gòu)建高階特征。采用大量基準(zhǔn)依存句法分析器自動(dòng)分析語(yǔ)句構(gòu)建依存句法語(yǔ)言模型,并借助依存語(yǔ)言模型構(gòu)建高階特征,再使用beam搜索在解碼階段將特征有效整合至依存句法分析模型中。模型中考慮了原始模型(MSTParser)中最大生成樹(shù)的分值,同時(shí)考慮依存語(yǔ)言模型的分值,具體計(jì)算如式(5)所示。

由式(5)可知,該模型在解碼階段不僅考慮了MSTParser預(yù)測(cè)結(jié)果,同時(shí)考慮了依存語(yǔ)言模型對(duì)依存句法分析的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果顯示中文句法分析達(dá)到了最高精度,而且在英語(yǔ)上也獲得了與已知最好系統(tǒng)的可比精度。在特征稀疏研究方面, Zhou[13]結(jié)合從網(wǎng)絡(luò)獲取的詞匯搭配偏好來(lái)提高依存句法分析精度。通過(guò)從網(wǎng)絡(luò)語(yǔ)料Google hits和Google V1構(gòu)建詞匯之間的搭配偏好。實(shí)驗(yàn)結(jié)果表明,借助搭配偏好提升了依存句法分析性能。更重要的,在處理新領(lǐng)域數(shù)據(jù)時(shí),使用網(wǎng)絡(luò)獲取的詞匯搭配偏好可使模型具有更好的健壯性。另外,在網(wǎng)絡(luò)數(shù)據(jù)上抽取詞匯搭配偏好還可以避免數(shù)據(jù)稀疏問(wèn)題,而且已在特征稀疏的生物醫(yī)療領(lǐng)域驗(yàn)證了吃方法的有效性。

1.3一體化模型

詞性標(biāo)注是依存句法分析中必不可少的一個(gè)基礎(chǔ)步驟。當(dāng)前的研究將依存句法分析和詞性標(biāo)注分開(kāi)建模,這就可能導(dǎo)致底層的詞性標(biāo)注錯(cuò)誤向高層依存句法分析傳播,進(jìn)而降低依存句法分析精度。實(shí)驗(yàn)表明,由于詞性標(biāo)注的錯(cuò)誤,將造成句法分析精度大約下降6%。為了解決這個(gè)問(wèn)題,李正華等[14]提出詞性標(biāo)注和依存句法分析的聯(lián)合模型。模型采用剪枝策略來(lái)減小候選詞性標(biāo)簽空間,大大提高了句法分析速度。其基本思想是同時(shí)最大化詞性標(biāo)注和依存句法分析性能。在這個(gè)模型中,詞性標(biāo)注和依存句法分析的特征權(quán)重做以同步調(diào)整,借助詞性和句法特征交互來(lái)確定優(yōu)化的聯(lián)合結(jié)果。在中文賓州樹(shù)庫(kù)上進(jìn)行測(cè)試實(shí)驗(yàn),其結(jié)果表明依存句法分析精度提高1.5%。而在此基礎(chǔ)上,Hatori等[15]提出第一個(gè)分詞、詞性標(biāo)注以及句法分析的一體化模型。通過(guò)結(jié)合分詞、詞性標(biāo)注和依存分析模型的特征構(gòu)建一體化模型,并提出基于字符的解碼方法。此外,Li, Zhongguo等[16]提出一體化中文依存句法分析模型,將未分詞的句子作為輸入,其輸出即為句法結(jié)構(gòu)。通過(guò)移除中間分詞步驟,一體化句法分析器不再需要單詞和短語(yǔ)的分割標(biāo)記,因特征提取錯(cuò)誤而導(dǎo)致的性能下降也將為之得到控制。但是一體化模型雖然提升了依存句法分析的精度,但卻同時(shí)增加了解碼復(fù)雜度。

1.4其他

此外,人們?cè)诟纳埔来娣治鲂?,以及借助機(jī)器翻譯技術(shù)提升依存句法分析精度方面也同樣開(kāi)展了廣泛研究。在改善依存分析效率研究中,研究人員發(fā)現(xiàn)構(gòu)建依存樹(shù)的過(guò)程中會(huì)產(chǎn)生大量錯(cuò)誤的依存關(guān)系,過(guò)濾這些依存關(guān)系可以提高依存分析效率。Bergsma等[17]采用級(jí)聯(lián)式過(guò)濾模型過(guò)濾錯(cuò)誤的依存關(guān)系。可采用三種方法實(shí)現(xiàn)過(guò)濾:基于規(guī)則過(guò)濾、借助線性過(guò)濾器和二次型過(guò)濾器過(guò)濾錯(cuò)誤的依存關(guān)系。在基于規(guī)則過(guò)濾研究方面,訓(xùn)練支持向量機(jī)依存關(guān)系分類器,特征只包括頭或依存關(guān)系中的詞性,由此利用學(xué)習(xí)得到的特征權(quán)重過(guò)濾詞性或詞性對(duì)。例如,如果一個(gè)詞性標(biāo)記在非頭詞的分類器中的權(quán)重為正,則以這個(gè)節(jié)點(diǎn)作為頭的所有弧都將被過(guò)濾。這樣借助學(xué)習(xí)得到的權(quán)重構(gòu)建一組高精度的過(guò)濾規(guī)則,即真正實(shí)現(xiàn)了依存關(guān)系的過(guò)濾。在線性過(guò)濾器研究方面,首先構(gòu)建8個(gè)分類器作為過(guò)濾器,分別針對(duì)如下8種節(jié)點(diǎn)分類問(wèn)題:

(1)節(jié)點(diǎn)是否為頭(例如節(jié)點(diǎn)是葉子節(jié)點(diǎn));

(2)節(jié)點(diǎn)的頭是否在左側(cè);

(3)節(jié)點(diǎn)的頭是否在右側(cè);

(4)節(jié)點(diǎn)的頭是否在左側(cè)5個(gè)節(jié)點(diǎn)距離之內(nèi);

(5)節(jié)點(diǎn)的頭是否在右側(cè)5個(gè)節(jié)點(diǎn)距離之內(nèi);

(6)節(jié)點(diǎn)頭是否在左側(cè)第一個(gè)節(jié)點(diǎn);

(7)節(jié)點(diǎn)的頭是否在右側(cè)第一個(gè)節(jié)點(diǎn);

(8)節(jié)點(diǎn)是否是根節(jié)點(diǎn)。

使用相同的特征模板,得到8種不同的特征權(quán)重,分別對(duì)應(yīng)8種不同的分類,并且每一種過(guò)濾器的輸入均是上一種過(guò)濾器輸出的結(jié)果。通過(guò)這種方式實(shí)現(xiàn)過(guò)濾,構(gòu)建二次型支持向量機(jī)分類器決定過(guò)濾哪些頭—依賴對(duì)。實(shí)驗(yàn)結(jié)果表明,基于規(guī)則過(guò)濾可以過(guò)濾占據(jù)25%的潛在依存關(guān)系。線性過(guò)濾器能夠過(guò)濾高達(dá)54.2%的潛在依存關(guān)系。而二次型過(guò)濾器則能夠過(guò)濾具體為22%的潛在依存關(guān)系。

在借助機(jī)器翻譯技術(shù)提升依存句法分析精度研究方面,Chen等[18]提出使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)提高雙語(yǔ)句法分析精度的方法。假設(shè)在源端存在模糊的依存關(guān)系判定,在目標(biāo)端可能就是清晰的依存關(guān)系判定,因而可根據(jù)目標(biāo)端來(lái)修正源端的依存關(guān)系預(yù)測(cè)結(jié)果。首先,使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)將源端的單語(yǔ)樹(shù)庫(kù)譯為目標(biāo)端的語(yǔ)言。然后,在目標(biāo)端采用目標(biāo)端依存句法分析器進(jìn)行句法分析,構(gòu)建依存句法分析樹(shù)。由此獲得雙語(yǔ)樹(shù)庫(kù),即在源端是人工標(biāo)記的樹(shù)庫(kù),在目標(biāo)端就是自動(dòng)生成的樹(shù)庫(kù)。盡管在目標(biāo)端的句子和生成樹(shù)并不完備,但是采用這些自動(dòng)生成的雙語(yǔ)樹(shù)庫(kù),從中抽取出目標(biāo)端的依存限制來(lái)修正源端依存分析性能,實(shí)現(xiàn)雙語(yǔ)句法分析性能的改進(jìn)和提升。實(shí)驗(yàn)結(jié)果顯示該方法的表現(xiàn)則要顯著優(yōu)于基準(zhǔn)方法。更進(jìn)一步,當(dāng)使用一個(gè)更大規(guī)模的單語(yǔ)樹(shù)庫(kù),句法分析的性能也得到了較大提高。

2相關(guān)應(yīng)用

基于有監(jiān)督學(xué)習(xí)的依存句法分析模型能夠構(gòu)建句子的依存樹(shù),而依存樹(shù)則表明了詞匯間的依存關(guān)系,并且在不同問(wèn)題中表現(xiàn)了其有效性與實(shí)用性,例如關(guān)系獲取[19]、復(fù)述獲取[20]和機(jī)器翻譯[21]等。此外,近年來(lái)該類模型在解決事件抽取、產(chǎn)品評(píng)論挖掘、以及輿情分析問(wèn)題方面也發(fā)揮了主體重要作用。

在事件抽取研究方面,人們發(fā)現(xiàn)事件之間存在聯(lián)系,例如一個(gè)犯罪事件會(huì)引起調(diào)查事件,并且還將最終引發(fā)逮捕事件。由此可知,事件之間多存在一定的依賴關(guān)系。但現(xiàn)有的事件抽取方法并未考慮事件間的依存關(guān)系,而是孤立抽取每一個(gè)事件。David McClosky等[22]借助依存句法分析器構(gòu)建事件的依賴關(guān)系。首先,將事件及其對(duì)應(yīng)的謂詞轉(zhuǎn)化為依存樹(shù),樹(shù)中節(jié)點(diǎn)包括實(shí)體、事件錨和一個(gè)虛擬根節(jié)點(diǎn),各邊則表示三者間的依存關(guān)系,其中的事件錨識(shí)別常采用回歸模型運(yùn)行實(shí)現(xiàn),使用的特征包括字符級(jí)別。生成依存樹(shù)時(shí),可采用兩步排序方法:

(1)根據(jù)句法分析器得到n-best結(jié)果;

(2)采用最大熵模型實(shí)現(xiàn)第二次排序,由此將建立事件間的依存關(guān)系。

在產(chǎn)品評(píng)論分析研究方面,Zhang等[23]借助淺層依存句法分析來(lái)構(gòu)建產(chǎn)品屬性及其評(píng)價(jià)之間關(guān)系。其中包含三個(gè)步驟:

(1)根據(jù)淺層短語(yǔ)結(jié)構(gòu)分析和依存句法分析構(gòu)建淺層的依存樹(shù)??刹捎脺\層句法分析器Sundance實(shí)現(xiàn)組塊分析,并且采用Stanford句法分析器實(shí)現(xiàn)依存樹(shù)的構(gòu)建。其中,組塊作為依存樹(shù)中的節(jié)點(diǎn),邊表示組塊之間的依存關(guān)系;

(2)識(shí)別產(chǎn)品屬性和候選評(píng)價(jià)。首先,使用觀點(diǎn)詞典以過(guò)濾候選評(píng)價(jià),觀點(diǎn)詞典包含著8 221個(gè)觀點(diǎn)表達(dá)。其次,假設(shè)與候選評(píng)價(jià)越近似的組塊,自身是產(chǎn)品屬性的可能就越大,憑此識(shí)別產(chǎn)品屬性;

(3)構(gòu)建產(chǎn)品屬性和評(píng)價(jià)之間的關(guān)系??蓪㈥P(guān)系構(gòu)建視為一個(gè)分類任務(wù),而將所有的產(chǎn)品屬性和候選評(píng)價(jià)視為潛在關(guān)系??刹捎弥С窒蛄繖C(jī)分類器實(shí)現(xiàn)關(guān)系構(gòu)建,特征包括上下文和詞性?,F(xiàn)已在手機(jī)和數(shù)碼相機(jī)領(lǐng)域驗(yàn)證了此方法的可行性和有效性。

在輿情分析研究方面,Wu等[24]提出基于圖的句級(jí)情感分析模型。引入了線性規(guī)劃結(jié)構(gòu)學(xué)習(xí)方法產(chǎn)生輸入句子的圖形表示。圖中節(jié)點(diǎn)包括評(píng)價(jià)目標(biāo)、觀點(diǎn)表達(dá)和觀點(diǎn)修飾。邊表示節(jié)點(diǎn)之間的關(guān)系,具體包括觀點(diǎn)表達(dá)和修飾之間的關(guān)系,以及觀點(diǎn)表達(dá)之間的關(guān)系,并且包含單個(gè)觀點(diǎn)之間的語(yǔ)義關(guān)系。通過(guò)圖,可以將之前被忽略的各種信息融合進(jìn)來(lái)。該模型的優(yōu)勢(shì)在于,借助觀點(diǎn)之間的關(guān)系,可更加精確地判定句子的整體情感極性。Nakagawa等[25]提出借助依存分析結(jié)果實(shí)現(xiàn)中文和日文主觀句情感分類。主觀句通常包括將情感極性反轉(zhuǎn)的詞匯。包含積極(或消極)的情感詞的句子不一定表達(dá)與情感詞相同的極性。因此在情感分析中需要考慮詞匯之間的修飾對(duì)詞匯情感極性的影響,但是采用詞袋的方法很難解決這個(gè)問(wèn)題。若采用規(guī)則方法實(shí)現(xiàn)句子極性判斷,則不能從語(yǔ)料中學(xué)習(xí)情感信息,而且規(guī)則的適用性十分有限,同時(shí)需要大量的人力、物力構(gòu)建規(guī)則。嘗試借助依存句法分析解決這個(gè)問(wèn)題。句子的情感標(biāo)注不應(yīng)該只標(biāo)注句子的整體情感極性,而應(yīng)該存在句子的局部情感極性標(biāo)注,并且利用這些局部標(biāo)注信息來(lái)實(shí)現(xiàn)情感分類。在該方法中,將句子轉(zhuǎn)化為依存樹(shù)結(jié)構(gòu),再將句子的依存樹(shù)中每一個(gè)依存子樹(shù)的情感極性表示為隱式變量,整句的情感極性則可由隱式變量之間的交互而共同決定。

3結(jié)束語(yǔ)

本文重點(diǎn)總結(jié)了在構(gòu)建基于有監(jiān)督學(xué)習(xí)的依存句法分析模型時(shí)面對(duì)的語(yǔ)料匱乏和特征選擇兩個(gè)問(wèn)題的相關(guān)研究。此外,分析和總結(jié)了依存句法分析模型一體化的優(yōu)缺點(diǎn)。最后,介紹了如何應(yīng)用現(xiàn)有模型解決事件抽取、產(chǎn)品評(píng)論挖掘、以及輿情分析問(wèn)題。盡管現(xiàn)有模型在依存句法分析方面取得了一定成功,但也存在相應(yīng)不足。首先,現(xiàn)有模型需要大規(guī)模的標(biāo)注語(yǔ)料用于訓(xùn)練與評(píng)價(jià),這種需求并且隨著互聯(lián)網(wǎng)的發(fā)展日益增長(zhǎng),由此產(chǎn)生嚴(yán)重的標(biāo)注語(yǔ)料匱乏問(wèn)題,僅靠上述方法無(wú)法從根本上獲得解決。其次,盡管基于有監(jiān)督學(xué)習(xí)的依存句法分析模型性能最佳,但該模型只能在有限的數(shù)據(jù)集合上完成一次模型參數(shù)學(xué)習(xí),在其后的使用過(guò)程中無(wú)法自動(dòng)調(diào)節(jié)模型參數(shù)來(lái)適應(yīng)領(lǐng)域和用戶個(gè)人興趣的變化。經(jīng)由本文研究,可得只有借助用戶反饋,構(gòu)建連續(xù)學(xué)習(xí)的依存句法分析模型才能解決上述問(wèn)題。根據(jù)用戶反饋無(wú)間斷地調(diào)整模型參數(shù),以此適應(yīng)領(lǐng)域和用戶興趣的變化,同時(shí)用戶在使用該模型時(shí)也一并完成完了語(yǔ)料標(biāo)注工作,從而克服了標(biāo)注語(yǔ)料缺乏的困境。

參考文獻(xiàn):

[1]KBLER S, MCDONALD R, NIVRE J. Dependency Parsing [M]. Synthesis Lectures of Human Language Technologies, 2009: 1-20.

[2]NIVRE J. Dependency grammar and dependency parsing [R]. Technical Report, 2005: 1-32.

[3]HWA R, RESNIK P, WEINBERG A, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. In Natural Language Engineering, 2005,11: 311-325.

[4]SMITH D, EISNER J. Parser adaptation and projection with quasi-synchronous grammar features [C]// Proceedings of EMNLP, 2009: 822-831.

[5]JIANG Wenbin, LIU Qun. Automatic adaptation of annotation standards for dependency parsing using projected treebank as source corpus [C]//Proceedings of IWPT, 2009: 25-28.

[6]JIANG Wenbin, LIU Qun. Dependency parsing and projection based on word-pair classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Stroudsburg, PA, USA, 2010: 12-20.

[7]MIRROSHANDEL S A, NASR A. Active learning for dependency parsing using partially annotated sentences [C]//Proceedings of IWPT, 2011: 140-149.

[8]GADDE P, JINDAL K, HUSAIN S, et al. Improving data driven dependency parsing using clausal information [C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Stroudsburg, PA, USA, 2010: 657-660.

[9]AGIRRE E, BENGOETXEA K, GOJENOLA K, et al. Improving dependency parsing with semantic classes [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 699-703.

[10]HAFFARI G, RAZAVI M, SARKAR A. An ensemble model that combines syntactic and semantic clustering for discriminative dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 710-714.

[11]MARTON Y, HABASH N, RAMBOW O. Improving Arabic dependency parsing with form-based and functional morphological features [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1586-1596.

[12]CIARAMITA M, ATTARDI G. Dependency parsing with second-order feature maps and annotated semantic information [C]//Proceedings of the 10th International Conference on Parsing Technologies (IWPT '07), Stroudsburg, PA, USA, 2007: 133-143.

[13]ZHOU Guangyou, ZHAO Jun, LIU Kang, et al. Exploiting web-derived selectional preference to improve statistical dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1556-1565.

[14]LI Zhenghua, ZHANG Min, CHE Wanxiang, et al. Joint models for Chinese POS tagging and dependency parsing [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 1180-1191.

[15]HATORI J, MATSUZAKI T, MIYAO Y, et al. Incremental joint POS tagging and dependency parsing in Chinese [C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.

[16]LI Zhongguo, ZHOU Guodong. Unified dependency parsing of Chinese morphological and syntactic structures [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Stroudsburg, PA, USA, 2012: 1445-1454.

[17]BERGSMA S, CHERRY C. Fast and accurate arc filtering for dependency parsing [C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING '10), Stroudsburg, PA, USA, 2010: 53-61.

[18]CHEN Wenliang, KAZAMA J, ZHANG Min, et al. SMT helps bitext dependency parsing[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 73-83.

[19]CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), Stroudsburg, PA, USA, Article 423, 2004.

[20]SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles [C]// Proceedings of the second international conference on Human Language Technology Research (HLT '02), San Francisco, CA, USA, 2002: 313-318.

[21]DING Yuan, PALMER M. Machine translation using probabilistic synchronous dependency insertion grammars[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL '05), Stroudsburg, PA, USA, 2005: 541-548.

[22]MCCLOSKY D, SURDEANU M, CHRISTOPHER D. Manning. event extraction as dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1626-1635.

[23]ZHANG Qi, WU Yuanbin, LI Tao, et al. Mining product reviews based on shallow dependency parsing [C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR '09), New York, NY, USA, 2009: 726-727.

第7篇

學(xué)科館員是指系統(tǒng)掌握?qǐng)D書館學(xué)專業(yè)知識(shí),并較為熟悉乃至精通某一學(xué)科或幾門圖書館專業(yè)知識(shí)以外的學(xué)科知識(shí),能深入從事文獻(xiàn)信息開(kāi)發(fā)和讀者咨詢服務(wù)等圖書館工作的高層次圖書館館員。學(xué)科館員制度是指派學(xué)科館員與某一學(xué)科專業(yè)人員進(jìn)行對(duì)口聯(lián)系,負(fù)責(zé)該學(xué)科專業(yè)資源的組織、加工,并提供該學(xué)科資源的導(dǎo)航,主動(dòng)為該學(xué)科用戶提供有針對(duì)性的文獻(xiàn)資源服務(wù)并進(jìn)行用戶培訓(xùn),即為特定讀者提供深層次針對(duì)的一些相關(guān)規(guī)定[1]。

一、學(xué)科館員在國(guó)內(nèi)外的起源現(xiàn)狀

德國(guó)學(xué)科館員制度最早可以追溯到19世紀(jì)早期;20世紀(jì)60年代早期,平均每個(gè)德國(guó)研究型大學(xué)圖書館設(shè)有4~15名學(xué)科館員;至20世紀(jì)70年代中期,德國(guó)大學(xué)圖書館一般都設(shè)有8―21名學(xué)科館員。英國(guó)的學(xué)科館員在20世紀(jì)初(1901―1922年)引進(jìn)倫敦大學(xué),在20世紀(jì)30年代被利茲大學(xué)采用并輻射到其它學(xué)校;至1975年,已有20個(gè)大學(xué)圖書館建立了此項(xiàng)制度。在美國(guó),1940年以前,哈佛大學(xué)等多家圖書館就已經(jīng)雇用了早期的學(xué)科館員――區(qū)域問(wèn)題參考館員;1950年,美國(guó)的內(nèi)不拉斯加大學(xué)圖書館設(shè)立分支圖書館并配備學(xué)科館員進(jìn)行管理,才是學(xué)科館員制度最公開(kāi)、最正式的建立;1981年,美國(guó)卡內(nèi)基―梅隆大學(xué)圖書館率先推出了“跟蹤服務(wù)”(track service)。此外,俄亥俄大學(xué)圖書館相繼推出了“網(wǎng)絡(luò)化館員免費(fèi)導(dǎo)讀服務(wù)”(network librarian and free guide)。隨后,許多歐美國(guó)家的大學(xué)圖書館和研究型圖書館也紛紛推行了這種服務(wù)模式,并得到圖書館與讀者的普遍認(rèn)同[2]。

在我國(guó),學(xué)科館員制度起步比較晚,我國(guó)的學(xué)科館員制度是在借鑒國(guó)外學(xué)科館員制度成功實(shí)施的基礎(chǔ)上發(fā)展起來(lái)的。1998年清華大學(xué)圖書館率先推行學(xué)科館員制度,西安交通大學(xué)、北京大學(xué)、南開(kāi)大學(xué)等圖書館相繼開(kāi)展[2]。經(jīng)過(guò)10多年的發(fā)展,目前國(guó)內(nèi)已有百余家高校圖書館開(kāi)展此項(xiàng)目,學(xué)科館員制在國(guó)內(nèi)大學(xué)圖書館中逐漸推廣并受關(guān)注,已逐步進(jìn)入正軌。

目前公共圖書館在數(shù)字化、信息化的進(jìn)程中,得到了快速的推進(jìn),已然站在了高校與科研圖書館同一水平線上,加之,公共圖書館文化信息資源共享工程得了很好的推進(jìn),這些為推動(dòng)學(xué)科館員制度提供了有力的支撐。

二、公共圖書館建立學(xué)科館員制度的必要性

在公共圖書館學(xué)科館員服務(wù)方面也有成功例子,例如國(guó)家圖書館已經(jīng)擁有一批具備法律學(xué)科館員,為用戶提供針對(duì)性極強(qiáng)的資料;建立輿情監(jiān)測(cè)分析系統(tǒng),幫助企業(yè)公司了解輿論動(dòng)向,以制定正確的應(yīng)對(duì)策略,引導(dǎo)輿論正向發(fā)展輿情分析;同時(shí)專門為立法和決策部門提供服務(wù)[3]。上海圖書館開(kāi)展了對(duì)大型企業(yè)和中小企業(yè)的情報(bào)服務(wù),例如:海爾、飛躍電視機(jī)廠和“三槍”等單位,幫助企業(yè)在專利競(jìng)爭(zhēng)中贏得國(guó)際對(duì)手;同時(shí)提出建設(shè)行業(yè)情報(bào)平臺(tái),為政府經(jīng)濟(jì)決策提供信息服務(wù)。這都是取決于上海圖書館人員的專業(yè)背景、理念和經(jīng)驗(yàn)比較強(qiáng)以及科技文獻(xiàn)館藏品種全的緣故[4]。浙江圖書館不僅為大型企業(yè)提供專題服務(wù),如:國(guó)內(nèi)飲料行業(yè)知名企業(yè)娃哈哈集團(tuán)公司等企業(yè);而且還專門開(kāi)設(shè)微小企業(yè)專題服務(wù)[5]。早在1988年深圳圖書館編發(fā)了“窗口信息”,內(nèi)容涉及電子、自行車、飲料、食品、珠寶、出版、環(huán)保、花卉等十二個(gè)專業(yè),取得較好的社會(huì)、經(jīng)濟(jì)效益[6]。他們是公共圖書館行業(yè)信息服務(wù)的領(lǐng)頭羊,給我們做出了好的榜樣。

目前,公共圖書館推行學(xué)科館員制則少有,究其原因是:(1)公共圖書館讀者眾多,各行各業(yè)、各個(gè)領(lǐng)域的讀者需求龐雜,由于受組織結(jié)構(gòu)、人員配置等諸多因素,公共圖書館學(xué)科館員甚少,達(dá)不到眾多領(lǐng)域都設(shè)有學(xué)科館員;(2)公共圖書館的學(xué)科館員,大多由專業(yè)知識(shí)不強(qiáng)的人員組成,知識(shí)能力參差不齊,加上部分領(lǐng)導(dǎo)對(duì)學(xué)科館員工作不夠重視,以致于公共圖書館大多只是停留在文獻(xiàn)傳遞的參考咨詢這個(gè)層面上,學(xué)科館員制度流于形式,服務(wù)沒(méi)有真正落到實(shí)處。

為了滿足眾多的讀者需求,更好地為大眾服務(wù),需要公共圖書館多樣化、個(gè)性化和深層次的知識(shí)服務(wù),由此,公共圖書館實(shí)行學(xué)科館員制,迫在眉睫。

三、公共圖書館學(xué)科館員制度的發(fā)展模式

1.建立學(xué)科館員制度

目前,國(guó)家并沒(méi)有政策性的規(guī)定這一制度圖書館必須建立。為了使學(xué)科館員的工作開(kāi)展順利,領(lǐng)導(dǎo)的認(rèn)識(shí)和決心是密切相關(guān)的;其關(guān)鍵之一是:取決于館領(lǐng)導(dǎo)對(duì)學(xué)科館員制度的重視,以及對(duì)圖書館開(kāi)展個(gè)性化服務(wù)的必要性的高度認(rèn)識(shí),應(yīng)結(jié)合本館的實(shí)際情況,在人才引進(jìn)和培養(yǎng)、管理體制上保證學(xué)科館員制度的順利建立,并盡可能地完善學(xué)科館員制度;其二:圖書館需要當(dāng)?shù)卣娜肆?、?cái)力及物力的大力支持,因?yàn)閷W(xué)科館員制度與軟硬件設(shè)施、優(yōu)秀的人才以及雄厚的財(cái)力支持是分不開(kāi)的,否則將事倍功半。

2.學(xué)科館員的隊(duì)伍建設(shè)

根據(jù)各方面學(xué)科服務(wù)工作的需要,合理配置學(xué)科館員的隊(duì)伍結(jié)構(gòu)、崗位,確定學(xué)科館員隊(duì)伍建設(shè)的目標(biāo);在人力資源方面,我們可通過(guò)人才引進(jìn)和現(xiàn)有館員的培訓(xùn)采取以下三種方式:一、可以在本館挑選業(yè)務(wù)素質(zhì)好,能夠勝任某一科咨詢、服務(wù)的同志擔(dān)任學(xué)科館員;二、引進(jìn)復(fù)合型人才,引進(jìn)具有圖書館情報(bào)學(xué)知識(shí)背景又具備其他學(xué)科知識(shí)的雙學(xué)位人才;三、聘請(qǐng)資深離退專家或在職專業(yè)人員擔(dān)任兼職學(xué)科館員,這是最快捷有效的方法。

3.學(xué)科館員的素質(zhì)培養(yǎng)

學(xué)科館員除了具有淡泊名利的修養(yǎng)和無(wú)私奉獻(xiàn)的職業(yè)道德、“讀者第一,用戶至上”的服務(wù)理念之外,還應(yīng)具備過(guò)硬的業(yè)務(wù)知識(shí)水平。

為了能從大量的龐大無(wú)序的信息源中提取、鑒別、篩選、整理、挖掘出讀者要求的文獻(xiàn)信息,學(xué)科館員必須要熟悉相關(guān)學(xué)科數(shù)據(jù)庫(kù)資源的檢索方法與技巧,熟悉圖書館各部門的基本業(yè)務(wù)工作內(nèi)容和流程,這樣才能為用戶提供學(xué)科性專業(yè)信息資源導(dǎo)航。

要開(kāi)展文獻(xiàn)信息的深層次開(kāi)發(fā),學(xué)科館員必須緊密跟蹤對(duì)口學(xué)科的國(guó)內(nèi)外學(xué)術(shù)發(fā)展動(dòng)態(tài),對(duì)熱點(diǎn)問(wèn)題、新觀點(diǎn)、新動(dòng)態(tài)等進(jìn)行搜集并分析研究,做出知識(shí)性的評(píng)價(jià),編制二、三次文獻(xiàn),為用戶提供參考。

據(jù)統(tǒng)計(jì),網(wǎng)上90%的信息資源是英文資源。熟練地掌握一門外語(yǔ)到多門成為圖書館工作的必需。這要求學(xué)科館員既要有一定的外語(yǔ)水平,也要有一定的計(jì)算機(jī)操作能力和網(wǎng)絡(luò)知識(shí)。此外,學(xué)科館員還應(yīng)能提供外文資料的翻譯服務(wù)。

4. 學(xué)科館員的激勵(lì)機(jī)制

在市場(chǎng)經(jīng)濟(jì)條件下,僅僅靠宣傳奉獻(xiàn)精神或職業(yè)道德,已無(wú)法從根本上促使學(xué)科館員提高水平的服務(wù)。因此,在完善學(xué)科館員制度的同時(shí),還必須對(duì)分配制度進(jìn)行改革,否則館員制度的實(shí)施效果會(huì)打折扣。

有些中小型圖書館疏于對(duì)科學(xué)館員工作的激勵(lì),很大程度地抑制了學(xué)科館員的發(fā)展。

馬斯洛的需要層次論把人類的需要分為五個(gè)層次:生理需要、安全需要、社會(huì)需要、尊重需要、自我實(shí)現(xiàn)的需要。其中自我實(shí)現(xiàn)的需要是指通過(guò)自己努力,實(shí)現(xiàn)自己對(duì)生活的期望,從而對(duì)生活和工作感到很有意義。公共圖書館根據(jù)學(xué)科館員的需求與動(dòng)機(jī),有針對(duì)性地采用激勵(lì)方法激發(fā)全體學(xué)科館員的工作熱情,充分調(diào)動(dòng)主動(dòng)性和創(chuàng)造性。

建立考核制度,對(duì)學(xué)科館員進(jìn)行上崗后,加強(qiáng)人力資源管理,提高工作效率的重要環(huán)節(jié),認(rèn)真做好平時(shí)、年度、聘期內(nèi)的考核工作,將考核結(jié)果與職務(wù)的升降、館員的任職掛鉤,逐步形成一個(gè)“能者上、平者讓、庸者下”的有效競(jìng)爭(zhēng)機(jī)制,以激發(fā)學(xué)科館員的主觀能動(dòng)性。

圖書館應(yīng)結(jié)合自身實(shí)際,建立科學(xué)規(guī)范的激勵(lì)制度,極大地調(diào)動(dòng)積極性。只有這樣,才能吸引人才,并使其努力地學(xué)習(xí),盡力地工作。

5.學(xué)科館員的選拔、培訓(xùn)機(jī)制以及帶動(dòng)作用

對(duì)學(xué)科館員不斷地進(jìn)行知識(shí)信息素養(yǎng)的補(bǔ)充、更新、拓展和提高培訓(xùn),則是開(kāi)發(fā)內(nèi)部的人力資源。

一,根據(jù)學(xué)科館員崗位設(shè)置要求,在全館范圍內(nèi)進(jìn)行考試并結(jié)合工作業(yè)績(jī),選拔出優(yōu)秀人才進(jìn)行脫產(chǎn)或不脫產(chǎn)培訓(xùn),進(jìn)一步提高他們的業(yè)務(wù)水平和工作技能,形成人才梯隊(duì),以保持學(xué)科服務(wù)的連續(xù)性和穩(wěn)定性。可以在現(xiàn)有館員中選派業(yè)務(wù)水平高、責(zé)任心強(qiáng)者攻讀第二學(xué)位,使其通過(guò)系統(tǒng)的學(xué)習(xí)掌握對(duì)口學(xué)科的專業(yè)知識(shí),從而勝任學(xué)科化服務(wù)工作;二,強(qiáng)化繼續(xù)再教育,建立人才資源建設(shè)的長(zhǎng)效機(jī)制。為館員提供多種學(xué)習(xí)交流和業(yè)務(wù)培訓(xùn)的機(jī)會(huì),參與用戶科研活動(dòng)、專家講座及學(xué)術(shù)交流會(huì),讓館員及時(shí)掌握學(xué)科的前沿動(dòng)態(tài)。三,與兄弟單位進(jìn)行交流、溝通,互相學(xué)習(xí),取長(zhǎng)補(bǔ)短。四、貫穿人的一生是自學(xué),自學(xué)是繼續(xù)再教育途徑的補(bǔ)充。針對(duì)自己的知識(shí)水平不斷地學(xué)習(xí)、不斷地充實(shí)自己,擴(kuò)大知識(shí)面,完善自我。

學(xué)科館員是圖書館服務(wù)水平的標(biāo)志,是圖書館與外界聯(lián)系的橋梁;同時(shí)學(xué)科館員對(duì)內(nèi)也是各項(xiàng)業(yè)務(wù)工作的核心,是圖書館服務(wù)的中堅(jiān)力量,擔(dān)負(fù)著業(yè)務(wù)工作的指導(dǎo)和培訓(xùn)的重任,帶動(dòng)全館員工更好地為經(jīng)濟(jì)建設(shè)服務(wù)。

四、結(jié)束語(yǔ)

學(xué)科館員制度在我國(guó)公共圖書館工作中既是一種新的服務(wù)模式,也是管理上的一種創(chuàng)新行為。公共圖書館應(yīng)根據(jù)自身的實(shí)際情況,因地制宜地開(kāi)展學(xué)科館員服務(wù)工作,拓寬圖書館的服務(wù)范圍,提升服務(wù)層次,走出一個(gè)具有中國(guó)特色的因館制宜的學(xué)科館員之路。

參考文獻(xiàn):

[1]胡越主編.圖書館服務(wù)的學(xué)科化與個(gè)性化[M].北京市:首都師范大學(xué)出版社,2008.10:525

[2]譚浩娟.中外圖書館學(xué)科館員制度的比較與啟示.科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì).2006,(1):36-37

[3]趙紅.國(guó)家圖書館學(xué)科館員和學(xué)科化服務(wù)[J].法律文獻(xiàn)信息與研究.2010,(3):22-27

[4]上海圖書館學(xué)會(huì).挖掘知識(shí)價(jià)值:公共圖書館為企業(yè)的信息服務(wù)[EB]. [2007-11-19].[2013-10-15]

http:///tsgxh/list/list.aspx?id=3929

[5]范沈姍.企業(yè)競(jìng)爭(zhēng)情報(bào)一圖書館信息服務(wù)的新熱點(diǎn)[J].圖書館理論與實(shí)踐.2001,(1):22-26,34

[6]張廷杰.深圳圖書館臺(tái)港澳文獻(xiàn)資源的建設(shè)與開(kāi)發(fā)[J].圖書館論壇.1993,(3):59-62

作者簡(jiǎn)介: