摘要:當(dāng)前文本主題獲取方法大多依靠單一關(guān)聯(lián)分析,不能全面分析可獲取信息,難以準(zhǔn)確獲取科技發(fā)展主題。科技文獻(xiàn)的主題詞、作者和引文之間蘊含了以研究主題內(nèi)容為紐帶的語義關(guān)聯(lián)關(guān)系,主題詞共現(xiàn)關(guān)系、引文關(guān)系和合著關(guān)系分別從不同的角度展現(xiàn)了主題關(guān)聯(lián)關(guān)系。因此,本文根據(jù)主題詞之間語義關(guān)系距離的遠(yuǎn)近,將主題識別中主題詞關(guān)聯(lián)分為基礎(chǔ)關(guān)系、強化關(guān)系和新增關(guān)系,在此基礎(chǔ)上提出面向主題識別的多元關(guān)系抽取及關(guān)系融合方法;并以基因工程疫苗的研發(fā)與制備領(lǐng)域為例進(jìn)行領(lǐng)域?qū)嵶C分析,利用PathSelClus算法實現(xiàn)基于多元關(guān)系融合的主題聚類,通過對比實驗證明多元關(guān)系融合可以有效提高實證領(lǐng)域的文本主題聚類效果,而未來多關(guān)系融合主題識別則是需要重點關(guān)注的問題。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社