《計算機應用研究》|Application Research of Computers

基于關鍵詞相似度的短文本分類方法研究

Research on short text classification based on keyword similarity

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 張振豪,過弋,韓美琪,王吉祥
機構 1.華東理工大學 信息科學與工程學院,上海 200237;2.石河子大學 信息科學與技術學院,新疆 石河子 832003;3.大數據流通與交易技術國家工程實驗室——商業智能與可視化技術研究中心,上海 200436
統計 摘要被查看 次,已被下載
文章編號 1001-3695(2020)01-005-0026-04
DOI 10.19734/j.issn.1001-3695.2018.04.0440
摘要 在傳統的文本分類中,文本向量空間矩陣存在維數災難和極度稀疏等問題,而提取與類別最相關的關鍵詞作為文本分類的特征有助于解決以上兩個問題。針對以上結論進行研究,提出了一種基于關鍵詞相似度的短文本分類框架。該框架首先通過大量語料訓練得到word2vec詞向量模型;然后通過TextRank獲得每一類文本的關鍵詞,在關鍵詞集合中進行去重操作作為特征集合。對于任意特征,通過詞向量模型計算短文本中每個詞與該特征的相似度,選擇最大相似度作為該特征的權重。最后選擇K近鄰(KNN)和支持向量機(SVM)作為分類器訓練算法。實驗基于中文新聞標題數據集,與傳統的短文本分類方法相比,分類效果約平均提升了6%,從而驗證了該框架的有效性。
關鍵詞 詞向量; 特征選擇; 短文本分類; 特征權重
基金項目 國家自然科學基金資助項目(61462073)
上海市科學技術委員會項目(17DZ1101003,18511106602)
本文URL http://www.048285.live/article/01-2020-01-005.html
英文標題 Research on short text classification based on keyword similarity
作者英文名 Zhang Zhenhao, Guo Yi, Han Meiqi, Wang Jixiang
機構英文名 1.School of Information Science & Engineering,East China University of Science & Technology,Shanghai 200237,China;2.School of Information Science & Technology,Shihezi University,Shihezi Xinjiang 832003,China;3.Business Intelligence & Visualization Research Center,National Engineering Laboratory for Big Data Distribution & Exchange Technologies,Shanghai 200436,China
英文摘要 In order to cope with the problem of data sparsity and curse of dimensionality in text classification, this paper proposed a short text classification framework by taking keyword as features and assigning keyword similarity as feature weight. First, it trained a word2vec model with large corpus data, then got keywords of each category text by textrank. And it selected unique keywords from the keywords collection as features. For each feature, it calculated the similarity of words in the short text by word2vec model, and assigned the maximum similarity as the weight of the feature. Finally, it chose KNN and SVM as classifier. Experiments on dataset of Chinese news headlines demonstrate that the accuracy outperforms other usual methods by 6%.
英文關鍵詞 word embedding; feature selecting; short text classification; feature weighting
參考文獻 查看稿件參考文獻
 
收稿日期 2018/4/27
修回日期 2018/7/2
頁碼 26-29
中圖分類號 TP391.1
文獻標志碼 A
012曾道人三尾中特书