【摘 要】
:
随着科技的迅速发展,文字信息快速增长,如何处理文本并从中挖掘有价值信息成为现代科学研究的重点,文本分类是其中一个重要的研究方向。本文对文本分类过程进行研究,以词向量为基础改进文本分类方法,提高文本分类准确率。首先,针对文本数据表示中存在的特征维度较高和语义关系不明确的问题,用词向量的方式表示词汇,词向量的维度低且在其训练过程中充分利用了文本的上下文信息,从而使词向量具有丰富的语义信息。其次,将文本
论文部分内容阅读
随着科技的迅速发展,文字信息快速增长,如何处理文本并从中挖掘有价值信息成为现代科学研究的重点,文本分类是其中一个重要的研究方向。本文对文本分类过程进行研究,以词向量为基础改进文本分类方法,提高文本分类准确率。首先,针对文本数据表示中存在的特征维度较高和语义关系不明确的问题,用词向量的方式表示词汇,词向量的维度低且在其训练过程中充分利用了文本的上下文信息,从而使词向量具有丰富的语义信息。其次,将文本统计特征和语义特征相结合,提出了互信息度加权词向量的文本分类方法。互信息度体现了文本的统计特征,词向量体现了文本的语义特征,用互信息度加权文本中特征词的词向量并对其求和取平均作为文本向量,从多个维度提取文本特征,再用支持向量机SVM和决策树DT等算法对文本分类,提高文本分类准确率。再次,针对文本具有的序列化特征,利用循环神经网络RNN结构自动提取文本特征,改进RNN文本分类过程,提出了加权循环神经网络文本分类方法W-RNN。自动加权求和每个词向量的中间输出结果形成文本表示向量,进一步利用神经网络进行分类,从更高层提取文本整体信息,获取文本序列化语义特征,提升了文本分类准确率。最后,针对上述所提方法,在新闻数据集上对文本分类方法进行实验,通过实验验证本文所提方法的有效性并对其性能进行分析。
其他文献
随着社会的转型,当代中国学校德育面临危机。德育危机表征上是学校德育在实践中遇到了运行性障碍而深陷困难境遇,实质上却是学校德育遵循的传统范式不适应社会的转型,丧失了存在
本文运用顺应论探讨广告语言模因现象,阐述了广告模因如何顺应广告受众的心理世界、社交世界、物理世界以及语言语境进行广告模因复制及传播,以实现产品的商业价值的问题.
走在樟木街头,不仅能看到藏族人、汉族人和当地的土著居民夏尔巴人,还有许多戴着小帽的尼泊尔商人、穿着莎丽的尼泊尔妇女和衣衫褴褛的尼泊尔背夫,间或还有些西方旅游者穿行
计算机网络通信技术飞跃式的发展使我国出版业经历了一场巨大的变革,而电子出版物以其得天独厚的廉价和方便共享的特点不断地蚕食着纸质出版物的市场份额,纸质出版物面临空前
研究了以活性炭为载体固载的MnAc、FeCl3和MnAc-FeCl3复合催化剂在微波诱导条件下对食醋的催陈作用.正交试验表明,经过活化处理的MnAc或FeCl3均可使食醋中的酯含量提高,但MnA
腋臭是整形外科门诊常见疾病,确切病因尚不清楚,一般认为与顶泌腺异常发育和分泌有关。我们自2000年10月~2012年2月应用微创手术对433例外院腋臭治疗复发患者进行治疗,手术后4
[目的]探讨出院后继续教育与生活指导课程对慢性心力衰竭(CHF)病人的影响。[方法]将152例CHF病人随机分为实验组和对照组,实验组76例在接受常规出院指导的基础上,实施出院后继
用γ-氨丙基三乙氧基硅烷(KH-550)将SBA-15分子筛接枝到氧化石墨烯上制备功能填料,并将其填充到水性环氧树脂中制备复合涂层。采用FTIR、XRD、氮气吸附脱附和TEM对填料进行了
目的分析石河子地区前列腺穿刺活检阳性的相关危险因素,建立Logistic回归预测模型。方法回顾性分析179例经直肠超声引导行前列腺穿刺活检患者的临床资料,采用单因素分析和Log
泽漆为大戟科大戟属植物,是一种常见的农田杂草。泽漆提取物具有一定的杀菌、抑茵和杀虫活性,在中医药及农业方面已开展了许多研究。本文对泽漆的化学成分、中医药及临床应用