【摘 要】
:
利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语
【出 处】
:
杭州电子科技大学学报(自然科学版)
论文部分内容阅读
利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理.
其他文献
随着我国经济发展及用电量的提高,各地区配电变压器的使用数量也在不断增加,变压器被盗事件时常发生,这引起了供电企业的重视,茌平公司通过近几年对配电变压器加装防盗锁的方
神圣感体验对于社会文明发展和个人成长具有不可替代的独特意义,而具有轴对称特性的杰出建筑往往是催生这种体验的催化剂。该文通过具体案例,从建筑学、哲学、心理学和几何学等
在中学语文教学中,要提高学生的学习能力,教师应充分重视课堂教学这个主战场,而课堂教学效率的提高,关键在于教师。课堂教学中,制定明确的学习目标,巧妙选择教学切入角度和激发学生
220k V华润电厂上网线路是由华润电厂-220k V猇亭变(简称J线)、华润电厂-220k V杨家湾变(简称Y线)两条线路组成。该项目由宜昌供电公司电网建设中心承建,其中Y线、J线8#~9#间同时
对于体育赛事来说,节目主持人起到了关键的作用。对于体育专业中播音主持方向人才培养来说,除了播音主持的基本专业素养训练外,要想成为合格的体育节目主持人,还需要掌握丰富
随着中国经济的快速发展,对人才的要求也越来越多,招聘周期过长严重影响了企业业务的发展,传统的电子就业系统人工操作过多,需要花费很多人工操作时间以及存在大量的等待时间
当前,国内经济发展较快,科学技术突飞猛进,在这种大环境背景下,10kV配电网技术也取得了很大成绩,尤其是在电网系统中的应用更为广泛。本文简单介绍了10kV配电网技术的发展现状,在此
文章以提高大学生的普通话水平和口才能力为出发点,以兰州石化职业技术学院开设的“普通话与口才训练”实训课为研究平台,分析了大学生普通话与口才能力的现状,指出了造成这种现