【摘 要】
:
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间
【机 构】
:
华北电力大学计算机科学与技术学院,北京大学计算机系
【基金项目】
:
国家自然科学基金资助项目(90412010,70572090);NSCF(60573166);华北电力大学博士学位教师科研基金资助项目(H0585)
论文部分内容阅读
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。
其他文献
目的 :探讨用硝苯地平缓释片治疗高血压合并糖尿病的临床效果。方法 :对2013年8月~2014年12月期间我院收治的80例高血压合并糖尿病患者的临床资料进行回顾性研究。将这80例患
近年来,微表处作为一种快速高效的路面修补技术,已得到越来越多的应用,但同时也发现了许多问题,如抗裂性差、填补车辙时本身容易出现车辙等问题。为了解决这一问题,通过在微
农业是国民经济的基础和支柱产业,在现代化科技的武装下,农村经济体发生巨大变化,各类农民合作经济组织获得蓬勃发展。随着农村经济成分和资产类别复杂化,经济往来的主体与形
以水稻精确定量栽培理论为指导,通过应用仲元公司技术体系和公司生产的土壤调理剂、植物氨基酸肥料和营养调理剂,旨在研究三系杂交粳稻新组合常优粳6号的超高产栽培技术,以为
近些年,随着互联网技术与计算机技术的不断发展和普及,其所具有的实时性、高效性、开放性的特点,给大众在工作和生活中带来了诸多便利。在这样的大背景下,传统的企业财务管理
“教学仪器产品情报检索软件”是用DBASE—Ⅱ语言编制的,用于对教学仪器产品情况进行检索的应用软件。此软件具有对数据进行增加、删除、修改、分类、列表、统计、打印和对数
草本芳香植物兼有芳香、观赏、药用、食用等属性,加之其具有产品附加值高、加工过程无污染、栽培过程有机化等特点,近年来,成为休闲农业园区中的新宠。立足于草本芳香植物的
目的研究胰激肽原酶在早期糖尿病足患者治疗中的应用效果。方法选取2018年1—9月收治的64例早期糖尿病足患者,采用均衡分组法分为参照组和研究组,各32例。参照组采用前列地尔
活尔夫罔·阿玛杜斯·莫扎特(1756—1791)是著名的奥地利古典乐派作曲家,被誉为“音乐神童”.在他短暂的一生中创作了大量的音乐作品,主要题材有:交响曲、歌剧、钢琴
<正> 2月20日至21日,2003年福建省审计工作会议在福州西湖宾馆隆重召开。全省各设区的市审计局局长、纪检组长和综合科长,各县(市、区)审计局局长,省厅领导和各处室、厅属事