基于均衡段落和分话题向量的新闻热点话题检测研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:owenming521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力.[方法]在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述.[结果]WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%.[局限]关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度.[结论]本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性.
其他文献
[目的]围绕“通过科学文献中有关知识主张的文本语言学特征,测度医学知识的不确定性”这一主题,阐述其理论基础、研究进展及其预期应用场景.[文献范围]以同时包含“不确定”
1970年11月9日,戴高乐由于心脏病猝发去世。仅差两个星期。他就整整80岁了。他死前并没有任何疾病和不适的迹象。他在逝世那天,还像往常一样撰写回忆录。 11月10日,爱丽舍宫
[目的]为促进科研人员间的交流合作,实现科研效率最大化,提出一种改进的翻译模型TransTopic,用于干细胞领域的科研合作预测研究.[方法]TransTopic旨在将科研合作网络中的节点
本文探讨了电子商务和ERP之间的关系,给出了二者之间的整合模型,并对整合的前景进行了一些预测。 This article explores the relationship between e-commerce and ERP, pr
随着社会主义革命和社会主义建设的深入发展,山区农村建设了通信网,载波机成群地通向区区社队.因此,电源供给需要得多,耗电量大,很不节省,特别是电路空闲时,电源无偿消耗,同
由于英汉文化的差别,使用英语国家的人和中国人对同一动物名词产生的联想有种种异同情况。针对这一问题,笔者列举了许多现实类动物名词,将它们的联想意义分为六种类型:(1) 相