基于文本重构的网络话题检测模型研究

来源 :南昌航空大学学报(自然科学版) | 被引量 : 0次 | 上传用户:wangqianzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Single Pass聚类算法是话题发现中最常用的文本聚类算法,且广泛地用于话题检测和跟踪中。但它的聚类结果并不理想,此外,Single Pass在对报道与话题进行相似度匹配时导致了处理速度的降低。基于这2个问题,本研究提出了一种文本重构思想。即通过对论坛或网页信息的再组织,将和话题相关的主要信息集中在一起形成主题块,其余的部分形成细节块。在此基础上,对Single Pass聚类算法进行了改进。实验结果证明:改进的Single Pass聚类算法有效地解决了文本特征矩阵稀疏的问题,并能够准确并及时地识别网络
其他文献
目的:通过调查分析贵阳主城区社区卫生服务机构在提供老年卫生服务方面与社区老年居民对相关卫生服务的利用与需要情况,了解贵阳主城区社区老年卫生服务供需现况,为基层医疗
在治理均衡观下,引入独立董事表现为公司因道德风险而对外部监督的依赖。以2002年至2004年中国的A股上市公司为研究样本,本文发现股权过于集中会削弱业务复杂度和独立董事行
本文以近五年来广东省某区(以下简称"A"区)人民检察院办理的渎职侵权犯罪案件现状为视角,对该区渎职犯罪的特点、问题进行分析,提出了预防和抑制渎职犯罪的一些对策。
金融是一国经济的核心,完善的金融监管法律制度是有效防范金融风险,稳定一国金融市场秩序的前提。目前,中国金融分业监管的法律制度日益受到WTO相关机制的挑战,面临着国际金
体验式教学是指根据学生的认知特点和规律,通过创造实际的或重复经历的情境和机会,呈现或再现、还原教学内容,使学生在亲历的过程中理解并建构知识、发展能力、产生情感、生
文章首先总结并评述了当前交通运输与区域经济发展的三种因果关系,然后利用Granger因果检验方法,检验了我国东中西部地区和30个省份交通运输发展(交通运输网络密度)与区域经
本文采用文献资料法、专家访问法、数理统计法,通过查阅竞技体操技术发展的相关资料,结合27届悉尼奥运会以来各项国际重大比赛中我国男子体操队取得的成绩,分析当今竞技体操技术
心电图中的P波是临床诊断中分析心律失常,判断心房病变的重要参考依据。但在心电信号的自动分析中,P波常由于特征不明显,形态、位置多变等原因,难以直接被准确检测。针对上述
讲到当代俄罗斯的钢琴作品,人们经常能想到的大约是斯克里亚宾、拉赫玛尼诺夫、普罗柯菲耶夫等人的作品,但是人们不太熟知还有一位杰出的作曲家———一生中除了创作百十余首歌
降低成本是企业的创新与管理的一个重要的主题,随着社会环境的巨大变化,企业在降低成本的理念上也是应该与时俱进的。在信息技术不断发展的今天更应该如此。对于企业来说,成