基于LDA模型和密度聚类的新闻话题检测

来源 :河北大学 | 被引量 : 0次 | 上传用户:jackzhao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着互联网的快速发展和网络终端的多样化,网络新闻报道快速增长,新闻信息的结构变得更加复杂。传统的新闻收集、整理、组织和分析工作很难全面的了解新闻报道之间的联系,无法从全局的角度判断新闻报道的发展方向,话题检测技术应运而生。新闻话题检测的主要任务是从大量新闻中自动检测出潜在的话题,同时话题检测也可以对突发新闻事件进行检测并全面了解事件的发展情况。话题检测对舆情监测、信息安全、商业金融等领域都有重要作用。本文针对新闻数据的话题检测进行研究,主要工作如下:(1)将LDA模型与基于密度的聚类算法相结合。LDA模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理的体现新闻主题特征;基于密度聚类算法能够更有效的挖掘话题中新闻的结构。(2)基于新闻话题的时间延续性,给出了改进的T-OPTICS算法。该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响;改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性。(3)针对话题检测任务的特点,给出了一种基于OPTICS可达图的自动簇识别方法。该方法以话题是一个核心事件或活动以及与其相关的事件或活动的定义为依据,首先在OPTICS可达图上识别所有凹区间作为活动或事件,然后抽取事件(活动)的核心特征,最后合并核心特征相近的连续事件(活动),得到需要检测的话题集合。该方法克服了现有的簇识别方法参数选择困难的缺点。基于TDT4数据集的实验表明,上述研究工作能够快速有效的发现新闻中的话题。
其他文献
高压输电线路由于在野外长期受到机械张力,电气闪络,材料老化的影响而产生损伤,对电力系统的运行造成严重威胁,因此必须对输电线路定期巡检。目前主要的输电线路巡检方法有人工巡检和直升机巡检,由于输电线路特殊的工作环境,人工巡检方法劳动强度大,巡检精度低,工作人员的危险性高;直升机巡检相对提高了巡检效率和精度,但增加了技术难度,且运行费用较高。输电线路巡检机器人是目前研究的热点,能代替人工和直升机进行线路
高性能计算一直都是现代计算机发展的前沿方向,而随着计算机硬件技术的不断发展,原来一直应用在大型机和小型机中的多核技术在PC和小型服务器中开始越来越流行,这就给传统的
随着近年来现代网络技术突飞猛进的发展,互联网络的总体规模和业务类别都发生了很大改变,网络核心路由交换设备在带宽和QoS保障等性能方面都面临着严峻挑战,具有QoS保障的T比特
随着Internet的不断发展,互联网上的信息越来越多,互联网也随之成了人们获取信息的巨大资料库。但是网上的信息错综复杂,人们在搜索信息的时候很容易查到一些相近却不相关的
图像配准是图像处理研究的一个重要方面,配准技术是当前发展较为迅速的技术之一。近年来,随着计算机可视化的发展,图像配准的应用日趋广泛,其应用领域包括医学中的疾病诊断、
随着互联网不断发展,如何对异地诸如计算机,存储设备,数据库,软件应用,科研数据等资源实现有效地共享一直是人们讨论的话题。传统的互联网主要提供以链接和电子邮件方式为主
2018年我国电力行业将遇到新的挑战和任务,持续增强电网建设,保证和提高电网安全可靠性和运行经济性是电网工作的重中之重。而精准的电网母线负荷预测将直接影响到电网安全预警分析、电网输送能力计算、运行计划方式安排、发电计划编制、安全约束调度、无功优化调度以及最优潮流分析结果等,对节能发电调度中的有阻塞管理和安全校核等重要环节也起着重要的基础性作用。目前已经有大量学者对母线负荷预测模型做出了研究,但都存
学位
由于大型线性方程组在化学工程、天气预报、数值方法等领域中都有广泛应用,使得对其求解的研究一直是个热点。随着科学技术的迅猛发展,人们所需要处理的数据量迅速增长。虽然
在科技不断进步的今天,伴随着信息应用领域如多媒体信息技术的迅速发展,以及Internet技术的日益普及,数字图像的来源可谓越来越广泛。面对如此大规模的图像数据库数据,我们不
近年来,随着在线音乐库的蓬勃发展,用户希望通过自动索引方式找到他们喜爱的音乐,通过音乐来舒缓现代社会快节奏、高竞争压力下的心境和情绪,已经成为一种时尚。音色识别,是