话题检测与跟踪及趋势预测研究

被引量 : 0次 | 上传用户:cpu1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网这一新媒体的出现,使得人类已经完全摆脱了信息贫乏的枷锁,从而进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是关键问题,如何快捷地、准确地获取人们感兴趣的信息才人们需要关注的主要问题。人们希望有一种方法能够帮助他们有效地将孤立的、离散的新闻报道整合起来,以达到能够从宏观上把握一个事件的发展过程以及从微观上了解其细节和各事件之间的相互关系。技术来自需求,话题检测与跟踪(TopicDetection and Tracking,TDT)技术正是应对这种需求而生的。另外,除了要了解事件,人们还希望能够提早地知道一个话题的发展趋势,本文也正是在此需求上,研究话题趋势预测技术,以使得人们能够提早或及时地应对突发事件。本文针对话题检测,提出了基于同义词词林扩展技术技术结合多向量模型进行话题检测的方法。在计算词语相似度时,本文引入同义词词林的扩展技术,使得算法能够从一定的语义角度计算相似度。针对话题的特点,即一个事件通常都是由四部分组成:“什么人”、“什么时间”、“什么地点”、“什么事”。本文提出的多向量话题模型改善话题检测的精度。针对话题跟踪技术难点——话题漂移现象,本文提出了自适应反馈学习策略。在反馈学习中,采用增量的方式,不断完善话题模型,并且在跟踪过程中,每次反馈都构成一个弱跟踪器,而整体话题跟踪模型为所有弱跟踪器的组合,这样就减少了在一些反馈过程中,误反馈造成的影响。实验表明,本文提出的话题检测与跟踪模型明显好于经典的话题检测与跟踪模型。本文针对目前研究较少的话题趋势预测问题,提出了基于灰色系统理论的话题趋势预测模型。详细地分析了话题趋势预测的难点——周期短、样本少、不确定性等,同时给出了经典统计预测模型的相关介绍。最后,在分析了话题特点,以及灰色系统理论在研究贫信息、不确定性问题上的优势之后,提出了灰色预测算法。通过与经典的统计预测模型(指数平滑和ARIMA模型)对比实验,表明了本文提出的预测模型无论从模型复杂度还是预测精度上来说均优于经典的统计预测模型。
其他文献
通过不饱和脂肪酸与环氧树脂分子链上的环氧基及羟基发生部分或全部酯化反应,制备出不同酯化度的室温自交联型环氧酯,探讨了不同催化剂用量和酯化温度对酯化反应的影响,考察
目的探讨MRI在中枢神经系统淋巴瘤诊断中的应用价值。方法回顾性分析2013年1月-12月间成都市第二人民医院及三六三医院收治的20例原发性中枢神经系统淋巴瘤(PCNSL)和13例继发
在证券市场中,上市公司披露的年度报告是利益相关者获取基本信息的重要来源,年报中所包含的会计信息是利益相关者进行决策的参考信息,起着至关重要的作用,而及时性作为衡量会计信
本文结合作者的现场调查,从城市设计和建筑设计的角度论述了位于旧金山市中心的现代艺术博物馆,重点分析了现代艺术博物馆的外部形态,内部空间组织,展厅的采光设计和中厅上部
本文借鉴龙庆忠先生的为师、治学和健身之道,提出建筑学教师要成为学者而非专家;要研究中国的建筑理论并用以指导实践;要保持身心健康以为学生榜样。
下肢静脉曲张是一种很常见的血管类疾病,它在全世界范围内都有较高的发病几率。医用静脉曲张弹力袜是治疗下肢静脉曲张最有效且方便的方法。它是一种医疗器械类产品,分为保健级
本文主要基于双椭圆模型对IIR数字滤波器之约束minimax设计算法进行研究,首先对IIR数字滤波器的研究背景以及研究现状做了介绍,然后对IIR数字滤波器设计中涉及的基本理论做了系
本文以广饶县城市景观风貌塑造为实证,摆脱以往"就雕塑论雕塑"的个体化、单一化创作思路,而尝试将宏观景观格局的把握同微观公共艺术的塑造相结合,主要从主题、层级、特色等
随着中国经济的持续快速发展、城市化和工业化进程地不断加强,环境污染日益严重,发展环保产业成为我国经济可持续发展的内在要求。本文选取环保产业中的领军人物环保上市公司作
随着生活水平的提高,人们对纺织品的质量也提出了更高的要求。在实际生产中,纺织品的颜色是评价纺织品质量的重要指标。在染色过程中,染液浓度为影响纺织品颜色的关键因素,因此染