话题检测与跟踪算法改进研究

被引量 : 0次 | 上传用户:spyxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网信息呈现爆炸式的增长,对这些信息进行有效的组织和管理变得更加困难,时常会出现信息过载现象。为了有效的组织和管理这些信息,话题检测与跟踪技术应运而生。其主要的目的是针对不同的新闻报道信息流进行新话题的检测以及跟踪已知话题的后续报道。根据话题检测的特点使用层次聚类能够在不设定类别个数的前提下进行聚类,对话题进行检测。层次聚类能够很好的适应话题检测的需求,并在此基础上针对话题报道中的命名实体对话题区分度高的特点,在进行相似度计算时增加命名实体在计算中的权重值来提高系统整体性能。利用现有的语料库和实验数据进行实验验证,结果表明改进相似度计算提高了话题检测时的正确率并减小了系统开销。应用于话题跟踪中的常用传统方法K近邻算法在进行话题跟踪时,要求话题之间报道数量具有平衡性,这一缺点会在一定程度上导致话题偏移。通过利用支持向量机算法在K近邻算法训练阶段确定支持向量而不使用K值来消除跟踪算法对K值的依赖,减小由于话题报道不均衡带来的话题偏移问题。实验结果表明这些方法在一定程度上提高了话题检测与跟踪的性能,验证了改进的K近邻算法正确率不受参数K的影响。
其他文献
采用SEM和EDS分析高压涡轮叶片冷却孔间裂纹的失效机理,发现引起裂纹的主要原因是作用在叶片上的热机械疲劳应力和局部应力集中所致,针对K417铸造高温等轴晶材料熔焊产生晶界
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。并充分利用集群的威力进行高速运算和存储。以下是常见
主要以我国13家上市商业银行2003—2010年的数据为研究样本,选取投入和产出指标,运用DEA模型对其技术效率、纯技术效率以及规模效率进行分析、比较,研究表明股份制商业银行明
通过对取自选煤厂生产现场的浮选泡沫图像进行分析,从中提取出每幅图片的纹理特征参数(灰度平均值、熵、能量、惯性矩),同时结合每幅图片所对应的采样化验结果,在MATLAB中利
莲仁去芯是莲子加工过程中的重要工序,随着莲子市场需求量的快速增长,传统的手工去芯方式必将被机械化去芯方式所取代。现有全自动莲仁去芯设备在去芯过程中莲仁崩碎严重,既增大
随着社会主义民主化进程的不断加快以及我国高等教育改革的日益深化,有关大学生参与学校管理的问题越来越受到关注。大学生参与学校管理是近些年来世界高等教育管理改革和发展
服装色彩自古成为区分身份地位尊卑的重要标志之一,深受统治阶层重视。东西方古代色彩文化各有特点与魅力,对服饰色彩尊卑地位的定位也存在着共性与偏颇。地域因素、原料因素
利用双向直流变换器作为电池的充放电模块来代替电池放电模块、电池充电模块会使得电源整体的体积、质量减小,功率密度提高。空间电源对其稳定性,功率密度,效率,电流纹波等许多指
科技高度发展,人类航天技术不断进步的今天,卫星已经深入的应用到我们生活中的各个领域在卫星执行灾难预警科学探测以及军事应用等任务时,经常要求卫星姿态控制系统提供适当的控
从复合干法选煤的工艺流程出发,以主要设备为研究对象,分析控制系统的原理和功能。以PLC和IFIX组态软件为核心,合理选取控制点,根据要求确定控制方案。结合PID控制技术和PLC