面向话题追踪的特征选取与文本表示技术的研究

被引量 : 0次 | 上传用户:qq20881010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的出现和普及,为人们提供的信息急剧膨胀。在这种情况下,人们很难快捷准确地获取自己感兴趣的信息。而且与一个话题相关的信息往往孤立地分散在不同的时间段和不同的地方。仅仅使用现有的技术,人们对某些事件难以做到全面的把握。话题检测与追踪(Topic Detection and Trackina,TDT)技术正是为了满足这种需要,它研究如何检测新发生的事件并追踪事件后继发展动态的信息智能获取技术。它能帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事件与其它事件之间的相关性。话题追踪是TDT的一个子任务,它的目的是监控新闻故事流识别出与预先给定几个新闻故事表述的话题相关的后继故事。 本文根据话题追踪任务的特点,研究了面向话题追踪的特征选取和文本表示技术。本文研究了不同层次上的特征选取方法。提出了词对和词簇两种特征表示方法。话题追踪的很多研究工作都是使用“bag of words”来表示文本。本文考虑了词性信息,提出了词对作为特征的表示方法(BOP),并采用了一元语法模型和向量空间模型进行话题追踪。本文选用TDT3语料作为测试语料,实验结果表明,使用本文选用的追踪系统,用词对作为文本特征不能够提高话题追踪的性能。本文还引入了k-means聚类技术,将词簇做为表示文本的特征(BOC)。实验结果表明,使用词簇做为文本特征,能够大大降低特征维数,很大程度上提高了追踪系统的效率。 通过对故事的观察,本文提出了双向量模型。使用命名实体识别技术,将文本表示成两个向量。在对故事进行追踪时,将对应的两个向量分别计算相似度,再将两相似度加权求和得到最终的打分,追踪系统根据该打分做出判断。为了更好的去除噪音数据,本文不但采用了禁用词表,还构造了禁用词性集合,用来去除噪音数据。本文选用TDT4语料作为测试语料,实验结果显示双向量模型能够提高话题追踪的性能;使用禁用词性集合对话题追踪系统的性能也有较大提高。 本文采用向量空间模型和一元语法模型来构造追踪系统。通过实验分析了影响中文话题追踪性能的2个因素:平滑参数和特征数目。本文选用TDT3和TDT4语料作为测试语料,实验结果显示选取适当的特征数目、使用好的分词技术、使
其他文献
如果说“老干部”与“信息化”之间会扯上什么关系的话,绝大部分人的判断应该是:起草起草文件、宣传宣传信息化的重要等事务性工作。这当然也就是当记者经江西省计算机协会刘
本文采用理论分析和数值模拟计算相结合的研究方法,对复杂荷载条件下地下结构(以井筒为例)破坏预测的理论计算模型和数值模拟方法进行了研究和探讨;分析了复杂荷载条件下井壁
<正>帝斯曼在华第三家饲料预混料工厂开业2008年11月28日——全球专注于生命科学和材料科学的专业公司荷兰皇家帝斯曼宣布,旗下帝斯曼营养产品部在
国内外研究者一直致力于使用方便、疗效确切、安全可靠的胰岛素非注射途径的新剂型研究,胰岛素口服是治疗糖尿病的最理想的给药方式。本文阐述口服胰岛素制剂临床应用价值和
对于建筑施工来说,防渗漏施工是非常重要的施工内容,因为防渗漏施工工程需要与水体直接接触的。防渗漏施工工程主要的使用的建筑材料是混凝土结构,因为混凝土结构相对于其他
目的探讨超声软指标在中孕期胎儿染色体异常筛查中的应用价值。方法选择2012年2月至2018年3月西安市中心医院妇产科门诊接诊的孕中期(14~28周)孕妇2 621例为研究对象,所有孕
<正>一芦山县养鹅已初具规模,发展势头良好从2005年芦山县大力实施养鹅产业以来,已在全县9个乡镇发展天府肉鹅养殖农户720户,已养殖商品鹅近15万只,发展批次300只以上的养殖
自1980年我国批准第一批3家外商投资企业以来到2001年4月底,来自世界180多个国家和地区的投资者已在中国累计设立近37.1万家外商投资企业,合同外资金额超过6969亿美元,实际吸
心理资本作为个体在成长和发展过程中展现的一种积极心理状态,被以往研究证实能促进个体学习行为。然而,以往研究主要关注下属心理资本的作用,忽视了领导—下属心理资本的匹
本文主要论述了人因照明技术内涵、目前国内外的研究动态及应用实例。为推广台湾LED照明市场的发展,开发出兼顾节能、环保和人因需求的LED照明产品和系统,工业技术研究院绿能