文本聚类在话题检测与人名消歧中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zuguangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于金融信息服务而言,用户希望能够全面掌握一个公司或个股的重大事件以及事件的前因后果。金融门户网站存在着覆盖面不广和众多公司的相关新闻混杂在一起的缺点,与此同时,不同的新闻媒体就同一事件会发布大量相似及后续报道,而转载又使得网络上存在大量重复的新闻报道,使得通过浏览金融新闻网站来查找其持有股票所属公司的相关信息成为一件费时费力的事。金融领域垂直搜索引擎,如Google财经,能够按公司或个股来为用户提供新闻浏览服务,但其检索结果不是按时间和话题组织的,不易于用户查看事件的首次报道以及跟踪事件的前因后果。因此如何从检索结果中识别和跟踪个股或公司的重大事件,以时间为主线将其以话题形式呈现给用户就成为金融垂直检索下一步需要解决的问题。本文通过话题检测与跟踪(TDT)技术来解决上述问题。话题检测与跟踪是一种把新闻报道流中的新闻报道组织成新闻话题的技术,一个话题由很多与该话题相关的新闻报道组成,一个话题包含初始新闻报道和后续相关新闻报道。本文将话题检测与跟踪技术应用到金融垂直检索系统中,以个股或公司为单位将检索结果组织成若干话题,并以时间为主线将话题呈现给用户,以此方便用户查看公司或个股的重大事件以及事件的前因后果。本研究把两种现有的聚类方法结合在一起,同时加以改进,提出了一种新的聚类方法,并将该聚类方法应用与金融新闻话题检测中。在文本分类语料集、标准的话题检测语料集和手工标注的语料集上分别进行了实验验证,结果表明,上述方法由于经典的K-Means方法和传统的凝聚层次聚类方法,而且可以有效地实现在话题检测。本文的研究已经成功应用到海天园金融新闻话题检测与跟踪系统中。除了金融新闻话题检测以外,本研究关注的另一个聚类技术的应用点是解决人名歧义问题。在人名歧义问题中,许多人有相同的名字,这一事实导致了很多歧义出现在文本中,尤其是对于一些普通人的名字,这一问题困扰了很多信息检索和自然语言处理任务,人名歧义问题在中文文本中更为严重。因此,除了将凝聚层次聚类方法作为本文提出的AP-HAC聚类算法的一部分用于金融新闻话题检测与跟踪以外,本文还探索了凝聚层次聚类算法的另一个应用,即将其用于解决中文人名歧义问题。本文把凝聚层次聚类技术和信息抽取技术结合起来用以解决中文人歧义问题,实验表明这种方法取得了很好的效果。
其他文献
现有的经典信息安全主要研究黑客、木马、病毒等外部攻击威胁,往往忽视了通过公司、单位内部员工发生的泄密事件,数据表明,绝大部分的泄密事件是由后者所引起的。近年来,随着内网
在现代信息社会中,数字签名技术已经被广泛的应用于各个领域以提供数据一致性校验和授权认证。在标准的数字签名中,任何人都能够验证签名的有效性,然而在很多应用中我们需要
随着数据采集和数据存储技术的飞跃发展,用于机器学习的数据集规模越来越大,利用单个学习器不一定能很好地解决某些学习问题。为了能够提高学习器的泛化能力,有学者提出用集
华源热力供暖公司实时数据采集传输管理系统以实际的业务需求为背景,解决了如何将电厂工业控制网中的实时数据引入到供暖公司内部管理网的问题,同时为供暖公司相关用户提供了
近些年来,通信事业发展迅速,各种新技术的出现,使人们对通信质量的要求越来越苛刻,以致频谱资源越来越紧张。在保证良好通信质量的情况下,如何提高频谱利用率,已经成为一个难
RFID技术被认为在二十一世纪最有发展潜力的技术之一,目前在很多领域得到了应用,作为RFID应用的中枢系统,RFID中间件的性能直接影响到整个RFID系统的实施。而中间件系统性能
在数字近景摄影测量中,借助于特制的人工靶标,可快速便捷地完成同名点匹配、三维立体重建和相机定姿定位等摄影测量任务。然而,随着复杂环境和缺乏纹理区域的工程应用增多,现有测
学位
随着计算机的普及以及互联网的迅猛发展,网络上的各种信息呈爆炸式的增长,传统的采用布尔检索模型的中文信息检索已经越来越不能满足人们的需要,以汉语内涵语义分析作为着眼
切割下料问题广泛存在于国民经济生产的各大行业中,例如机械制造业、服装加工业、家具制造业、木材加工业以及皮革制品制造业等。随着信息化产业和计算机技术的快速发展,先进