论文部分内容阅读
对于金融信息服务而言,用户希望能够全面掌握一个公司或个股的重大事件以及事件的前因后果。金融门户网站存在着覆盖面不广和众多公司的相关新闻混杂在一起的缺点,与此同时,不同的新闻媒体就同一事件会发布大量相似及后续报道,而转载又使得网络上存在大量重复的新闻报道,使得通过浏览金融新闻网站来查找其持有股票所属公司的相关信息成为一件费时费力的事。金融领域垂直搜索引擎,如Google财经,能够按公司或个股来为用户提供新闻浏览服务,但其检索结果不是按时间和话题组织的,不易于用户查看事件的首次报道以及跟踪事件的前因后果。因此如何从检索结果中识别和跟踪个股或公司的重大事件,以时间为主线将其以话题形式呈现给用户就成为金融垂直检索下一步需要解决的问题。本文通过话题检测与跟踪(TDT)技术来解决上述问题。话题检测与跟踪是一种把新闻报道流中的新闻报道组织成新闻话题的技术,一个话题由很多与该话题相关的新闻报道组成,一个话题包含初始新闻报道和后续相关新闻报道。本文将话题检测与跟踪技术应用到金融垂直检索系统中,以个股或公司为单位将检索结果组织成若干话题,并以时间为主线将话题呈现给用户,以此方便用户查看公司或个股的重大事件以及事件的前因后果。本研究把两种现有的聚类方法结合在一起,同时加以改进,提出了一种新的聚类方法,并将该聚类方法应用与金融新闻话题检测中。在文本分类语料集、标准的话题检测语料集和手工标注的语料集上分别进行了实验验证,结果表明,上述方法由于经典的K-Means方法和传统的凝聚层次聚类方法,而且可以有效地实现在话题检测。本文的研究已经成功应用到海天园金融新闻话题检测与跟踪系统中。除了金融新闻话题检测以外,本研究关注的另一个聚类技术的应用点是解决人名歧义问题。在人名歧义问题中,许多人有相同的名字,这一事实导致了很多歧义出现在文本中,尤其是对于一些普通人的名字,这一问题困扰了很多信息检索和自然语言处理任务,人名歧义问题在中文文本中更为严重。因此,除了将凝聚层次聚类方法作为本文提出的AP-HAC聚类算法的一部分用于金融新闻话题检测与跟踪以外,本文还探索了凝聚层次聚类算法的另一个应用,即将其用于解决中文人名歧义问题。本文把凝聚层次聚类技术和信息抽取技术结合起来用以解决中文人歧义问题,实验表明这种方法取得了很好的效果。