论文部分内容阅读
随着科技文献资源的爆炸性增长,科技研究人员一方面受益于信息的便捷性和丰富性,另一方面颇受“信息过载”问题所带来的困扰。如何更高效地检索资源、分析挖掘文献资源中的语义信息、提供更加丰富多样的信息呈现方式,是提高文献资源利用率、解决研究人员“信息过载”焦虑症的重要途径。 文档自动摘要技术是信息抽取技术的一种方式,旨在分析文本结构与内容,建模不同文本单元(比如,语句或单词)的依赖关系,挖掘文本中显著性或代表性文本单元,重新组织成更加精炼、具有代表性的摘要。文档自动摘要技术要求新生成的摘要满足覆盖度高、代表性强、冗余性低的三个要求。 本文旨在根据科技文献资源的特点,研究文档自动摘要技术与算法,挖掘科技文献资源中的有效知识,并探索科技文献领域中知识的组织方式和呈现方式。重点针对文档快速检索、文档语义建模与抽取、科技文献摘要增强、自动综述生成等若干问题展开研究,主要工作包括: 1)提出基于哈希的文档快速检索方法。本文使用哈希方法,将文档投影为文档指纹(即,压缩的二进制码),同时将文档单词区分考虑,分为文档相关词、主题相关词以及背景词,并将这些信息融入到文档指纹中,使得文档指纹更加反映主题。为解决在海量文档指纹中查找相似文档时所面临时间效率上的极大挑战,本文将文档指纹转化为“语义单词”,并将“语义单词”、元数据信息、文档标题、用户点击等信息融入到异构统一索引中,从语义相似性和时间效率两个角度保证文档快速检索的效果。 2)提出基于CRF的关键短语抽取模型和短语主题模型(Phrase Topic Model)。本文对文档中的语义信息进行建模与抽取,主要考虑关键短语和语义主题。基于CRF的关键短语抽取模型,将关键短语抽取转化为序列标注问题,通过使用CRF模型,充分利用各类文本特征,包括句法特征、关联依赖特征等,有效地识别关键短语。短语主题模型的提出是为解决短文本主题建模中所面临的数据稀疏问题,该模型假设关键短语是短文本语义理解的核心关注点,关键短语中包含的单词共享相同的主题,非关键短语的单词其主题分配依赖于关键短语所属的主题。短语主题模型利用自动抽取的关键短语,指导短文本的生成过程,提高主题建模效果。 3)提出基于数据加权重构的摘要增强算法。本文旨在基于目标科技文献原始摘要和引用该科技文献的引文语句,自动生成增强的科技文献摘要,以此全面地阐述该科技文献的不同影响力侧面,避免目标科技文献原始摘要的观点有失偏颇。首先利用半监督PLSA模型和基于超图的正则化排序(Regularization Ranking),在异构学术信息网络上计算语句权重。最后通过基于加权的数据重构技术来挑选代表性语句,同时考虑科技文献原始摘要和引文语句的文本内容和社会结构。 4)提出基于关键短语的自动综述生成算法。提出一种新颖的文档摘要生成方法KeyphraseDS,针对某个科技主题,充分挖掘科技文献中的关键短语信息,自动生成语义结构可理解性强、信息丰富的科技综述。KeyphraseDS算法主要包含三步:关键短语相似图构建、语义结构自动生成、显著性语句选择。关键短语相似图中语义相似度考虑基于知识的相似度与基于主题的相似度,不仅充分利用统计文本信息,而且能够解决数据稀疏性问题。语义结构自动生成是在关键短语相似图上应用谱聚类得到,最后通过整数线性规划(ILP)挑选显著性语句,ILP算法同时考虑语句的语义相关性、语义多样性和关键短语显著性。