论文部分内容阅读
文本挖掘是指通过计算机对文本进行的信息挖掘、含义分析、分类标注和关联分析等处理,可以从文本中提取出能为人所用的信息乃至于知识。互联网行业和各产业的信息化发展为文本挖掘提供了丰富的文本语料资源,也同时要求文本挖掘系统的准确性、有效性、运算效率和个性化水平不断提升。文本挖掘要求从纯文本中提取出有价值的信息并为信息化事业的发展提供基础,其中属于特定语义类别的新词、文本事件类别、文本事件元素和文档摘要是应用广泛的文本信息。本文研究并实现了解决文本挖掘中多个核心问题的方法,包括面向特定语义类别的新词发现,面向ACE2005语料的事件类别识别和在事件类别信息基础上的事件元素识别,以及面向单文档和多文档的自动摘要。新词发现、事件识别和自动摘要系统均在各自的标注语料中进行了实验,并取得了较为理想的效果。面向特定语义类别的新词发现方面,本文考虑到对语料进行类别标注的成本较高,从同类新词具有相似的上下文信息的角度出发,设计了一种基于bootstrapping和软模式匹配的新词发现方法,根据语义特点将新词拆分成多个部分,并根据新词部分将新词所在句子分割为多个槽,通过统计已标注新词和候选新词各词频槽的词向量相似度和词频向量相似度为候选新词打分,并将评分较高的候选新词加入已标注新词。本文在电子病历语料中进行了实验,将症状新词拆分成<部位,性状>两部分,症状新词发现的F值达到了81.40%。面向ACE2005语料的事件类别识别和事件元素识别方面,本文在其他研究者基于支持向量机分类器的方法基础上进行了改进。在事件类别识别中,本文根据同句中各个候选触发词的位置和触发事件的信息,加入了一些和候选触发词和候选元素相关的特征,并优化了文本信息预处理的方法。基于带有事件标签以及相应的实体、时间、数值标注的中英文ACE2005语料,本文衡量了事件类别识别和事件元素识别方法的效果,在事件元素识别中也加入了和实体、数值和时间标签相关的新特征。事件类别识别的F值达到了64.2%,事件元素识别的F值达到了63.7%。任务中,本文将TextRank算法和聚类方法结合起来,利用BM25算法及多种句子相似度算法设置TextRank无向图模型中的边权重,并通过聚类方法尝试减少自动中的冗余信息,将句子和文档间关系作为摘要提取的依据。系统在DUC2001以及DUC2002语料上进行了多种长度的单文档和多文档的实验并用ROUGE工具进行了评测,取得了较好效果。