论文部分内容阅读
随着信息技术的广泛应用以及信息化建设的广泛开展,信息资源正爆炸性的增长,如何获得有效的信息成为关注的焦点。信息资源80%是以自然语言形式存在的文本。对文本的内容挖掘和标引将成为解决文本信息管理问题的关键手段。国内已经开展知识标引方面的研究,对文本内容挖掘技术提出了新要求。在文本中进行知识挖掘,比在结构化的数据记录中进行知识发现和数据挖掘更困难,需要将文本转化为已有算法能处理的形式,然而文本向量化表示有着固有的缺点。向量化表示几乎忽略了文本中的语义信息;长期关注数值空间使研究者过多的将精力集中在数学问题上,而对文本内容挖掘本身的研究相对较少。针对以上文本表示上的问题,本文以国家自然科学基金“企业(组织)知识管理中的若干基础科学问题研究”为依托,将文本语义表示、相似度计算以及文本信息管理中的文本分类作为研究内容,这些都以文本表示为基础,为此本文首先对已有文本表示模型进行了分析,并结合知识标引研究的成果,以句子作为单位切分文本,用语义相对完整,独立性强的句子作为文本表示的单位,解决字词在表示文本上的语义缺失问题;其次引入了多示例学习理论中多示例包的概念,将文本句子包表示予以理论化,并提出相应的句子相似度计算方法定义包距离,为句子包的应用奠定了基础;同时依据句子包的特点,对包内句子之间的关系进行研究,用句子关系图描述句子之间的关系,设计了文本主题句抽取方法并进行了可接受性测试;最后通过文本分类测试了文本句子包表示的可行性,取得了不差于向量空间模型的统计值。本文工作丰富了多示例学习研究,提出了新的文本表示方法,跳出了以字、词切分为基础的文本向量化表示;不依赖句子位置等加权信息抽取文本主题句,为文本内容挖掘提供了新的思路。