论文部分内容阅读
随着时代步伐的加快,我们的社会步入了全球化的知识经济时代,此时人们对信息的依赖越来越强。信息的管理和利用成为这个时代的一大研究课题,而专利信息又是所有信息中的精华部分,如何对这个人类知识库——专利信息库,进行有效的管理和利用甚至关系到一个国家国民经济素质的整体提高和国际竞争力的强弱。
专利信息的价值是多方面的,然而,目前国内大多数企业的主要精力还是集中在对专利信息的最表面的利用,很少涉及到对专利信息进行系统的管理,这妨碍了对专利信息的进一步利用。究其原因,很重要的一点是缺乏有效的专利信息自动化管理工具,如专利自动归档工具,自动分析工具,自动预测工具。在这一系列的管理工具中,最基本的也是最重要的部分是专利文本自动分类的工具。而在目前,国内很少有人对专利知识库的自动分类进行深入的研究,这成为了专利信息库管理的一个瓶颈。
针对这一情况,本文首先介绍了目前国内专利文本自动分类和搜索的研究现状以及存在的问题,然后根据专利文本的特殊性本文选用基于突出特征的相似联想来实现对专利文本自动分类和自动搜索的处理。基于突出特征的相似性联想将专利文本处理分为两个阶段,即诱发阶段和确认阶段。在诱发阶段,我们对专利文本的标题部分进行处理,提取标题中的名词作为专利文本的初选特征词汇,在计算被选特征词汇的权重时,本文考虑特征词汇的词频、词长和特征词汇的位置综合计算特征词汇的权重。通过计算文本标题的相似性,初步确定与选定专利相似的专利集合。确认阶段对诱发阶段得到的专利文本集合进行分词、提取特征词汇和文本的相似性计算,从而确定专利文本的相似性。最后我们用突出特征词汇作为专利发明领域中的概念的集合。本文在此基础上运用本体论的相关理论,自动建立起概念之间的相关语义关系。各个概念间复杂的语义关系组成了语义网络。由此本文根据由该语义网络生成各种专利搜索路径。本论文可以指导专利文本的自动分类,使得对专利文本的分类更精确;可以实现对某类型专利的快速查找,并能快速了解与该类专利相关的专利的情况以指导专利发明和专利预测。
本文的研究是对《专利战略分析系统》的进一步研究和完善。