论文部分内容阅读
专利作为知识产权中至关重要的一部分,已经受到了各社会经济体的普遍关注,日益健全的专利保护机制一方面极大推动了专利申请量和授权量的增加,另一方面也在很大程度上导致了专利侵权情况的频繁出现。面对专利侵权案件的发生,原告与被告可能面临长时间的法律诉讼以及高额的赔偿,对于涉及专利侵权的任何企业和个人,这都意味着沉重的负担和巨大的成本。因此,为了有效规避上述风险,并为相关利益人提供权益保护,合理而高效的专利侵权检索方法显得尤为重要。本文在研究专利侵权检索研究现状的基础上,以专利文献的文本数据为基础,采用文本挖掘技术,提出一种基于自组织映射(SOM)神经网络算法的中文专利侵权检索模型,主要内容包括中文专利文本数据的采集、文本信息的加工和优化、中文专利侵权检索模型的构建及其主要功能模块的实现。本文选取专利说明书中的权项要求作为数据源。在文本预处理部分,首先采用语料库编制技术领域词表和停用词表,并对专利数据集进行专利筛选;其次,在复旦大学自然语言处理系统的基础上,提出一种适合于中文专利权利要求书的分词算法——TextRank算法,对实验数据进行分词处理;最后,通过对专利权项要求的关键词进行提取,并计算关键词在专利中所占的权重大小,得到专利-关键词共现矩阵。在中文专利侵权检索模型构建部分,本文采用SOM神经网络学习算法,以Matlab软件为平台,实现被检专利的聚类分析,并通过进一步归类处理,检索出待检专利的疑似侵权专利组,最后,通过聚类结果的评价及专利权项要求书的比对分析,证明该方法具有可行性。另外,本文完成了上述模型的基本功能模块的实现。面对海量的专利文本信息,本文提出的方法旨在帮助可能涉及专利侵权的利益相关者快速方便地进行中文专利的侵权检索,一方面为企业的研发人员或专利申请者提供准确、全面的侵权检索结果,避免新产品侵权或申请专利失败,另一方面为专利审查人员提供快速、精确的专利审查方法,提高专利审查的时效性和准确率。实验结果表明,该方法能够在一定程度上精简检索过程、提高检索准确度。