论文部分内容阅读
知识经济时代,知识是推动经济发展的关键资源,专利作为知识的重要表现形式,不仅是科研人员了解新技术、启迪思维、避免重复研发、提高研发效率的重要参考资料,也是管理者、决策者分析行业或国际技术趋势、有效进行资源配置、制定战略规划的必要情报分析源。目前国内外学者、机构研究开发的专利信息采集与分析系统存在很多问题,如:大部分专利信息采集技术主要基于关键词加权重,没有考虑到同义词、多义词等词间语义关系问题,造成专利信息检索不够全面,出现误检、漏检现象,使得基于专利信息的分析不够准确,无法反映技术领域的真实情况;专利信息采集方式仍停留在人工辅助采集方式,不能够适应网络环境下的用户动态多变、随时采集与分析的专利信息需求;很多专利信息采集与分析系统提供的专利信息分析指标与功能不够全面,分析结果的可视化能力低,不能满足用户灵活多变的个性化、交互性专利信息分析需求。为解决上述问题,本文以专利信息采集与分析为研究对象,设计和开发了一个集专利信息采集、信息管理和信息分析于一体的基于本体的专利信息动态监测与分析系统,该系统不仅能基于本体对用户的采集表达式进行语义扩展,从而提高专利信息采集的全面性,还能够动态监测和采集网络上的Deep Web专利信息,并以不同的分析指标对采集的专利信息进行分析,将分析结果以可视化的形式展示给用户,从而满足了网络环境下的用户动态多变、随时采集与分析的个性化、交互性专利信息采集与分析需求。系统基本实现流程如下:首先,利用中科院研发的汉语词法分析系统ICTCLAS对用户检索语句进行分词、停用词过滤等预处理,形成用户初始检索表达式,并利用所建的领域本体库对用户初始检索表达式进行语义扩展,形成用户的语义扩展检索表达式。然后,根据扩展后的检索式,编写专利信息采集程序,动态地从网络专利数据源中采集免费的专利数据,并对采集到的专利数据进行去重等数据清洗工作,存入专利数据库。最后,利用Open Flash Chart (OFC)丰富的图表库实现专利信息分析结果的可视化展示,并以服装领域为例,对系统的可行性、实用性进行验证。