论文部分内容阅读
专利信息资源是首选的竞争情报资源,它蕴含着巨大的知识存量。充分挖掘和利用专利信息有助于技术人员改进现有技术,发现新的技术领域。然而当前专利数量急剧增长,依靠人工手段寻找有用专利信息,并进行快速有效的专利分析,犹如大海捞针般费时费力。国际上专利信息采集及分析的研究和相关软件很多,但大多数只关注英文专利,语种局限性很大;国内还没有针对本国专利的专利信息采集软件;在专利分析方面已经有很多研究成果,但都没提供针对专利无结构数据的分析功能。因此,本文以中国大陆地区专利为研究对象,研究专利信息的采集及分析技术。考虑到专利信息深藏于Web专利库中,一般的信息采集技术仅能获取公开可索引的数据,而无法深入Web后台数据库中提取信息。因此,采用包装器模型,设计开发专利信息的采集系统。规则库是包装器模型中最为关键部分,本文采用人工解析网页方式创建规则库,同时利用VC#中的Webbrowser控件调用规则库,自动解析网页提取数据。在信息采集过程中,由于网络的不稳定,会造成采集的信息不完整、采集进度难以控制,因此采用了定时刷新机制、网页下载完成事件及多线程机制等解决方案。此外还设计了线程调度中心,以解决没有控制机制的多线程程序容易陷入死锁的问题。对文本进行聚类分析,是专利分析的有效手段。本文探讨了基于文本聚类的专利信息分析技术。发明和实用新型等专利文献文辞冗长、文字晦涩,因此,首先研究专利词汇处理技术,提出了基于统计和规则的新词识别方法和新词释义方法。在此过程中,涉及频繁的词典访问,词典数据结构选取的好坏直接决定分析效率,本文提出Hash+索引+Map(set)的存储方法,提升了时间和空间上的效率。此外,针对技术专利文献结构规范的特点,还研究了专利文献的结构化分析技术。最后,依据“具有大量相同概念的文档是相似的”这一判断,采用文本聚类技术进行处理,借助凝聚算法和SOM网络完成专利的聚类过程。最后,设计实现了专利信息采集及分析系统,并以打火机为例,给出了专利信息采集和分析实例。