论文部分内容阅读
专利信息是最新的科技发展水平的集合,具有内容新颖、覆盖面广、实用可靠、信息量大等显著特点,在国家政府机构的决策、技术创新、资源的配置、科技项目的规划、行业的发展方向、企业的经营决策等各方面都拥有巨大的价值及潜在价值。传统的统计分析方法已经不能满足人们开发利用专利信息资源的需求,集成了多种学科技术的数据挖掘成为了专利信息分析法的必然发展趋势。数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学研究领域的重要研究课题之一,相关的研究和应用能够提高决策支持的能力,在数据库研究中是一个富有应用前景的领域。数据挖掘已经广泛应用于诸多领域以解决许多商业问题,并且取得了良好的社会效应。由于专利信息的特殊性——同时具有外部特征项和内部特征项,既有需要进行定量分析的外部指标,又有需要定性分析的文本内容,所以作为数据挖掘技术重要技术手段的关联分析和文本聚类有着非常广泛的应用前景。关联规则挖掘是从大量的、不准确的、嘈杂的现实数据中挖掘出隐含在其中的、潜在的有价值的相关信息和知识的过程。文从Agrawal等人第一次提出了基于商业数据库的项集之间的关联关系研究问题以来,很多研究人员对挖掘数据中潜在的关联规则问题进行了大量的更加深入的研究。本聚类首先需要对文本进行预处理,通过分词、特征选择或特征抽取等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。层次聚类方法对给定的数据集进行层次似的分解,直到某种条件满足为止。相较于另一种较为常见的聚类算法——以k-means和k-medoids为代表的划分方法而言,层次聚类法不需要预先指定聚类的个数,更有利于在不清楚数据属性的情况下进行文本聚类。在数据挖掘技术的应用方面,本文面向专利信息挖掘应用的实际需求,分析了专利文献的应用及其用途,研究了专利技术、专利文献的自身特点,以及专利文献蕴涵的丰富的技术信息、法律信息和商业信息,寻找将数据挖掘技术应用到专利文献中的途径。并以混合动力电动汽车领域在中国境内专利申请情况为主要背景,在行业研究的基础上,利用数据挖掘技术中的关联规则挖掘和文本聚类分析相结合的方法对丰田自动车株式会社在华申请的所有专利进行了深入分析,将数据挖掘的方法和知识理论应用到实际系统中,实现了专利文本信息与技术主题指标相结合,并为今后的专利信息挖掘工作提出了几点建议。