论文部分内容阅读
进入二十一世纪以来,人类社会的科技发展进入了前所未有的高速时期。快速更新换代的技术带动了相应专利文献的产生与积累,这种大背景下,专利文本挖掘已经不再仅仅是一个相对孤立的辅助模块,而是一跃成为技术发展决策活动中必不可少的一环,在技术研发的起始与收尾过程中扮演着发掘重要知识、支持战略制定以及总结发展情况的重要角色。因此,如何准确高效地进行海量专利文献的文本挖掘,同时识别并获取其中所隐藏的关键技术内容及潜在重大机遇,目前已经成为研究与应用中被广泛关注的重点。本文面向专利文本挖掘,在回顾总结国内外现有技术与方法的基础上,构建并实现了基于主题模型的专利文本发掘方法,以无监督学习的方式完成了对大量专利文本技术主题的自动识别与抓取,同时,通过运用分段线性表达、最小二乘法等数学方法,对已获取的专利主题进行了定量的重要程度评定、趋势转折贡献度估计以及未来发展趋势分析。为了证明方法的可行性和有效性,本文采用了来自美国专利与商标局的实用新型专利进行了实证研究和案例分析。具体来说,本文的主要创新点如下:(1)基于主题模型的专利文本挖掘系统框架本文将主题模型这一国际前沿的热点统计模型引入到专利文本挖掘及科技管理领域,提出了基于主题模型的专利文本挖掘系统框架,并开发实现了从数据输入、文本清理、主题识别、主题选取到主题贡献程度估计、主题发展趋势预测的完整分析流程。(2)基于专利权利要求的科技主题识别及抓取方法本文针对权利要求的特有属性,建立并实现了基于权利要求的科技主题识别及抓取方法:在给定技术范围后,通过网页信息抓取的形式获取目标专利的权利要求文本,同时制定了适用于权利要求的文本清洗模块,通过运用隐含狄利克雷分布(Latent Dirichlet Allocation)实现了对大量文本中潜在的科技主题及主题分布的非监督自动识别与获取。为了验证方法可行性和有效性,本文以2000年至2014年受让人国家为澳大利亚的1,3910条美国实用新型专利对方法进行了实证研究和案例分析。(3)定量的专利授权活动趋势转折点抓取方法本文针对传统技术预测及评估中,模型拟合无法判断趋势转折和具体专利活动趋势变动等问题,采用分段线性表示的数学方法,定量地获取了专利活动中的趋势转折点,并使用转折点将专利活动分割成在时序上的趋势段,从而凸显并抓取潜在的专利发表趋势变动。同样,为了验证方法有效性,本文随后以上述美国实用新型专利数据及澳大利亚ICT产业相关专利数据对方法进行了实证研究和案例分析。(4)科技主题对发表趋势转折贡献度的分析评估方法在已获取的隐含在大量权利要求中的科技主题中,不同的主题对于该领域内专利授权量的整体趋势变化的贡献度不尽相同。本文提出了一种定量评估科技主题对整体技术范围发展趋势转折贡献度的方法,由主题分布矩阵计算出每个科技主题的贡献系数,从而对各个主题在各趋势段中的重要性变化加以评估分析。为了验证方法可行性和有效性,本文以美国实用新型专利对方法进行了实证研究和案例分析。(5)基于年度主题权重矩阵的科技主题发展趋势分析本文综合由隐含狄利克雷分布估计出的科技主题信息及主题分布,建立年度主题权重矩阵,并利用最小二乘法对各个重要科技主题自身的时序权重变化进行了定量的计算,最终实现了对每个科技主题发展趋势的预测及估计。为了验证方法可行性和有效性,本文随后以美国实用新型专利对方法进行了实证研究和案例分析。此外,在主题表达方面,针对传统专利文本挖掘中,关键词无法清晰获取科技主题语义并难以区分同义词这一不足,本文采用词汇分布的方式表达科技主题,以分布中概率最高的一组词汇来反映对应科技主题的具体内容。避免了“以词表意”容易产生歧义的问题,切实地赋予了各个技术主题以语义含义。