论文部分内容阅读
专利是人类科学技术发展的缩影,也是世界上最重要的技术信息源。有效地分析和研究专利文献,从中深入挖掘蕴含的知识,对指导各个企业和科研单位的生产以及科技创新具有十分重要的意义。据世界知识产权组织(WIPO)统汁,90%~95%的科研成果来自于专利文献,专利文献公开的技术有80%以上没有在其它技术文献中出现过,全世界90%的发明创造信息都是最先通过专利文献反映出来;合理有效地运用专利信息,可大大缩短研发周期和节省研发经费,所以研究和分析专利文献的重要性可见一斑。
当进行技术或产品开发、专利申请、判断已申请专利的有效性以及进行专利权诉讼时,一项非常重要的工作就是通过专利数据库寻找相关专利。无论是企业的管理者、专利发明者、专利申请者,还是专利审查员,在数以万计的专利数据库中找出相关专利并不容易,且专利检索系统大多使用布尔型检索进行简单的匹配,既没有采用有效的检索算法,也没有考虑到专利文献的结构特征,检索效率低下。
文本相似度是衡量两个文本相似程度的度量参数,相似度的值直接反映文本之间的相似程度。在文本信息处理中,文本相似度的计算一直备受关注,被广泛应用于信息检索、机器翻译、自动问答系统、文本分类、文本聚类等领域。向量空间模型(Vector SpaceModel,VSM)是文本相似度算法中最常用的一种,它具有简单和容易实现,但功能强大的特点。向量空间模型将非结构化的文本表示成向量的形式,使得模型具有计算的可行性。但是向量空间模型只考虑了词在上下文中的统计特性,假定词之间线性无关,没有考虑到词本身的语义信息,因此,向量空间模型有一定的局限性。本文针对向量空间模型的这一局限提出了基于词共现的改进算法,并将向量空间模型应用到专利相似度评价中,为专利侵权、避免专利重复开发、专利审查等提供辅助服务,可以减少重复研究和无效劳动。