【摘 要】
:
在当前专利申请量和无效请求量剧增的背景下,本研究探索用人工智能方法辅助专利审查工作,提高审查工作的效率与专利授权的准确性,促进科技进步。研究中将审查工作中对于对比文献的检索问题转化为判断目标专利与对比文献是否相关的分类问题,并用深度学习代替人工阅读,解决专利的可专利性判断问题,从而将专利审查工作转化为专利相关性判定模型构建和专利无效判定模型构建两个步骤。 本研究首先针对传统的基于信息检索查找对比
论文部分内容阅读
在当前专利申请量和无效请求量剧增的背景下,本研究探索用人工智能方法辅助专利审查工作,提高审查工作的效率与专利授权的准确性,促进科技进步。研究中将审查工作中对于对比文献的检索问题转化为判断目标专利与对比文献是否相关的分类问题,并用深度学习代替人工阅读,解决专利的可专利性判断问题,从而将专利审查工作转化为专利相关性判定模型构建和专利无效判定模型构建两个步骤。
本研究首先针对传统的基于信息检索查找对比文献方法的不足,将专利特征从文本相似度扩充到由文本相似度、共现词汇、共现词汇数量构成特征数据集,并选择多个模型对专利相关性进行判断,其中最优F1值达到63.1%。结果显示对相关性判断结果而言,高度专业化共现词汇的贡献远大于文本相似度,这说明文本相似度不足以揭示专利相关性,需要加入更多文本、专利属性和结构等方面的特征因素,以提升模型效果。
其次,通过挖掘对比文献说明书与目标专利权利要求项之间的相关因素来判断目标专利是否无效,具体而言,通过文本相似度计算将与目标专利权利要求项最相关的对比文献说明书段落抽取出来,并以向量形式输入BiDAF-HAN模型中进行专利无效判定。实验结果显示仅通过浅层语义的文本相似度不足以挖掘专利被无效的可能性,需要在对专利内容进行深层语义挖掘的基础上集成领域知识等多种信息才能取得一定效果。
利用人工智能解决复杂的专利审查工作是一项极具挑战的研究,后续研究可以从两个方面进一步展开,一是探索面向深层语义的自然语言处理模型,二是集成除专利文本外更加丰富的特征,如技术分类号、引文信息等,以提升模型效果。
其他文献
随着科学研究活动的日益发展,数字图书馆及其相关来源所包含的学术资源体量越来越庞大,学者特征愈发分散而复杂,学者姓名消歧、学者识别成为亟待解决的问题。为揭示数字图书馆及相关资源中所包含的学者学术属性,实现学术成果的集成与应用,提升数字图书馆资源建设与特色服务,本文基于数字图书馆及相关资源,研究学者标签体系构建方式,为数字图书馆的学术画像构建和学术资源的描述提供理论模型和实践方法。 在理论研究方面,
新媒体平台的本质是社交媒体,依托于网络,对象是广大网民,兼具发布功能,因而在一定程度上与新闻媒体有相似之处。两者都能对社会热点问题做出及时反馈。但微信公众号学术资源较为分散,且质量参差不齐。集中揭示质量较高的学术信息资源,不仅有助于拓展信息资源建设内涵,更可以利用知识组织相关方法和工具对其中富含的知识单元进行识别和计算,为后续开展学术热门话题识别与跟踪服务、个性化学术信息推荐服务等打下基础,以进一
标准体系是一定范围内的标准,根据其内在联系形成的科学有机整体,它是编制标准和修订计划的依据。标准体系包含了宏观标准体系和微观标准体系两种,其中宏观标准体系是指某领域所有标准构建的体系结构,微观标准体系是指某个标准的体系结构。无论是宏观标准体系还是微观标准体系,若要进行标准体系构建,标准工作者就需要从海量资源汇中提炼出大量的概念、关系、结构,需要耗费大量的人力、物力。为解决这一问题,本文提出了一种基
在知识经济时代,高层次科技人才是经济发展的巨大驱动力。吸引集聚高层次科技人才是发挥其科技创新能力的前提保障。因此,研究创新型城市中高层次科技人才的集聚规律和特征以及剖析高层次人才聚集过程中的规模数量、人才类型、学科背景、来源地与创新型城市发展的关系一方面可以更好地激发高层次人才的最大潜力、发挥人才集聚效应,另一方面可以为城市引进人才提供方向参考,提高引才成功概率。 本论文以城市为单元研究高层次科
近年来,随着社会经济的发展和国家对科研活动投入的加强,我国科技整体水平持续提升。但伴随着科技事业的迅速发展,科研活动中的科研不端行为屡有发生,其中主要出现在以高等院校与科研院所为主的科研机构中,严重影响了我国科技事业的发展进程。此时,我国正加快推进世界顶尖科研机构的建设,科研诚信作为创建顶尖科研机构的重要保障,对我国科研机构的发展至关重要。因此,有效衡量科研机构的科研诚信建设化水平,进一步加强科研
以人工检索与判别为主的传统科技查新存在两个不足,第一严重依赖“人力”和专家资源,在科技发展速度不断加快,科技查新业务爆炸性增长的今天,传统方式难以应对海量业务;第二,科技查新并非简单的文献检索问题,科技查新数据有其独特的内部和外部特征。同时人工智能技术取得了长足发展,利用机器学习技术对科技查新流程进行更新和升级,有其必要性和紧迫性。 由于科技查新是以文献检索为基础,对检索结果综合分析并进行新颖性
近年来,随着国内外学术不端行为不断被曝光,科研诚信问题引起了各国广泛关注,我国科研诚信问题涉及面广,社会各界对科研诚信问题的关注度高。国际学术期刊撤稿事件成为媒体焦点,学术期刊作为科研活动的重要一环、科研成果的重要载体,面临着负面问题的挑战,对学术期刊的负面影响的研究成为一个新的课题。本文通过建立学术期刊负面问题指标体系,从负面对期刊进行评价分析,一方面可以反映学术期刊负面问题的分布情况,了解主要
术语是领域专家用来刻画、描写领域知识的基本信息承载单元,也是科技文献的核心成分,因此术语翻译的准确性将直接影响到科技文献翻译的整体质量。机器翻译系统在翻译篇章级别的科技文献时,通常采用切分句子、逐句翻译再合并翻译的流程。此种翻译策略导致机器翻译系统在句子语境中对其中的术语进行翻译时,通常会遇到两个问题:1)领域不一致:术语具有较强的领域属性,在不同领域和上下文语境中,翻译会有差异,这种在领域发生变
改革开放至今,我国对外经济发展形式逐渐从简单的以劳动力和自然资源等为主的基础生产要素输出以及以产能和资本输出为主的产品输出,转向为以技术、标准、服务等打包的输出方式。尽管如此,我国在以知识和技术贸易为代表的国际科技合作中与发达国家仍存在差距。技术输出对于加速实现从中国制造到中国创造的转型升级,向先进的技术输出、标准输出国转变提供了一个历史性机遇。2013年“一带一路”倡议的提出则是我国推动技术输出
近年来,全球恶性肿瘤发病率和死亡率持续升高,如何利用已有的诊疗经验进行归纳总结,挖掘潜在的、有效的诊疗关系,以加强恶性肿瘤防治工作,成为医务工作者迫切需要解决的问题。随着我国医药卫生信息化的发展,各大医院已经积累了丰富的中文肿瘤电子病历。电子病历中蕴含着丰富的医学事实,然而其非结构化的文本结构,包含大量的医学专业术语、缩略语等特点,给大数据环境下电子病历的组织和利用带来极大的挑战。知识图谱作为人工