【摘 要】
:
主题模型可以帮助发现专利文本中潜在的语义信息,并且以概率分布的方式展现出来。其结果具备良好的数学性质,简单直观,不但可以帮助专利分析人员快速了解某领域专利语料库的
论文部分内容阅读
主题模型可以帮助发现专利文本中潜在的语义信息,并且以概率分布的方式展现出来。其结果具备良好的数学性质,简单直观,不但可以帮助专利分析人员快速了解某领域专利语料库的概况,而且可以用于专利分类、专利信息抽取等进一步的专利挖掘任务中。近年来,国内外研究学者主要基于单词之间的共现关系来发现隐含主题。所生成的结果由单词依概率排序组成,缺乏深层次语义信息,可解释差。一方面,该类主题模型难以提取语义丰富的低频词,主题结果向高频词倾斜,导致主题表达能力减弱;另一方面,大量语义丰富的短语被拆分,导致主题结果难以解读。同时被切分的短语造成了额外的共现关系影响了主题结果。一般来说,短语比单词拥有更加丰富的语义信息且人类对于主题结果的解读往往依赖于短语。因此本文提出一种面向专利的主题短语提取方法,该方法在短语集合的基础上构建主题模型。主要工作如下:(1)根据专利文本的特点,本文提出一种面向专利的短语自动提取方法。首先,利用频繁短语挖掘算法生成候选短语集。然后利用词法规则进行过滤。其次选取候选短语的一致性、信息性、术语度、TermRank四个统计信息作为特征。最后利用随机森林分类算法进行训练,使用训练好的模型对候选集进行过滤。(2)本文提出一种基于短语的主题模型GW_PhraseLDA,该模型是在PhraseLDA的基础上进行改进。PhraseLDA在建模过程中考虑短语,一定情况下突出了短语的作用,但还是会受到短语共现关系稀疏问题的影响。且在专利文本中,不同的短语会表达相似的意思,但PhraseLDA不能有效识别该关系。本文将词向量和波利亚罐子模型引入到PhraseLDA中有效的解决了上述问题。在新能源汽车领域中文专利上的实验表明,本文所提出的模型能够有效的提高主题生成质量,相对比传统主题模型更具有可解释性和判别性。
其他文献
六方氮化硼(h-BN)作为兼具石墨烯规则六角晶格和半导体性质的一种新型材料,在块材合成到薄膜材料合成的进化过程中发掘了极多优异的性能,如光滑无悬挂键的表面促使面内的高载流子迁移率,规则的六角晶格原子结构带来稳定而高韧性的材料性质,宽禁带结构导致其有深紫外的应用潜力,并且还兼具高热导率和化学惰性,而成为一种高质量先进材料。但在制备合成材料本身的过程中往往存在许多问题,譬如无法大面积合成单层薄膜,在与
在初中数学的教学过程中,主要的教学目标集中在培养学生的数学思维方面,只有让学生建立了理性的数学学习思维,才能够保证学生在学习与生活中正确的运用数学。初中数学教学过
阿南凹陷地处于二连盆地马尼特坳陷东北部阿南宽缓背斜构造带上,面积为1100km~2,油气储量较大,在二连地区,阿南凹陷为最大的富油凹陷之一,也是最早被发现并形成产能的凹陷。
近年来,综合性能优异的双金属复合管已广泛于石油化工、海洋开发、航空航天等领域。现阶段,用于制备双金属复合管的成形工艺有很多,但各种成形工艺都有一定的适用范围,而内旋压成形工艺作为一种新型管材柔性成形工艺,它具有工艺灵活、材料利用率高、加工成本低、生产效率高、成形精度高等特点,在双金属复合管成形领域中具有广泛的应用前景。在内旋压成形过程中,不同的工艺参数对双金属复合管成形质量影响规律不同,若不对工艺
童蒙书法教学理论的形成是一个漫长的过程,在唐代逐渐发展、成熟。唐代童蒙书法教学理论无论是在教育方式、教学模式还是在教学方法、教材上对我们今天童蒙书法教育仍有一定
梁丰高中基于省级课程基地《高中生体验式生涯规划》,加强学生发展指导,培育师资团队,努力构建课程,积极搭建平台,注重志趣培养,进行了生动活泼、富有实效的新时代高中生生涯
写作作为语言知识的输出环节和创造过程,是英语综合运用能力能够取得进步的必经之路。在初中英语写作教学中,受班级人数、时间和观念的制约,仍以传统的教师评价为主。教师在写作教学中往往注重如何去教而忽略如何去评,学生难以取得及时有效的评价,以至于写作评价收效甚微,学生普遍缺乏自主写作意识。笔者在教学中发现,学生习惯按照汉语思维写英文句子,且表达方式缺乏多样性。近年来,由文秋芳教授提出的师生合作评价,越来越
将碱渣与粉煤灰按一定比例拌合,在常温下加入碱性激发剂硅酸钠溶液制备出一种碱渣聚合物土,旨在解决碱渣与粉煤灰拌合成工程土后水稳性、抗干湿循环能力和冻融循环性能力差的
我国建国初期实行计划经济体制,在这个时期,以煤炭业为主导产业的资源型城市经济迅速崛起,在我国经济发展中有着重要的作用。在国家开始实行市场经济体制后,国家对煤炭产业停
随着社会的快速发展,机遇与挑战并存;伴随技术的驱动、全球格局的变动、个人价值观的多元,不确定性和不稳定性增加。自中国改革开放以来,我们见证了中国在政治、外交、经济、