【摘 要】
:
本文对基于词向量的化学领域知识发现进行了研究。随着数宁化信息的迅速增长,以及信息处理技术的快速发展,人们希望能够自动、快速、准确、高效地从海量信息中定位、查找、发现
论文部分内容阅读
本文对基于词向量的化学领域知识发现进行了研究。随着数宁化信息的迅速增长,以及信息处理技术的快速发展,人们希望能够自动、快速、准确、高效地从海量信息中定位、查找、发现有价值的信息和知识。知识发现是将信息转化为知识的过程,建立在理解文本语义信息基础上的知识发现过程,才能更好地挖掘出蕴含在文本中的知识。由于知识在文献中的表示具有抽象性、非结构化、潜在性等特点,因此通过共现、规则和关联等数据挖掘方式很难在体现词的语义性和句子的语法性下进行知识发现工作。中文文本处理的基础是分词,即将句子或是文章分隔成相互独立的词单元。独立的词单元导致大量信息被遗漏,例如词在句子中的语法信息和词间的语义信息。同时,词是符号单元,只能做字符比较或是简单的统计处理。在知识发现中通常要使用更为复杂的计算方式,用以挖掘隐藏于文献中的知识元素。因此,需要包含更多词特征且能够满足复杂计算的词表示方式。词向量以多维实数向量表示词单元,通常使用深度学习算法对大量文本训练得到,其中,向量的每一维可以表示词的某一种特征。本文将词向量应用于知识发现领域,并改进整个过程中重要的环节,包括分词优化模型、结合词类别的词向量模型和领域知识发现模型。
其他文献
从组织共享心智模型的角度,探寻组织知识创新战略形成的内在价值取向、知识基础以及不同组织共享心智模型背景下,组织知识创新战略形成过程的“轨迹曲线”。最后就如何构建一
阐述积极心理学的研究内容与主要观点,并从三个方面探讨积极心理学在图书馆事业发展中的意义和作用:首先,在分析读者心理学边缘化状态成因的基础上,指出图书馆心理学通过吸收
企业竞争情报总是蕴涵在多维数据环境中,需要对其采取多维挖掘手段.试图从利用知识情境辅助企业竞争情报多维挖掘入手,深入剖析知识情境在企业竞争情报挖掘过程中起到的关联
在全球知识经济发展的大背景下,跨学科研究蓬勃兴起。作为科学研究实践的重要形式之一,跨学科研究已与技术创新一起构成了知识经济时代推动社会发展与经济增长的强大动力。研究
在介绍信息共享空间概况的基础上,结合我国高校图书馆实践的现状,分析建设信息共享空间的非技术因素,包括经费和模式的选择、管理、实体空间的布置、评价等4个方面,得出“因
入侵杂草刺萼龙葵Solanum rostratum Dunal传播扩散的主要载体是种子,研究其种子休眠萌发基因的激素调控对于其防除具有重要意义,而选择合适的内参基因可以提高相关基因表达
国际图联/联合国教科文组织颁布的《公共图书馆宣言》指出,“每一个人都有平等享受公共图书馆服务的权利,而不受年龄、种族、性别、宗教信仰、语言或社会地位的限制。公共图书
针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间
对科学家科学贡献影响因素的研究,既需要理论探索也需要实证分析。为了探讨杰出科学家科学贡献的影响因素,本论文从杰出科学家的论文生产力、影响力和创造力的角度对其论文数、
4月4日,省委常委、常务副省长冯飞到余杭区检查清明期间森林防火工作,先后对森林防火物资仓库、重要进山卡点与观察哨进行走访调研,了解当前野外火源管控和森林防火工作开展