【摘 要】
:
数学信息检索(Mathematical Information Retrieval,MIR)以数学表达式为通用语言应用于科技信息领域,是信息检索技术的重要研究内容。由于数学表达式的二维结构特性,要实现性能较高、能够得到实际应用的MIR系统,还有待进一步的研究与开发。本文针对目前多数MIR中对数学查询表达式和候选包含数学表达式的文档集合的匹配大部分是以数学表达式为主,却忽略了数学表达式上下文中所包含
论文部分内容阅读
数学信息检索(Mathematical Information Retrieval,MIR)以数学表达式为通用语言应用于科技信息领域,是信息检索技术的重要研究内容。由于数学表达式的二维结构特性,要实现性能较高、能够得到实际应用的MIR系统,还有待进一步的研究与开发。本文针对目前多数MIR中对数学查询表达式和候选包含数学表达式的文档集合的匹配大部分是以数学表达式为主,却忽略了数学表达式上下文中所包含的数学语义,从而影响检索性能的问题,提出一种融合数学表达式及其上下文文本信息的融合检索方法。首先,对含有数学表达式的中文科技文档进行遍历,利用规则和统计相结合的信息抽取方法提取文档中的数学文本;然后,通过构建数学转换词典将这些数学文本转换为LaTeX格式的数学表达式,并将这些由数学文本转化而来的表达式与文档中原有的数学表达式一同转化为二叉树结构,提取特征并建立索引;最后,设计相应的匹配算法,实现数学表达式和上下文文本信息的融合检索。通过对8532篇中文科技文档进行实验分析,将本文方法与只采用数学表达式进行检索的方法对比,检索结果评价指标比只采用数学表达式的检索方法有所提高,表明本文方法有助于改善数学表达式检索系统的性能。
其他文献
近年来,聚合物太阳能电池(PSCs)得到广泛关注的同时,其能量转换效率也超过了 13%。然而一个亟待解决的问题是它缺乏长期的稳定性。交联作为一种提高PSCs稳定性的有效方法从而被
目的:脂联素(Adiponectin,ADIPOQ)作为脂肪组织分泌的一种重要物质与结直肠癌(Colorectal Cancer,CRC)患病风险密切相关,脂联素受体1(AdipoR1)的基因多态性通过影响脂联素基
近年来质子交换膜燃料电池(PEMFCs)因其具有能源转化效率高,无污染和功率密度高等优点而备受关注,被视为一种很有前景应用的电力设备。而质子交换膜作为燃料电池的核心器件,
波纹巴非蛤是我国东南沿海重要的海产经济贝类之一,每年的产量约为10万吨。开展波纹巴非蛤不同组织总类胡萝卜素含量(TCC)以及斧足颜色差异分子机制的相关研究对波纹巴非蛤优
复杂网络分析中的社区发现涉及到生物学、物理学、社会网络等多个学科,至今仍是一个非常具有挑战性的问题。通俗地讲,复杂网络中的一个社区是紧密相连的子网络,并且该社区同外部网络之间连接相对稀疏。社区结构广泛存在于社交网络、生物网络、交通网络和无线传感器网络中,并能反映出复杂网络的动态特征与功能。挖掘复杂网络中的社区结构已广泛应用于恐怖组织识别、蛋白质功能预测、个性化推荐和信息检索等领域。近年来涌现出了许
电力系统中发生的各种扰动会破坏系统的稳定性,严重时将导致用户供电中断,甚至使整个系统崩溃,因此及时定位扰动源的位置有利于维护电力系统运行稳定性,而扰动定位准确与否与
本论文主要工作是通过铺铀掺杂YAG,合成具有一定透过率的闪烁透明陶瓷材料,主要内容包括两个部分:第一部分:单掺铀的Y3Al5012陶瓷,掺杂铀离子取代部分Y3+在晶格中的位置。通
最小延时问题是旅行商问题的变体,目的是求解路线中所有客户的累计等待时间,最小延时问题相比于旅行商问题更难以解决。目前的求解方法,只能在客户数量较小时具有较高的性能,
目的:耐辐射奇球菌(Deinococcus radiodurans,DR)对电离辐射、丝裂霉素C(mitomycin C,MMC)和过氧化氢等极端环境因素的冲击有强大抵抗力,课题组前期结果表明耐辐射奇球菌pprM/ppr
播散性隐球菌病是由新型隐球菌经血行播散导致中枢神经系统、肺、脑等多器官感染的深部真菌病。因该病发病率低,起病隐匿,临床表现无特异性,早期不易发现,误诊率高。本文报道