【摘 要】
:
在当前信息量呈爆炸式增长的背景下,为充分有效的利用信息资源,我们必须对信息资源进行良好的组织和描述,以建立高效的信息检索系统。图书作为最重要的信息资源载体之一,对其
论文部分内容阅读
在当前信息量呈爆炸式增长的背景下,为充分有效的利用信息资源,我们必须对信息资源进行良好的组织和描述,以建立高效的信息检索系统。图书作为最重要的信息资源载体之一,对其进行良好的信息描述,包括分类标引和主题标引都具有重要的现实意义。与西文不同,中文一是没有明显的分隔标记,二是语义上的复杂性,故中文图书的主题自动标引存在较大的困难。对此,本文尝试将该问题转化为序列标注问题,从而引入了信息抽取领域的机器学习方法,通过对大量已有的中文图书主题手工标引数据的训练和学习,产生序列实体之间语义关系和规则特征的模板,然后利用该模板进行机器预测,从而产生图书主题词。另外,在机器学习模型的选择中,考虑到朴素贝叶斯模型和最大熵模型需要条件独立性假设,忽视了随机变量之间事实存在的联系;而隐马尔可夫模型又存在标记偏置问题,且不能反映实体之间的长距离依赖,但幸运的是条件随机场模型能避免上述问题,在序列标注领域有很好的表现,故而本文采用条件随机场模型。同时,注意到条件随机场模型的参数选择会影响到系统的标注性能,故而笔者从多个方面进行了多组对比试验,确定了针对中文图书主题标引这一特定问题的条件随机场模型最佳参数,包括训练集大小、特征模板字长窗口数、特征模板特征元数、特征函数频次阈值、模型软边界参数。并用实验探讨了不同的观察特征对主题标引的影响,确定了四个能够提高标引性能的观察特征。最终笔者建立了基于条件随机场的中文图书主题自动标引模型,用实验证明了模型的可行性和实用性。然后总结了模型建立过程所需要注意的一些关键问题,并对后续工作进行了展望。
其他文献
水质化学需氧量(COD)是反映水体受污染程度的一个重要指标,在参照国标法和哈希公司提供的COD试剂配方的基础上,经过对哈希COD测定系统消解条件的筛选试验,确定了低量程剂最佳
物理概念是物理知识的最重要、最基础的组成部分,也是认识物理规律、构建物理公式、完善物理理论的基础和前提。物理概念的抽象性及高中生认知结构中的一些缺陷,构成了学生学
如何审查判断法医学鉴定结论□刘波司法实践中,基层公安机关对法医学鉴定结论审查判断工作做得较少,存在着对被害人或受害人提交的法医学鉴定结论不经审查判断,就作为定案依据的
提出一种新的基于用户访问路径分析的页面推荐模型。该模型采用在线处理方式,利用增量图划分方法形成页面聚类,依此生成动态页面推荐。模型以Apache模型的形式实现,可适用于
昆曲的显著特点之一是“依字声行腔”,即字腔的旋律走向与字的声调走向一致。在研究中,学者们通常会参考现代方言中的字声来研究昆曲字腔,或通过其他方法间接得出古代字声的
借助故障树相关理论,结合电能表现场故障分析数据,展开了基于单相智能电能表的黑屏故障分析方法研究。首先,进行故障统计与电能表结构分析,将引起电能表黑屏故障的原因进行分
本试验考察了在水泥中添加HY-FMH粉煤灰/灰渣助磨剂后水泥的各项物理和力学性能,结果表明该助磨剂具有良好的助磨和增强效果,可以使比表面积最大增加48m~2/kg,3μm~32μm含量
高性能的智能手机带来了手机UI设计的巨变。文章从用户体验的角度比较苹果IOS7.1和安卓4.2手机的UI设计,分析了智能手机UI设计的发展趋势。
文章就唐山矿洗煤厂重介质选煤工艺和重介质回收流程做了简要的评述,同时也对现行的煤泥重介质旋流器的分选效果进行分析和研究,并提出了一些观点。
<正>在中国现行户籍和教育制度的夹缝中,这些生于草莽的学校,左冲右突,一点点开拓着自己的生存空间。但现在,眼看着心血将付诸东流,办学者们一点办法也没有。