【摘 要】
:
随着图书馆日常工作的数字化和自动化推进,图书馆书目数量以指数级水平增加,利用人工手段解决书目的分类工作已经变得力不从心,将自动分类系统引入到中文书目分类任务中来就变得迫在眉睫。因此,本文试图构建一个中文书目自动分类系统来实现高效分类。中文书目自动分类系统主要包括了数据预处理、特征提取、文本表示和分类算法选择几个部分。对每个部分进行描述其工作原理以及相关的参数设定。前人所构建的中文书目自动分类系统主
论文部分内容阅读
随着图书馆日常工作的数字化和自动化推进,图书馆书目数量以指数级水平增加,利用人工手段解决书目的分类工作已经变得力不从心,将自动分类系统引入到中文书目分类任务中来就变得迫在眉睫。因此,本文试图构建一个中文书目自动分类系统来实现高效分类。中文书目自动分类系统主要包括了数据预处理、特征提取、文本表示和分类算法选择几个部分。对每个部分进行描述其工作原理以及相关的参数设定。前人所构建的中文书目自动分类系统主要是基于传统词袋模型,且没有应用集成学习这一具有极高分类准确率的算法框架。对此本文做出了文本表示和分类算法选择方面的改进。在文本表示方面,本文对比了传统词袋模型中的词频模型和TF-IDF模型,分布式表示方法中的Word2vec模型和GloVe模型在中文书目表示能力上的差异,通过实验发现分布式表示方法在书目表征能力上远胜于传统词袋模型。通过调整题目和摘要的权重比例,找出对书目表征能力最高的权重比例为1:4。最后提出了一种分布式混合表示模型,将Word2vec和GloVe的不同表示特点结合起来,将两者所产生的书目向量以相同的权重拼接起来,获得了最好的书目表征能力。在分类算法选择方面,引入集成学习算法框架,通过对比不同基学习器,支持向量机、决策树、朴素贝叶斯以及反向传播神经网络的集成分类效果,获得一个高效的中文书目自动分类器。实验发现,在集成学习Bagging框架下,反向传播神经网络算法的分类准确率达到90.19%。将本文构建的中文书目自动分类系统应用到多层中文书目自动分类任务中,发现低层次的分类准确率高于高层次的准确率。分析其原因,主要是由不同层次类别样本分布均匀程度不同造成的。最后通过实验分析了样本数量和类别个数对分类准确率的影响,得出结论:样本数量越多,分类准确越高,当数量超过40000条时,分类准确率基本保持稳定;类别个数越多,则分类准确率越低。经过多次实验,证明了本文所构建的中文书目自动分类系统有着较高的分类准确率,能够应用于图书馆的中文书目自动分类工作中,为书目分类问题提出了新的解决方法。
其他文献
随着半导体工业的不断发展,掩模上图形的尺寸也越来越小,邻近效应越来越严重,对邻近效应的修正也就越发重要、越发困难。主要介绍了邻近效应及其产生机理,并以Leica SB350电
星载合成孔径雷达是一种高分辨率的微波遥感设备,在遥感成像领域有着举足轻重的地位,它具有全天时、全天候、大面积成像的工作能力,并对地物有一定的穿透能力,这些特点使它在
现针对高校快递网点效率和自动化程度低、运作流程粗糙等特点,本文以东北林业大学小麦公社为例,设计一套完整的高校快递网点优化方案。具体基于RFID技术、应用流程再造的思想
自然是人类生存的外部环境,为人类提供生存的必需材料,是人类持续发展的基础。自然条件与环境决定着生活在此的人们的生产、生活方式,也借助语言进入人脑的“第二现实”,成为
使用多个单片机结合PC机组成分布式系统,采用射频识别(Radio Frequency Identification,RFID)技术代替传统条码技术,实现了基于RFID的校园快递物品管理系统,提高了数据采集效
苏西区域位于鄂尔多斯盆地中部,具有明显的"低渗、低压、低产、高含水"特征,随着开发的深入,气井多具有产液量大、积液情况严重、产能递减较快等特征,本文从气藏储层特征入手
文章基于2016年柴河林业局森林资源二类调查结果,将柴河林业局森林资源区划出5个森林生态功能区,并根据立地条件和生态重要性等要素对柴河森林经营组织进行了划分,划分出6种
可选择毁伤元战斗部(Selectable Warhead)是指在单一的成型装药结构下,能够分别形成多种不同类型的聚能侵彻体。目前,成型装药侵彻体已经发展为三种典型的类型,即金属射流(JET)
财务信息化是现代企业管理的核心内容之一。军工科研院所作为中央企业的重要组成部分,在财务信息化过程中取得了较大的成绩,但仍存在许多不足之处。本文在介绍军工科研院所目
针对现有方法在移动终端用户群体发现中不能兼顾社会关系和位置属性的问题,提出基于反向标签传播算法的重叠群体发现方法.根据移动终端用户的位置信息推断社会关系拓扑图,提