面向航运领域的文本分类系统

被引量 : 0次 | 上传用户:smsyzgc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前世界上许多国家已开始着手数字文献的整理与永久保存工作,研究和探讨数字文献的开放获取与共享、知识库的领域专业化和图书馆的数字化等数字资源建设问题。在我国航运信息文献库的建设和维护过程中,同样面临航运专业文献尤其是网络文献人工分类的精度低、时效性差和代价高等严重问题,必须借助自动分类技术加以解决。本文在描述文本自动分类常用技术方法的基础上,通过深入研究文本分类技术及相关算法,包括分词、特征提取、训练、性能评估等几个主要部分内容,针对航运领域的文献特点,开展了面向航运领域文本分类系统的需求分析和总体设计。构建了用于对航运领域专业文献进行文本分类所使用的语料库以及必要的航运专业文献的分类体系,并完成了对语料库中文本的预处理工作。进而,在系统中采用五种文本分类方法,实现了对航运领域专业文献大规模真实文本的文本自动分类工作,并进行了实验验证和结果分析。分类中实现的算法包括最邻近、朴素贝叶斯、支持向量机、决策树和类中心分类五种常用的文本分类方法。通过列举大量的实验数据,分析出了各分类器在不同类别样本上分类能力的差异性。建立面向航运领域的中英文文本分类系统,能够极大地推动我国航运信息资源建设进程,带动相关领域信息资源建设的迅速发展,具有重要社会意义和科学研究价值。通过实验分别对以上算法进行了评测和比较,得到了相关参数的经验值,实验数据可用于航运领域文献的信息检索、信息过滤、图书馆文献分类等研究中。
其他文献
随着计算机和多媒体信息技术的飞速发展,数码相机、打印机、扫描仪等设备迅速普及,数字图像的使用范围越来越广泛。数字图像的广泛应用也带来了对其内容的真实性认证和完整信
句首多项状语的类别是按意义划分的,而排列的顺序既受制于意义也受制于结构。本文分作五个问题作了具体描写:一、时间义状语和时间义状语连用;二、处所义状语和处所义状语连用;三
期刊
本文研究了cd(11)-3.5一二溴-PADAP-SDS-OP.显色反应条件.在pH8.60的硼砂-硼酸-氯化钠缓冲溶液中,橙红色配合物的最大吸收在575nm处,表观摩尔吸光系数为1.44×10~5.镉量在0~16
<正>头疼脑热、腰酸背痛,身体抱恙时不急着跑医院,先在手机应用里问问医生,搜搜类似病症。有了移动医疗App,人们对这样的场景不再陌生。数据显示,我国移动医疗App发展迅速,现
投资作为上市公司的一项重要活动,决定着公司的业绩和发展前景,是公司财务决策的起点。实际中由于决策过程的复杂性和影响因素的多样性,企业投资行为往往偏离其最优规模,表现
自从实行村民自治制度以后 ,广东珠江三角洲经济发达地区农村超越了一般农村在村民自治制度背景下实行的单一性民主治理模式 ,通过能人治理与制度化治理相结合、权威治理与专
目的:分析对慢性盆腔炎所致慢性疼痛患者给予中药灌肠和盆腔炎治疗仪联合治疗的临床效果.方法:随机选择我院在2015年2月-2018年2月内收治的盆腔炎所致慢性疼痛患者50例,按照入
P2P技术的发展对传统版权法构成了挑战。因为P2P的技术特点,导致版权人难以向直接侵权人求偿,使得版权人转而寻求网络服务商承担侵权责任。传统版权法对于间接侵权行为缺乏阐
简要回顾了多波束条带测深技术的发展过程,并对影响多波束条带测深仪推广使用的主要原因进行了分析,在此基础上指出,降低成本、简化系统,实现小型化多功能是多波束条带测深技术的
为筛选出观赏性较高、具有开发潜力的东兴金花茶(Camellia tunghinensis)植株,在野外选择50株长势较好的东兴金花茶成年植株进行观测,测量每个个体的12个指标(冠幅/地径(X1)