【摘 要】
:
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此
论文部分内容阅读
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此,中文科技论文文本分类研究具有较高的理论研究价值和应用前景。本文针对中文科技论文文本特殊的文体格式和语言风格进行了系统地研究。全文主要从预处理、特征提取和分类算法三大部分展开,重点研究了基于自然语言处理的特征提取和基于层次分类模型的分类算法。预处理方面,本文分为两个步骤:科技论文文本数据预处理和中文分词处理。特征提取方面,分为文本特征表示和文本特征优化,而重点放在文本特征表示这一部分。在自然语言处理方面,主要建立了基于自然语言处理的特征提取模型。语法分析层面,本文提出一种基于词性判断规则的组块分析策略,对自然语言进行“分而治之”的语法分析;语义层面,结合中文科技论文文本的强领域特征建立了一个领域概念树模型,并在此基础上进行了概念语义分析;语用层面,则在概念层上基于词汇间相似度和关联度,提出了一种语境分析方法。实验表明,在自然语言处理中,选择领域概念作为特征项,其宏平均下的F1值为79.35%,微平均下的F1值为88.00%。在分类算法方面,本论文提出了一种新的层次分类模型,为分类算法建立了一个优良的模型依据。它的基本思想可以分成三个步骤:首先根据复杂特征集中的结构成分标记(组块标注)来分裂结构成分;然后对构成归并类别的结构成分进行分类处理;最后通过归并类别的相似度阈值来判断是否与下一个归并类别共同分析。实验表明,随着分类类别粒度的细化,采用新的分类算法的分类器在精确率和召回率方面优势逐渐突出。相对于KNN、NB和SVM分类器更适合于中文科技论文文本的分类要求。
其他文献
苏霍姆林斯基说:“如果你想让教师的劳动能够给教师带来乐趣,使天天上课不至于变成一种单调乏味的义务,那你就应当引导每一位教师走上从事研究这条幸福的道路.”
随着农村经济的快速发展和农民生活水平的不断提高,农村环境污染和生态破坏日益严重,农村生态环境日趋恶化,严重影响了农村的经济建设和可持续发展.因此,我们在发展经济的同
本文采用单因素随机区组设计,研究了绿磺隆、二甲四氯、盖草能和禾耐斯四种除草剂对胡麻安全性的影响,在此基础上,进一步探讨了这四种除草剂对胡麻田模拟禾本科杂草及模拟阔叶杂
分子标记技术是80年代中期以来随着分子生物学的飞速发展建立起来的以遗传物质DNA为基础的新型遗传标记体系。虽然其产生仅十几年时间,但已广泛应用于植物遗传育种,如构建分子遗传图谱、重要农艺性状基因的定位等。而宝贵的遗传学材料历来受到人们的重视,比如非整倍体、单体、端体、置换系、附加系等。本研究将细胞遗传学材料与现代分子标记技术相结合,利用异源四倍体棉花的陆地棉置换系进行农艺性状基因染色体定位,...
农业是支撑国民经济建设与发展的基础产业,是社会发展的首要条件。研究建立我国精确农业技术体系,大力发展信息化与自动化农业技术,实现农业生产管理过程中对作物、土壤、环
可靠高效的实时交通信息采集是建立智能交通运输系统的关键。随着GPS、GIS和无线通信技术的广泛应用,利用安装了GPS和无线通信设备的浮动车采集交通信息,已经成为一种新的交通
本文以青海大学农林科学院油菜研究中心,通过甘蓝型油菜(039、E144)与青藏高原白菜型油菜浩油11种间杂交获得的66个新型甘蓝型油菜品系为研究对象,主要进行以下几方面研究:(1)、考察新型甘蓝型油菜的农艺性状和品质性状与亲本的差异,并筛选出优质农艺性状或品质性状的品系。(2)、在新型甘蓝型油菜品系中筛选出Polima不育系的恢复系和保持系。(3)、通过配合力测定探明新型甘蓝型油菜与普通甘蓝型油菜
将车载道路测绘系统采集得到的GPS轨迹转化为道路曲线矢量图层是导航数据库生产的核心环节之一,但目前国内导航地图生产部门在此环节上所采用的技术较为粗糙,且主要依赖人工操
缺磷是当今发展玉米生产所面临的限制因素之—。玉米耐低磷分子标记辅助育种是提高玉米品种耐低磷能力,减少低磷造成产量损失的有效途径。近年来,大量研究表明,在表型鉴定的
神东矿区煤炭资源赋存丰富,煤层埋藏相对较浅,煤质优良,地质条件简单,易于实施高强度开采。高强度煤炭开采引起的地表破坏导致生态环境恶化,严重制约了矿区的可持续发展,因此