面向监理工程的文本挖掘应用研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:yanrj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化工程建设的不断推进,计算机管理信息系统代替了传统的纸质存档管理模式,实现了无纸化办公。从建设监理单位信息资源管理的角度分析,最珍贵的资产就是记录着各种各样信息的文本资料,并且在监理单位的信息管理系统中存储着大量有价值的电子文档。而这些文本的种类繁多且杂乱无章,在归档时却需要按照文件规定的类别进行有序类别存放。而传统的处理方式为人工标注类别,此方法又存在人力不足、处理不到位、统计出来的结果和现实之间存在差异等问题。针对以上问题,为了解决建设监理单位面对大量的文本资料可以实现快速有效的分类,解决监理单位存在的人力资源匮乏、工作任务繁重以及工作效率低等难点。该文在深入研究文本挖掘相关技术理论尤其是其中的文本分类技术的基础之上,设计了面向监理工程文本的自动分类器,以此来提高工作效率。论文首先通过实地调研和查阅相关资料,分析了监理工程文本的重要性,以及对它的管理方法,总结了现有管理方法存在的问题。其次,深入研究了文本挖掘技术相关理论知识,对文本分类技术进行了详细研究。然后,归纳了中文分词存在的问题,针对未登录词不能识别的问题,整理了监理工程领域相关的专业词表。接着,对TF-IDF算法进行了分析,针对未考虑特征词在文本中不同位置出现的权重大小不同问题,提出了基于标题和正文的TF-IDF算法。最后,介绍了朴素贝叶斯分类算法,对伯努利模型和多项式模型进行了比较分析,针对传统朴素贝叶斯未考虑不同特征词对分类的影响具有差异性问题,提出了改进的加权朴素贝叶斯。在以上的研究基础之下,采用java语言研制了面向监理工程文本的分类系统。最后以三环监理咨询公司提供的监理通知单数据集开展了实验,分别进行了特征选择、权重计算、分类算法三组实验对其验证。经过特征选择实验,确定了用于面向监理通知单效果较好的特征选择算法即卡方统计;经过权重计算实验,确定了引入到TF-IDF算法中的参数的值即?=1.2,?=0.8;经过分类算法实验,验证了加权朴素贝叶斯分类算法得到的分类结果,在查准率平均值上高2.7%、查全率平均值上高1.4%、F1平均值上高2%。实验结果表明,论文采用的方法可以有效的用于监理通知单分类,具有实用价值。
其他文献
传授知识,做知识的传播者,自古以来就是对教师行为的一种普遍的认识。随着时代的变迁,教师作为文化的传递者的基本角色没有改变,在新时代教师的角色却越来越向多重化方向发展
为了解城市建成环境对儿童少年体力活动的影响,进而为我国城市设施建设提出一些参考建议。采用文献资料法,以关键词"Built environment"、"teenagers"、"Physical Activity"
本文主要探讨子宫肌瘤手术后针对疼痛患者的护理方法。子宫肌瘤主要由子宫平滑肌细胞增生而形成。其中有少量结缔组织纤维仅作为一种支持组织而存在,其确切的名称应为子宫平
叶圣陶早期童话中的重复叙事是普遍存在的,这种重复叙事的形成,既是作家尊重儿童欣赏心理的表现,又是由于人类的文化心理原型——重复原型的存在。这种重复叙事在叶圣陶的早
移动互联网时代,以微博、微信为主要代表的移动通信终端在社会各领域的广泛应用,为高校档案信息服务工作提供了借鉴,将微博、微信公众平台等应用于高校档案工作之中,既是互联
建筑环境艺术中情感意义的追求,对建筑环境设计师而言,是永远的诱惑。设计师须领会各种人类情感的运动或变化规律,找到他们的具体活动式样,并将他们体现于建筑的形象之中,这就是建
色彩,作为一种重要的艺术要素,承载着绘画的灵魂精神。而在多种多样的艺术样武中,色彩不同的文化内涵表现在不同的文化背景中,都能体现出绘画的意义。不同的色彩文化、感受、表现
目的分析中药汤剂联合推拿按摩治疗骨伤后期肢体肿胀的临床效果。方法入选2012年3月至2014年3月我院的骨伤后期肢体肿胀患者50例,根据随机分配的原则将50例患者分成对照组与
正当防卫与防卫过当之间存在些许区别,同时也是这些区别决定了无罪与有罪的界限,而罪过是认定是否构成防卫过当的重要内容,基于此,本文探讨的就是构成防卫过当的罪过形式。