论文部分内容阅读
随着企业信息化工程建设的不断推进,计算机管理信息系统代替了传统的纸质存档管理模式,实现了无纸化办公。从建设监理单位信息资源管理的角度分析,最珍贵的资产就是记录着各种各样信息的文本资料,并且在监理单位的信息管理系统中存储着大量有价值的电子文档。而这些文本的种类繁多且杂乱无章,在归档时却需要按照文件规定的类别进行有序类别存放。而传统的处理方式为人工标注类别,此方法又存在人力不足、处理不到位、统计出来的结果和现实之间存在差异等问题。针对以上问题,为了解决建设监理单位面对大量的文本资料可以实现快速有效的分类,解决监理单位存在的人力资源匮乏、工作任务繁重以及工作效率低等难点。该文在深入研究文本挖掘相关技术理论尤其是其中的文本分类技术的基础之上,设计了面向监理工程文本的自动分类器,以此来提高工作效率。论文首先通过实地调研和查阅相关资料,分析了监理工程文本的重要性,以及对它的管理方法,总结了现有管理方法存在的问题。其次,深入研究了文本挖掘技术相关理论知识,对文本分类技术进行了详细研究。然后,归纳了中文分词存在的问题,针对未登录词不能识别的问题,整理了监理工程领域相关的专业词表。接着,对TF-IDF算法进行了分析,针对未考虑特征词在文本中不同位置出现的权重大小不同问题,提出了基于标题和正文的TF-IDF算法。最后,介绍了朴素贝叶斯分类算法,对伯努利模型和多项式模型进行了比较分析,针对传统朴素贝叶斯未考虑不同特征词对分类的影响具有差异性问题,提出了改进的加权朴素贝叶斯。在以上的研究基础之下,采用java语言研制了面向监理工程文本的分类系统。最后以三环监理咨询公司提供的监理通知单数据集开展了实验,分别进行了特征选择、权重计算、分类算法三组实验对其验证。经过特征选择实验,确定了用于面向监理通知单效果较好的特征选择算法即卡方统计;经过权重计算实验,确定了引入到TF-IDF算法中的参数的值即?=1.2,?=0.8;经过分类算法实验,验证了加权朴素贝叶斯分类算法得到的分类结果,在查准率平均值上高2.7%、查全率平均值上高1.4%、F1平均值上高2%。实验结果表明,论文采用的方法可以有效的用于监理通知单分类,具有实用价值。