论文部分内容阅读
大数据时代的到来和机器学习领域的发展为我国的工程造价领域带来了新的机遇。通过工程造价领域与大数据领域的结合,我们可以充分利用工程造价领域长期积累下来的海量数据财富,从中挖掘出工程造价行业的发展规律和知识,为未来的工程建设和监管提供指导性意见。目前我国工程造价大数据领域仍然处于平台搭建、数据收集和规范化的初级阶段,存在大量问题。在这些问题中,解决清单的规范化分类问题对于基于统一标准从多个层次上分析工程造价构成的合理性具有重要意义,而解决清单综合单价的异常数据检测问题对于正确的计算工程造价和研究工程造价趋势具有重要意义。本文就选取了清单规范化分类和清单综合单价的异常数据检测两个问题作为切入点,具体工作如下:(1)我国工程造价领域由于历史原因原始数据中的清单分类标准比较混乱,领域内传统的基于规则匹配的清单规范化分类方法存在人工总结规则的效率低下,规则泛用性差等问题。在分析了清单数据中存在的专有名词量大,特征分布分散等特点后,本文针对这些特点实现和对比了几种清单分类方法的效果,并对结果的原因进行分析,同时参考了传统方法的分类效果,提出了一种基于多项式贝叶斯的工程造价清单规范化分类方法。(2)原始工程造价清单数据中存在很多异常数据,针对清单综合单价的异常数据检测,传统方法的检测维度比较单一,只能检测出综合单价与历史数据总体分布的差异较大的这类异常数据。而实际情况中还存在大量综合单价符合总体分布,但是远高于清单描述中工作所应有的价格,这类异常传统方法难以检测。本文提出一种以综合单价作为分类标签,根据清单分类方法研究它与清单描述的关联从而检测异常数据的方法,并通过实验验证了这种方法的有效性。本文根据这两种方法设计了具有清单规范化分类和清单综合单价异常数据检测功能的系统架构,将这一系统架构应用于工程造价大数据平台的数据规范化工作中可以减少人力成本并为之后的数据分析带来便利。