基于机器学习的住宅批量估价方法研究 ——以北京海淀区二手住宅为例

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:tiefer34
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,房地产行业的快速发展,得益于我国政府不断地推出相关的利好政策。但在其持续发展的同时,也让越来越多的投资者在该行业不断加注,导致增加了房地产泡沫。在2019年召开的十九大会议中,习近平总书记出“房住不炒”的要求,同时也明确指出:“健全地方税体系,稳步推进房地产税立法”。在国家和地方颁布的各项房地产市场调控政策以及推进相关房地产税立法的大背景下,房地产市场仍存在大量的交易活动,这些交易活动的公平性、透明性、客观性是影响房地产行业健康、持续长久发展的重要因素,这些特性的体现都要取决于交易时是否存在一个客观公正的交易价,而资产评估恰好可以保证交易价的公正客观。在传统资产估价方法中,往往是由估价师运用市场法、收益法等方法来对房产进行单宗评估,但这种估价方式得到的估价结果主观性较强且估价效率低,估价的准确性很难界定。在房产数量越来越多的情况下,采用该种方法无法满足估价的需求,同时该种方法的估价成本也较大。因此,本文从现代估价视角以及估价需求出发,结合信息技术,探讨研究采用何种估价方法可以更加符合时代特征、更高准确度、更高效率地分析住宅价格。本文通过研究国内外相关文献,梳理房产估价基础理论,采用定量与定性研究法等方法,对房地产估价方法进行探讨研究。首先,本文阐述了单宗评估与批量估价的异同点,并指出传统的单宗评估无法满足现在的估价需求,因此出了采用批量估价方法进行研究。并针对批量估价,分析其应用前以及估价原则与流程。本文分析了在大数据时代下房产估价的特点以及大数据时代下对房产进行批量估价的优势所在,同时针对房产估价的特点,分析运用何种大数据技术对房产进行估价可以达到高效率与准确率的目标,最终选用网络爬虫、Python技术、以及百度地图API等大数据技术来进行估价分析。其次,本文概述了北京海淀区住宅二手房的市场情况,确定了本文的估价对象是北京市海淀区的二手普通住宅,价值时点是2020年11月1日。本文采用多因素分析法筛选批量估价模型的特征变量,最终确定了4大方面特征,共计19个特征变量。并利用大数据技术:网络爬虫和百度地图API来获取每个估价对象的19个特征变量所对应的数据,获取数据的时间范围是2020年9-10月。并对获取到的数据进行量化、离群与缺失值处理以及数据归一化处理,使得数据更加规范化、标准化。最后,本文通过分析常见估价模型的优缺点,结合本文估价对象的特性,选用了“随机森林+BP神经网络”批量估价模型。运用大数据技术:Python来实现该批量估价模型的构建,并带入北京海淀区二手普通住宅的真实数据进行验证。并针对高精度要求下的住宅估价出了新的估价方法,即采用批量估价模型与基准价修正体系相结合的方法,且带入了真实案例进行验证,结果表明该方法确实可以进一步地高估价结果的预测精度,使得预测价格更加接近实际的成交价格。基于理论研究与实际案例的验证结果,本文认为:(1)批量估价模型的估价结果较为准确,且可以同时评估出大量的房产价值,估价效率较高。同时减少了人工的工作量,也相应的降低了估价成本和估价主观性对结果的影响,满足了现代估价的各项需求;(2)由估价结果可以看到:随机森林单模型预测准确度为84.4%,BP神经网络单模型预测准确度为82.5%,基于模型集成的思想,批量估价模型的预测准确度为90%。由此可见,批量估价模型的估价精度大于任一个单模型的精度,且符合估价时至少采用两种方法的估价要求;(3)通过文献研究法以及考虑到实际交易过程中会影响房价的因素,本文将住宅价格特征变量体系分为区位、建筑、邻里以及社会四大特征,共19个特征变量。在传统特征变量体系中加入了社会因素,用交易日期与挂牌时间进行表达量化,同时将真实成交价格作为因变量,避免了交易双方的心理因素对结果的影响。进一步完善了该体系,使得估价结果更加贴近市场真实成交价格。本文应用大数据技术分析构建了基于机器学习的住宅批量估价模型,为房地产批量估价方法的研究供了理论和方法参考。
其他文献
中欧班列运输从2016年开始呈现了井喷式地增长,大体量的交易数据衍生出单证流转难、语言不通、标准不统一等问题,致使中欧班列发展遭遇了数据共享的瓶颈。区块链技术的出现为现有的中欧班列运输瓶颈提供了解决问题的契机,利用Fabric联盟链中的加密算法和共识机制可以为多式联运过程中的单证流转和位置信息追踪提供可靠的解决方案。论文分析了中欧班列信息流转的业务场景,为了解决单证信息保护问题,采用Fabric框
异构网络由不同类型的网络构成,这些网络在不同的应用场景下表现优异,但是他们各自的缺点也会被融合。这些缺点带来的交叉影响导致了更差的数据传输性能。在移动环境下,利用异构网络进行多链路传输来为用户提供可靠的网络接入服务已经成为了研究热点。多链路传输设备在大范围快速移动的过程中会跨越异构网络中不同的独立区域,这些区域中的网络设备对不同的网络链路中数据包的转发规则有所差异。某些IP端口组合可能会被未知网络
学位
随着新能源技术的不断发展和混合动力技术的逐步成熟,将车载储能技术应用于轨道交通领域已成为必然趋势。柴电混合动力机车相较于传统内燃机车更加绿色环保,能够达到节油减排降噪的目的。合理的混合动力系统容量配置是提升混合动力机车运营经济性的前提,而能够反应机车日常运行特性的典型行驶工况则是优化容量配置的依据。基于上述背景,本文对轨道交通车辆典型行驶工况和基于典型行驶工况的混合动力系统优化配置方案展开了研究。
近年来,新型非富勒受体材料(NFA)不断涌现,基于该类材料的有机体异质结光伏器件性能不断提升,单结光伏效率已超过18%。此外,由于这类材料能够通过溶液法低温制备、分子结构可塑性强、并且在红外区域有较强的光吸收,这为实现柔性,半透明光电子器件提供了重要依据。相比于传统的富勒烯受体材料,非富勒烯受体在分子结构和光电响应方面具有明显的区别,因此,深入研究其光电性质尤为重要,特别是光激发态下的激子解离与复
随着5G时代的来临以及物联网的迅猛发展,可穿戴设备、人脸识别以及各种新型终端接连涌现。然而新型终端的计算能力与能量受限,使得云计算成为目前时代的重要应用产物,但云计算存在着高时延、网络带宽占用过高等问题,为缓解网络负载和云端压力,边缘计算以及云边一体化架构被广泛采用。边缘计算能够提供资源以改善用户服务质量,因此任务卸载与资源分配优化方案的研究是目前的热点问题。此外,由于开放环境容易引发设备实体信任
学位
中国的制造业基础相对薄弱,特别是很多中小企业,存在诸多生产管理方面的问题。随着全球化浪潮的冲击,外国制造商纷纷在中国建厂立业,这使得本国制造业面临着更激烈的竞争。插座制造企业作为众多制造业中的一员,其产品具有应用广泛、生产繁琐的特点,然而传统的插座制造企业管理方式落后、生产效率低下。本文以某型号插座的装配过程为研究对象,应用工作研究的理论及方法,旨在提高插座装配线的效率,从而为公司降低生产成本,并
在整个物流行业中更为细分的快运行业是利用全国范围的网络服务体系实现分布式班车运营,从而为客户提供由发货人至收货人的门到门零担产品快速运输服务。而大件快运站点是全国目前最重要的4-6级下沉市场配送服务商,是未来继续拓展全国下沉市场的一大重要增长点。本文设计并实现的大件快运站点工作台,目的是为全国各个大件快运站点的运营和管理提供一个更高效和更人性化的系统化解决方案。本系统采用Java语言进行开发,JS
学位