基于集成学习的房产资讯分类

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:edyzhang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各类房产资讯是一个大数据,无时无刻的影响着这个时代。为了适应人们阅读信息的不同需求,将房产资讯进行细分能够使不同需求的人群得到不同的资讯内容,不错过所关心的内容,同时也为了使文本分类能够更加适应实际项目的要求,本文研究设计了基于增量集成学习的房产资讯数据的分类系统。首先,研究与实现了房产资讯数据的搜集和预处理。设计与实现了房产资讯的采集系统,该系统对国内主要的房产资讯网站的数据进行了搜集。该系统能够对每个网站的采集进行可视化管理,并且可以实时对采集得到数据进行查询。在增量式的数据搜集同时,设计与实现了房产资讯数据预处理系统,实现了文本的分词、文本向量空间模型转化和降维等,为房产资讯的近一步分析打下基础。其次,研究与实现了房产资讯分类模型。房产资讯分类属于文本分类的范畴,可选的模型及算法有上百种,在研究了近期的数十种模型的基础上,确定使用增量集成模型思路进行房产资讯分类。该模型思路主要分为三个步骤:第一,使用多个基分类器对房产资讯数据进行分类;第二,对多个基分类的结果进行集成学习,得到最终结果;第三,房产资讯数据每天都在新增,为了使分类模型实时更新,提出了增量集成学习分类算法,该算法将通过自适应投票的机制将实际数据中对于分类区分度较好的数据保留下来,以用于对集成算法中各基分类器的训练,更新基分类器的同时对于各基分类器的权重进行更新,从而提高集成算法对于最新房产资讯的分类效果。最后,设计与实现了房产资讯分类的三个实验。第一,利用潜在语义空间模型做维度对比实验,在维度的复杂性和算法的资源占用的方面找到了适合房产资讯数据的最佳维度值;第二,利用进行了基分类器的选择实验,在四个文本分类算法中找到了相对最优的三个基分类器;第三,利用上面两个实验结果实现了改进的增量集成学习算法,并通过对比实验证明准确率得到了提高。
其他文献
教师专业发展是国内外教育研究共同关注的话题,也是当今教师教育改革的主流课题。历史教师作为中学教师队伍中的重要组成部分,其专业发展的重要性不言而喻。在历史教师专业发展过程中,有一个尤为重要的因素——教育情怀。中学历史特级教师单怀俊从教数十年,是具有崇高教育情怀的典型代表。通过对单老师的教育生涯与教学主张的研究,可知他具有热爱教育事业、关爱学生、乐教勤业、与时俱进的高尚的教育情怀,并且这些教育情怀在其
高中阶段的物理课程学习难度较高,学生在实际学习过程中难以理解相关知识,也难以实现物理知识的灵活运用,为提升学生的物理学习能力,对比法是重要的学习方式。本文简要就物理
自从1993年,射频消融技术提出以来,温度效应一直以来在肿瘤治疗中占据主导地位,但也易引起焦痂、粘刀等不良的术后效果,严重的还会对肿瘤周边的血管、神经等重要的正常组织造成伤害。故此,提出开发一种结合脉冲电穿孔效应来控温的设备。设备采用脉冲电场叠加的方式来产生能量,并通过控制策略智能的调控脉冲波形的叠加方式和个数,以期实现作用于组织的温度和电穿孔效应的比例。本文的主要工作有:1、深入研究了脉冲电场的
随着国家经济的不断发展,民办教育近十年来发展较为迅速,尤其是信息化飞速发展的今天,对学校信息化的要求也越来越迫切,尤其是财务管理方面的信息化要求更是明显。传统的手工
陆辉艳来自南方城市,南方的地理环境塑造了她诗歌的质地与想象,语言的乌托邦以及物的语境锻造了她敏锐的目光与从容的文字表达。她借助“麻村”“码头”“公交车”等南宁地理
草食动物营养学是草学专业课程体系中的专业基础课之一。该课程理论知识丰富,实践性强,学生学习难度较大。SPOC混合教学模式可以充分利用线上平台资源,调动学生的学习兴趣和自学
红太郎番茄是湖南衡阳市蔬菜研究所2005年育成的大果型早熟番茄品种,2006年在湖南、湖北、云南、贵州、四川、江西、福建等地试种,表现早熟,连续坐果力强,挂果集中,大果,产量高、品
业绩承诺作为交易双方调整资产定价的契约工具,最开始形成于我国股权分置改革时期,随后在并购重组事件中得以广泛应用。本文以定向增发作为研究背景,主要是因为定向增发收购
合成孔径雷达(SAR:Synthetic Aperture Radar)成像技术是雷达技术、现代电子技术和数字信号处理技术的有机结合,它使传统雷达的功能发生了质的飞跃。随着SAR成像处理技术的发展,其
本文系统阐述了非相干激光雷达测风原理,即利用原子滤波器透射率翼检测多普勒频移的方法;并详细分析了测量灵敏度和测量精度。分析了利用碘分子滤波器可以同时测量低空(12公