基于Python爬虫技术和LDA模型的短文本获取技术分析

来源 :电大理工 | 被引量 : 0次 | 上传用户:jiaoranbuzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从互联网短文本数据中获取与提取出有价值的信息是目前机器学习研究的热点。在本研究中,以某网站中关于"规划投资"新闻标题的短文本数据作为研究对象。首先基于Python实现了数据爬取,然后基于LDA模型对短文本数据文件实施主题提取,生成规划投资主题聚类,将数据由无序变为有序,由模糊变得准确,最终实现获得有价值信息的目标。
其他文献
《红楼梦》作为一部传承中国传统文化的宏伟著作,对其的研究必定是意义深远的,而对其的英译版本也是同样。然而现有的研究大部分致力于二十世纪后期问世的两本完整的译本。但