中文微博文本采集与预处理综述

来源 :软件导刊 | 被引量 : 0次 | 上传用户:tananhua251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。
其他文献
党的十九大报告中多次提及要运用互联网,互联网在中国经济建设、文化建设、社会建设等方面发挥着重要作用。互联网技术作为势不可挡的时代潮流,正以其强大的渗透力对经济社会
瘢痕疙瘩及增生性瘢痕是由于皮肤创伤后创伤治愈过程中成纤维细胞过度增殖所致的异常性瘢痕。我们认为瘢痕疙瘩及增生性瘢痕的发生可能与细胞增殖的调控异常有关 ,为此 ,首先
产业集群发展为我国成为世界制造第一大国作出了巨大贡献。然而,我国产业集群在全球价值链分工体系中扮演着"打工者"角色,被长期锁定于全球价值链低端环节,这种低端锁定无论
针对面向能源互联网的多能源局域网运行调度中的实时功率分配问题,提出一种基于多智能体两层一致性理论的多能源局域网实时动态功率分配策略。将能源互联网划分为若干个能源
结合我国环境监测科研发展现状 ,就编制“环境监测科技发展‘十五’计划与 2 0 1 5年远景规划”需要考虑的几个方面进行了阐述 ,如重大环境问题、环境监测科技需求、发展目标、发展方向与优先领域以及重大项目等。希望对有关部门进行环境监测科技发展规划的编制和进一步讨论有所裨益。