论文部分内容阅读
随着Web2.0技术的发展,微博的使用人群以极快的速度增加,对互联网的影响也日趋重大。对微博进行分类在用户个性化推荐、微博社群及垃圾信息过滤中都至关重要。而微博属于短文本,包含信息量有限,传统的文本分类方式并不能很好地用在微博上。本文针对微博短文本的特点,提出基于LDA潜在语义空间分析来对微博进行分类。首先应用LDA对具有类标签的微博短文本训练数据进行建模,获得训练数据的潜在语义空间分布,并根据训练数据来对微博短文本测试数据进行主题推断。在获取训练数据和测试数据的文档——语义分布矩阵后,对它们进行特征放大算法处理来提取文档特征。在此基础上,使用支持向量机对其进行分类,并通过参数空间搜索来改善分类效果。本文还进行了基于内容的微博用户分析。通过对微博数据进行分类建模,建立相关的领域词典,并使用PMI来计算用户微博中的词与领域词典的相关倾向性,并对用户微博进行倾向性汇总,分析出某用户微博涵盖的主题及这些主题在微博中所占的比重。实验表明,本文的方法能有效提取并表示微博的文档特征,在短文本分类上取得了较好的效果。同时基于内容的微博用户分析可以粗略地表示出用户的兴趣倾向,为个性化推荐提供支持。