基于LDA的微博短文本分类技术的研究与实现

来源 :东北大学 | 被引量 : 28次 | 上传用户:lgyangell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的发展,微博的使用人群以极快的速度增加,对互联网的影响也日趋重大。对微博进行分类在用户个性化推荐、微博社群及垃圾信息过滤中都至关重要。而微博属于短文本,包含信息量有限,传统的文本分类方式并不能很好地用在微博上。本文针对微博短文本的特点,提出基于LDA潜在语义空间分析来对微博进行分类。首先应用LDA对具有类标签的微博短文本训练数据进行建模,获得训练数据的潜在语义空间分布,并根据训练数据来对微博短文本测试数据进行主题推断。在获取训练数据和测试数据的文档——语义分布矩阵后,对它们进行特征放大算法处理来提取文档特征。在此基础上,使用支持向量机对其进行分类,并通过参数空间搜索来改善分类效果。本文还进行了基于内容的微博用户分析。通过对微博数据进行分类建模,建立相关的领域词典,并使用PMI来计算用户微博中的词与领域词典的相关倾向性,并对用户微博进行倾向性汇总,分析出某用户微博涵盖的主题及这些主题在微博中所占的比重。实验表明,本文的方法能有效提取并表示微博的文档特征,在短文本分类上取得了较好的效果。同时基于内容的微博用户分析可以粗略地表示出用户的兴趣倾向,为个性化推荐提供支持。
其他文献
智能制造的快速发展需要大量创新复合型机电类专业人才,创客教育的兴起为机电类专业教育提供新的发展方向。政协企协同,共同建设创客空间、创客社团;开发创客课程、构建创客
<正> 偶读古今小说(涵芬楼排印明天许斋本)见第三十六卷‘宋四公大闹禁魂张’一段中,宋四公为的试一试他久别的徒弟趙正的武藝,叫趙正到另外一个弟子在汴梁金梁桥下賣酸饀的
期刊
<正>《管子·君臣上》:"夫民别而听之则愚,合而听之则圣。"东汉王符《潜夫论·明暗》:"君之所以明者,兼听也;其所以暗者,偏信也。"后世从中提炼出"兼听则明,偏信则暗"的成语,
期刊
腹泻型肠易激综合征是消化科常见的功能性疾病,症状容易反复发作,目前西医尚无有效治疗办法。近年中医治疗成为热点,治疗方法灵活多样,临床疗效确切,复发率低,同时中医治疗腹
<正>随着国家对环保及可持续发展要求的提高,装配式建筑在电力行业得到了初步应用和示范,但其成本远高于传统建筑。分别以110千伏装配式建筑和传统式建筑为对比研究对象,基于