BBS短文本聚类技术研究

来源 :第五届全国信息检索学术会议CCIR2009 | 被引量 : 0次 | 上传用户:cnmeim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术可以有效地重新组织并利用BBS信息。BBS文本是短文本的一种主要表现形式。本文针对短文本信息量少的特点,提出了一种改进的K-means聚类算法来解决短文本聚类问题。该算法通过引入重构长文本的思想解决了短文本的稀疏性问题,并利用近邻传播算法对初始类别中心进行了优化选择,从而克服了K-means算法对初始点的敏感问题。实验表明,该算法对于短文本聚类取得了很好的效果。
其他文献
特殊命名实体**是指字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名以及人名等等。在以娱乐为主的中文搜索中,这些命名实体占据重
会议
“很多书我都没看过,很多作家都没听说过,很愚蠢。那么多思想,人类宝贵的财富,那么美好的东西我都没有经历。”2011年,我跟(薛)蛮子一样也得了癌症,也是肠癌,部位也差不多,但
蛋白质相互作用关系抽取是蛋白质知识网络构建的必要前提,对生物医学领域的研究具有十分重要的意义。本文使用了基于SVM的方法,从生物医学文献中抽取蛋白质相互作用的有向关系
会议
查询切分是对查询进行结构分析和优化的基础。使用常规的分词方法对查询进行切分效果并不理想。在对分词错误进行分析的基础上,本文提出了一种单字消除和实体识别的查询切分方
话题跟踪属于话题识别与跟踪(TDT)的一项子任务,是一种基于事件的信息组织技术。话题跟踪任务就是根据某一话题的训练报道,在后续报道中找出讨论该话题的所有报道。用话题跟踪
近年来,随着互联网的发展,越来越多的人在网上发表观点、评论等。目前对于这些包含观点的意见型文本的研究十分活跃,而主题与情感的关系匹配是意见挖掘中比较关键的一项研究内容
会议
情感分类是一项具有较大实用价值的分类技术,它能够识别文本内容中隐含的情感或观点,在互联网信息日益丰富的今天,情感分类可以在一定程度上解决信息杂乱的情况,方便用户准确获取
会议
农业保险是增加农民收入、抵御农业风险的重要保障,随着农业现代化、市场化水平的逐渐提高,其作用越来越受到党和政府及广大农民的重视。而从笔者在沈阳市的调查情况看,农业
随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(LatentDirichlet Allocation)是主题模型中具
会议
期刊