改进的频繁词集短文本特征扩展方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:lw8307817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性
其他文献
摘要:中职新生的入学教育,在中职学生学习生涯中起到至关重要的作用。如何在千头万绪的中职新生入学教育中,做到重点突出、脉络清晰,值得每一位中职教育工作者深思。文章就在学校开展的入学教育模块和教学管理体会,就当前中职新课程改革下的入学教育谈了自己的认识。  关键词:中职新生;入学教育;磨炼意志;班级建设  中图分类号:G712 文献标志码:A 文章编号:1674-9324(2012)0
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为了能够深入了解谣言传播规律,提出了适合突发事件人群聚集场所的谣言传播模型。针对突发事件聚集个体的不同动机和目的,模型将聚集人群划分为六种不同状态,并且以个体的信
《全民健身计划纲要》(以下简称《纲要》)的实施,标志着我国体育工作国策发生了重大变革,因此,势必影响正在进行的体育课程改革的总体规划和设想。为适应全民健身计划的需求,探
[目的]了解武汉市社区60岁及以上老年人阈下抑郁现状及影响因素。[方法]2016年10月—12月,采取整群抽样的方法在武汉市洪山区7个社区对60岁及以上老年人进行阈下抑郁的调查,
语音识别中通常需要用较大的数据量来训练声学模型,而使用资源匮乏的维吾尔语数据训练的深度神经网络声学模型性能较差。针对该问题,根据深度神经网络模型能够进行迁移学习的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
科学课堂中的材料是指辅助科学教育进行的、用来帮助幼儿学习科学的各种工具。要提高科学课堂质量,有效选用探究材料是基础,恰当选择投放策略是关键。教师要以幼儿为本,从目标出
不同的艺术语言产生不同效果的艺术作品,缺乏绘画语言的形象是空洞而乏味的。表现性油画语言的形式美感,使绘画本身的艺术生命通过艺术作品的特定形式、特定语言加以再创造,