概念语义生成与文本特征选择研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lijingbo1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。
其他文献
所有边缘活动轮廓模型都依赖边缘停止函数,该函数通常是高斯平滑图像的梯度模的单减函数。梯度能够刻画图像的局部边缘特征,但忽略了边缘的"分叉点"、"角点"等重要信息,这导致了边缘定位不准甚至产生错误的分割。基于图像结构张量的一个局部相干性度量,提出一个新边缘停止函数。实验结果表明,基于这个边缘停止函数,活动轮廓模型能够精确定位目标边缘,同时大大减少了迭代次数并具有较强抗噪性。
特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该
目的探讨IL-6基因多态性是否与心房颤动患者有关联。方法应用聚合酶链反应限制性片断长度多态性技术对60例心房颤动患者及30例正常对照组者IL-6基因-174G/C住点进行研究。结果
多发性骨髓瘤(MM)是浆细胞系统的恶性肿瘤,常见于中老年人,其临床表现复杂多样,且很多表现与老年人常见疾病的症状类似,因此极易误诊。现收集我院收治的14例MM误诊患者的临床资料并
试验于2013-2014和2014-2015年度两个小麦生长季分别在山东省兖州市小孟镇史家王子村和肥城市边家院镇南仇村大田进行,供试品种为高产冬小麦济麦22。同一年度在同一地块不同
考虑到视频序列固有噪声特征的特点,提出一种基于压缩感知的视频异源篡改检测算法。提取视频中每帧图像的噪声信息并建立噪声矩阵,通过引入压缩感知理论对噪声矩阵进行压缩,极大地降低每帧图像噪声信息的冗余度,对压缩噪声矩阵使用cos相似性衡量,得到帧图像间的相似度矩阵,并构造篡改度量,利用参数模型对视频的异源篡改图像进行检测。实验表明提出算法能以较小的压缩比对视频序列中的异源篡改位置进行有效检测,并得到比现