基于差异-相似矩阵的文本降维方法 - 开源共享论文下载平台 - 信丰网

基于差异-相似矩阵的文本降维方法

来源 :计算机应用 | 被引量 : 1次 | 上传用户：pcfanzb

【摘要】

：

由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用。基于差异—相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度。已经分好类的文集经过预处理后被表示成特征项—文档矩阵,再转化为差异—相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述。通过对差异—相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则。实验说明,对于大规模文集,

【作者】

：

黄晓春晏蒲柳夏德麟陈健

【机构】

：

武汉大学

【出处】

：

计算机应用

【发表日期】

：

2005年08期

【关键词】

：

文本分类维度消减差异-相似矩阵 <Keyword>text categorizationdimensionality reductionDSM(

【基金项目】

：

国家自然科学基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用。基于差异—相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度。已经分好类的文集经过预处理后被表示成特征项—文档矩阵,再转化为差异—相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述。通过对差异—相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则。实验说明,对于大规模文集,DSM方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率。

其他文献

交叉认证技术及域间资料库的实施选择

交叉认证作为PKI服务的一个方面,能够有效地扩展PKI的信任范围。介绍了两种常见的交叉认证技术,并就如何在保证自身安全的情况下实现不同信任域证书资料的共享提出了一种解决方案。

期刊

公钥基础设施认证机构证书撤消列表安全套接层轻量级目录访问协议PKICACRLSSLLDAP

基于虚拟组织模式的龙头企业农业技术创新策略探讨

基于虚拟组织优势,结合农业技术属性和农业技术创新活动现状,提出建立旨在农业技术研发的虚拟组织构想.进一步分析了虚拟组织农业技术创新活动优势,能够实现龙头企业和研发机

期刊

虚拟组织龙头企业农业技术创新

基于神经网络的软件关键模块的识别方法

研究了如何利用神经网络解决软件关键模块的识别问题。首先利用交叉确认改进了级联相关算法,设计了多层前馈神经网络作为模式分类器,以软件模块的复杂性度量作为特征向量识别软件中的关键模块。最后以自行开发的维修性分配与预计(MAP)软件为例说明了采用改进的级联相关算法确定软件关键模块的优势。

期刊

级联相关关键模块交叉确认软件复杂性度量模式识别cascade-correlation critical module cross-validation

“野草精神”与“硬汉性格”——论《野草》与《老人与海》之共通性特质

《野草》与《老人与海》虽是不同国度不同民族不同时代不同作家的作品，却在内面精神上有着出人意料的惊人的一致性和共通性。本文试图揭示出其中相通性特质，以此给人某些方面的

期刊

野草精神硬汉性格生命力量共通性目的性对象化

管式间接蒸发冷却空调机组性能研究

对管式间接蒸发冷却空调机组进行了实验研究。分析了进口空气干球温度、相对湿度对空调机组降温及冷却效率的影响,为提高对管式间接段蒸发冷却空调机组性能的了解具有一定的

期刊

间接蒸发冷却管式冷却效率相对湿度Indirect evaporative coolingTubularCooling efficiencyRela

久治县畜疫防治现状及对策

畜牧业是久治县主导、支柱性产业,畜牧业的发展对社会稳定,增加牧民群众收入,使广大牧民群众脱贫致富,促进民族经济发展具有重要意义.因此,发展久治县民族经济应当首先加快畜

期刊

畜牧业民族经济发展牧民收入脱贫致富对策防治现状调查防治工作

其他学术论文