一个面向文本分类的中文特征词自动抽取方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：yhqtongxue

【摘要】

：

文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点．设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法，并通过实验与传统的词典分词法进行了

【作者】

：

付德宇代成琴

【机构】

：

哈尔滨工业大学信息与网络中心

【出处】

：

计算机工程与应用

【发表日期】

：

2006年15期

【关键词】

：

中文特征词自动抽取文本分类汉字结合模式 Chinese lexical items＇ extraction text categorization comb

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点．设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法，并通过实验与传统的词典分词法进行了比较，结果表明，这种方法对于中高频词条的识别率接近于词典分词法，而分词速度则远远高于词典分词法，能够满足对大规模开放域文本进行快速特征词自动抽取的需求。

其他文献

渐进方法结合蚁群算法求解多序列比对问题

在所有多重序列比对算法中,渐进比对方法由于简单的算法和高效的计算在生物信息学中得到了广泛的应用.但是渐进方法最大的缺点是在早期阶段形成的错误不能在后期的计算中纠正

期刊

多序列比对蚁群算法渐进比对方法后验概率概率一致性multiple sequence alignmentant colony algorithmpr

决策表属性约简及其条件信息量表示

讨论了决策表属性约简和条件信息量之间的关系，证明了对于一致决策表，其属性约简在代数表示下和信息论中条件信息量表示下是等价的。并举例说明，对于不一致决策表，其属性约简的代

期刊

粗糙集决策表条件信息量属性约简rough setdecision tablesconditional information quantityat

基于LLCBench的PlanetLab计算平台测试

PlanetLab的出现，为科研机构提供了用于开发下一代互联网技术的开；放式全球性实验平台。为了评价PlanetLab实验平台本身的计算能力及网络性能，论文采用LLCBench集群测试工具，在CE

期刊

PLANETLABLLCBench性能测试PlanetLab LLCBench performance test

基于模型驱动元数据集成体系结构研究与设计

元数据及其管理是数据仓库和业务分析领域中的核心部分，也是成功建立信息供应链的关键。元数据管理依赖于软件体系结构来抽取、集成、存储和发布元数据。这样的体系结构通常以

期刊

元数据元数据仓库公共仓库元模型软件体系结构metadata metadata warehouse Common Warehouse Metamode

服务于句类分析系统的微型语言专家系统建设

句类分析系统是HNC语言理解技术的重要支柱。为了减轻句类分析系统的计算强度，利用语言学研究的丰富成果，我们在专家系统及HNC小专家系统基础上，提出微型专家系统的概念及相关的

期刊

计算机应用自然语言理解HNC理论句类分析微型专家系统computer application NLP HNC theory sentence c

有限域GF（2m）上基于基转换的正规基快速求逆方案

有限域GF（2m）在椭圆曲线密码体制中有着非常重要的应用,密码体制的整体效率大部分取决于GF（2m）上的运算效率.该文给出了有限域GF（2m）上使用正规基表示时的一种快速求逆方案,该方案

期刊

GF(2m)求逆正规基多项式基基转换GF（2m） inversion normal basis polynomial basis basis

一个面向文本分类的中文特征词自动抽取方法

其他学术论文