一种基于词聚类的文本特征描述方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户：pengtao0615

【摘要】

：

针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的

【作者】

：

陈炯张永奎

【机构】

：

山西职业技术学院,计算机工程系,太原,030006山西大学,计算机与信息技术学院,太原,030006;山西大学,计算智能与中文信息处理教育部重点实验室,太原,030006;

【出处】

：

计算机系统应用

【发表日期】

：

2011年2期

【关键词】

：

文本特征描述词共现词聚类种子词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项.实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet中概念信息的局限性,提高了文本分类的精确度.

其他文献

Two New Control Signal Approaches for Obtaining the MRAS-CDM and a Real-time Application

The coefficient diagram method (CDM) is one of the most effective control design methods. It creates control systems that are very stable and robust with respon

期刊

Coefficient diagram method (CDM)coefficient diagram methodadaptive controlpro

新形势下关口表计量工作的探讨

在厂网分开核算、分别计量的新形势下,作者结合电力系统广泛应用的双母线接线方式举例,对原计量回路存在的计量误差、电压互感器二次负荷接线等问题简要分析,以挖潜现有设备

期刊

关口计量二次接线经济利益互感器容量

浅析电子商务中的信息加密技术及其应用

电子商务作为一种以互联网为依托的全新的贸易模式,在未来有着巨大的发展空间,本文对电子商务中的信息机密技术和其应用做了简单的分析和探讨。 As a brand new trade mode

期刊

电子商务信息加密技术对称加密非对称加密

Virtex-4平台下嵌入式系统VxWorks的实现

基于Xilinx的Virtex-4系列FPGA中内嵌的PowerPC处理器,介绍了利用Xilinx Platform Studio(XPS)工具套件,快速、便捷地生成用于风河VxWorks的BSP并成功运行VxWorks内核及用户

期刊

Vkrtex-4VxWorksBSP

601耐水点火药分析方法改进

采用重量分析法连续测定601耐水点火药各组分含量。实验表明,该方法可获得与现行标准分析方法一致的结果,并且精密度较高,操作方法简单易行,分析时间短,同时对环境污染影响小

期刊

601耐水点火药分析方法重量分析法

核因子κB在呼吸机致急性肺损伤大鼠肺组织巨噬细胞炎症蛋白-1α表达中的作用

目的通过观察不同潮气量机械通气大鼠肺组织核因子κB(NF κB)p65蛋白和巨噬细胞炎症蛋白-1 α(MIP-1α)mRNA表达水平,探讨NF-κB活化对呼吸机致急性肺损伤大鼠肺组织MIP-1

期刊

机械通气急性肺损伤核因子κB巨噬细胞炎症蛋白-1αMechanical ventilationAcute lung injuryNuclear fa

浅谈如何加强事业单位的人力资源管理

当前我国面对着国内、国际的市场竞争日趋激烈,但归根结底是科学技术的竞争、人才的竞争。事业单位要在市场经济中立有一席之地,实现有效运行和可持续发展,事业单位应该充分

期刊

事业单位人力资源管理以人为本

北京市宣武区社区老年糖尿病患者认知功能障碍调查

目的评价社区老年糖尿病与认知功能障碍之间的关系及影响因素.方法在宣武区社区居民健康体检管理档案中,随机抽取符合2型糖尿病诊断标准的糖尿病患者308例,其中单纯糖尿病1

期刊

糖尿病并发症/流行病学认知障碍/病因学Diabetes complications/EPCognition disorders/ET

直肠癌结肠造口患者生活质量的影响因素及护理干预的研究进展

直肠癌是消化道常见恶性肿瘤,我国直肠癌有发病年龄较轻(30岁患者占10%～15%)、直肠癌比结肠癌发生率高及低位直肠癌所占的比例高(占65%～75%)的流行病学特点,虽然近年来使用吻合

期刊

直接癌结肠造口生活质量影响因素护理综述文献

传感器在智能手机中的应用

介绍了几种典型的传感器及其在手机中的应用,如图像传感器、指纹识别传感器、光电传感器、加速度传感器等.

期刊

传感器智能手机通信终端sensorsmart phonecommunication terminal

一种基于词聚类的文本特征描述方法

与本文相关的学术论文