一种基于词聚类的文本特征描述方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:pengtao0615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项.实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet中概念信息的局限性,提高了文本分类的精确度.
其他文献
The coefficient diagram method (CDM) is one of the most effective control design methods. It creates control systems that are very stable and robust with respon
在厂网分开核算、分别计量的新形势下,作者结合电力系统广泛应用的双母线接线方式举例,对原计量回路存在的计量误差、电压互感器二次负荷接线等问题简要分析,以挖潜现有设备
电子商务作为一种以互联网为依托的全新的贸易模式,在未来有着巨大的发展空间,本文对电子商务中的信息机密技术和其应用做了简单的分析和探讨。 As a brand new trade mode
基于Xilinx的Virtex-4系列FPGA中内嵌的PowerPC处理器,介绍了利用Xilinx Platform Studio(XPS)工具套件,快速、便捷地生成用于风河VxWorks的BSP并成功运行VxWorks内核及用户
采用重量分析法连续测定601耐水点火药各组分含量。实验表明,该方法可获得与现行标准分析方法一致的结果,并且精密度较高,操作方法简单易行,分析时间短,同时对环境污染影响小
目的 通过观察不同潮气量机械通气大鼠肺组织核因子κB(NF κB)p65蛋白和巨噬细胞炎症蛋白-1 α(MIP-1α)mRNA表达水平,探讨NF-κB活化对呼吸机致急性肺损伤大鼠肺组织MIP-1
当前我国面对着国内、国际的市场竞争日趋激烈,但归根结底是科学技术的竞争、人才的竞争。事业单位要在市场经济中立有一席之地,实现有效运行和可持续发展,事业单位应该充分
目的 评价社区老年糖尿病与认知功能障碍之间的关系及影响因素.方法 在宣武区社区居民健康体检管理档案中,随机抽取符合2型糖尿病诊断标准的糖尿病患者308例,其中单纯糖尿病1
直肠癌是消化道常见恶性肿瘤,我国直肠癌有发病年龄较轻(30岁患者占10%~15%)、直肠癌比结肠癌发生率高及低位直肠癌所占的比例高(占65%~75%)的流行病学特点,虽然近年来使用吻合
介绍了几种典型的传感器及其在手机中的应用,如图像传感器、指纹识别传感器、光电传感器、加速度传感器等.