融入内部语义关系对文本分类的影响研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:ru64740389
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。
其他文献
随着TCP/IP和以太网技术在工业控制领域应用的逐步深入,并且为了克服传统集散式控制系统(DCS)以及现场总线控制系统(FCS)的互操作性差等问题,多种现场总线互联及控制系统集成已成为目前工业自动化领域的研究热点;首先介绍了工业控制网络的发展现状;进而分析了全双工交换式以太网应用到工业控制领域的技术特征;最后提出了基于全双工交换式以太网的多种工业控制网络互联的异构网络化控制系统(NCS)设计方案及
全球嵌入式电脑及强固型电脑领导厂商——德国Kontron上星期宣布晋升为Intel通讯联盟内顶级成员。Kontron承诺在通讯、嵌入式市场提供最先进的嵌入式产品及标准解决方案。Kon
会聚校正是背投电视一个重要的处理过程,目前采用的人工校正方式,不仅精度低调整时间长,而且产品一致性差,成为流水线生产的瓶颈.该文给出了一种新的结合图像处理、曲线拟合
MICROWIRE总线与SPI总线是目前应用非常广泛的两种同步串行总线,由于两种总线协议的不完全兼容性,造成许多设备之间无法进行通信.通过对PIC16F73单片机的SPI串口时序和电机控
文章根据信息量的不同,介绍基于Lyapunov函数和基于极点配置局部稳定的T-S模型的两类模糊控制器设计方法.并且在MATLAB环境中进行了仿真和实验.实验结果表明:Lyapunov函数法
为了在不解密加密数据的前提下获取加密数据流的类型信息,提出一种基于数据随机性特征和模式识别的加密数据流识别方法。该方法利用加密数据与非加密数据,或者不同类型加密数据0,1分布的随机性特性作为分类特征,再利用模式识别方法对不同数据进行建模,从而实现对不同类型数据的自动识别。首先利用NIST随机性测试方法对数据流进行分析,将得到的15类随机性测试得分作为分类特征;然后对不同类型的数据流分别建立分类模型
基因表达数据分析一般是通过挖掘局部模式来实现的。保序子矩阵是局部模式挖掘中一种经典的模型,可以获取到在若干条件下表现出一致趋势的一组基因。高通量基因微阵列技术的
针对分布式网络中可信计算平台与传统的非可信计算平台所组成的分布式异构网络,基于可信计算技术提出了一种信任模型,并对该模型的理论架构和实现过程进行了详细的分析和研究
针对具有动态故障模式的复杂系统,动态故障树分析一直是很重要的可靠性分析技术。为了提升可靠性分析效率,已有研究提出了各种模块化方法,但是对于实际动态故障树模型中由于
针对快速搜索和发现密度峰值的聚类算法(DPC)中数据点之间计算复杂,最终聚类的中心个数需要通过决策图手动选取等问题,提出基于密度峰值和网格的自动选定聚类中心的改进算法GAD