基于类别词语权重的MBL改进方法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户：peace060606

【摘要】

：

记忆学习方法(Memory-Based Learning(MBL))将存储的训练数据作为获取的知识来使用,并通过相似性比较来完成分类任务,克服了词语一级自然语言处理中知识表示不足给机器学习知

【作者】

：

鲁松孙红梅白硕

【机构】

：

中国科学院计算技术研究所,

【出处】

：

模式识别与人工智能

【发表日期】

：

2001年01期

【关键词】

：

自然语言处理基于记忆的学习方法可信距离词语权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

记忆学习方法(Memory-Based Learning(MBL))将存储的训练数据作为获取的知识来使用,并通过相似性比较来完成分类任务,克服了词语一级自然语言处理中知识表示不足给机器学习知识获取带来的障碍。但自然语言的灵活性使MBL方法基于属性逻辑(attribute logic)的表示方法面临着较为严重的数据稀疏问题(data sparseproblem),这已经成为MBL方法应用于自然语言处理的主要瓶颈。本文正是针对这一问题,提出一种通过可信距离的判别机制将信息提取领域里文档表示方法的tf.idf词语权重计算引入到MBL中的改进方法。实验证明,我们提出的方法在保持原有训练集规模的情况下使正确率得到了较大的改进。 Memory-Based Learning (MBL) uses stored training data as acquired knowledge, and performs classification tasks by similarity comparison, overcomes the deficiency of knowledge representation in word-level natural language processing to machine learning knowledge Obtain obstacles. However, the natural language flexibility makes the MBL method based on attribute logic represent a serious data sparseproblem, which has become the main bottleneck for the application of MBL to natural language processing. In this paper, aiming at this problem, this paper proposes an improved method of introducing the tf.idf word weight calculation into the MBL by using the discriminative mechanism of trusted distance to extract the document expression method in the field of information extraction. Experimental results show that the proposed method can improve the correctness rate greatly while maintaining the original scale of training set.

其他文献

数字电路测试生成的可满足性方法研究

本文介绍了可满足性的测试向量生成 (SAT- ATPG)算法。通过控制输入跟踪算法 (CITA)嵌入 SAT- ATPG中 ,减少了 CNF的构成时间和搜索空间 ,加速测试生成 ,减轻故障压缩工作量

期刊

控制输入跟踪算法测试生成数字电路

NiAl的几何与电子结构

使用基于混合基表示的第一原理赝势法 ,研究了过渡金属铝化合物NiAl的电子与几何结构 .给出了其结构 -能量相图、能带结构、电子态密度以及电荷密度分布等 .所得的晶体结构、

期刊

NiAl电子结构理论

微矩形槽道内的气体滑移流动和传热分析

分析了微矩形槽道内的不可压缩气体在速度滑移和温度跳跃区的流动和传热过程。在分析模型中 ,假定矩形槽道底面定热流加热 ,其余三面绝热 ,流动和换热均为充分发展 ,且处于滑

期刊

微矩形槽道气体速度滑移温度跳跃理论分析

一种曲面网格优化的通用算法

提出了一种曲面网格优化的通用算法，该算法基于一些预先定义的优化准则，将给定的网格曲面优化成为单位网格曲面，定义了两种指导优化过程的优化标准.在优化过程中采用了三种优化

期刊

网格优化几何插值网格曲面优化算子

轴流透平级的最佳流型设计方法

把近代最优控制论方法引入轴流透平叶片的设计 ,在优化的轴流透平子午通道内 ,建立包括透平级内所有性能参量的最优流型命题的完整的物理模型及其数学表达式 ,并归化为一个在

期刊

透平最佳流型设计最优控制理论

应用不同湍流模型计算叶栅流场的结果与比较

采用有限体积 TVD-LW格式求解 N-S方程 ,使用了 B-L模型、高雷诺数 k-ε模型和低雷诺数 k-ε模型等多种湍流模型。并且用具体算例说明本文所用程序的可靠性 ,比较了 3种的湍

期刊

N-S方程湍流模型叶栅流动计算

钞票多光谱光电信号的分析

文中介绍了钞票的光反射和透射机理及钞票的光反射和透射检测技术。通过对其机理的研究和对比实验 ,找到真假钞票在光透射方面的特性差异 ,有针对性地利用其特性研制有关检测

期刊

多光谱分析光透射光反射光电信号

一类正规模糊神经网络及其在复杂水淹层识别中的应用

考虑了一种五层结构的正规化模糊神经网络模型,针对网络结构的优化问题给出了该网络模型的规则层节点的选取方法和相应的反传播学习规则。对于具有较少数输入节点的情况,该网

期刊

模糊神经网络学习算法模式识别正规化水淹层

ATLEED研究6H-SiC(0001)-(3 3)R30 重构表面

低能电子衍射(LEED)对6H-SiC(0001)-(3×3)R30°表面的研究结果表明，该表面有1/3单层的Si原子吸附在T4空位上与第一个SiC复合层中的三个Si原子键接，它们之间的垂直距离为0.171n

期刊

6H-SiC(0001)表面重构表面终止状态LEED

基于特征点跟踪的运动目标接触时间估计方法研究

解决估计运动目标和静止观测者之间的接触时间 (time to contact)的问题 .首先定义了广义接触时间的概念 ,并提出了基于特征点跟踪的估计匀速运动目标接触时间的理论依据和利

期刊

运动分析接触时间估计特征点跟踪运动分割

基于类别词语权重的MBL改进方法

其他学术论文