基于类别词语权重的MBL改进方法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:peace060606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
记忆学习方法(Memory-Based Learning(MBL))将存储的训练数据作为获取的知识来使用,并通过相似性比较来完成分类任务,克服了词语一级自然语言处理中知识表示不足给机器学习知识获取带来的障碍。但自然语言的灵活性使MBL方法基于属性逻辑(attribute logic)的表示方法面临着较为严重的数据稀疏问题(data sparseproblem),这已经成为MBL方法应用于自然语言处理的主要瓶颈。本文正是针对这一问题,提出一种通过可信距离的判别机制将信息提取领域里文档表示方法的tf.idf词语权重计算引入到MBL中的改进方法。实验证明,我们提出的方法在保持原有训练集规模的情况下使正确率得到了较大的改进。 Memory-Based Learning (MBL) uses stored training data as acquired knowledge, and performs classification tasks by similarity comparison, overcomes the deficiency of knowledge representation in word-level natural language processing to machine learning knowledge Obtain obstacles. However, the natural language flexibility makes the MBL method based on attribute logic represent a serious data sparseproblem, which has become the main bottleneck for the application of MBL to natural language processing. In this paper, aiming at this problem, this paper proposes an improved method of introducing the tf.idf word weight calculation into the MBL by using the discriminative mechanism of trusted distance to extract the document expression method in the field of information extraction. Experimental results show that the proposed method can improve the correctness rate greatly while maintaining the original scale of training set.
其他文献
本文介绍了可满足性的测试向量生成 (SAT- ATPG)算法。通过控制输入跟踪算法 (CITA)嵌入 SAT- ATPG中 ,减少了 CNF的构成时间和搜索空间 ,加速测试生成 ,减轻故障压缩工作量
使用基于混合基表示的第一原理赝势法 ,研究了过渡金属铝化合物NiAl的电子与几何结构 .给出了其结构 -能量相图、能带结构、电子态密度以及电荷密度分布等 .所得的晶体结构、
分析了微矩形槽道内的不可压缩气体在速度滑移和温度跳跃区的流动和传热过程。在分析模型中 ,假定矩形槽道底面定热流加热 ,其余三面绝热 ,流动和换热均为充分发展 ,且处于滑
提出了一种曲面网格优化的通用算法,该算法基于一些预先定义的优化准则,将给定的网格曲面优化成为单位网格曲面,定义了两种指导优化过程的优化标准.在优化过程中采用了三种优化
把近代最优控制论方法引入轴流透平叶片的设计 ,在优化的轴流透平子午通道内 ,建立包括透平级内所有性能参量的最优流型命题的完整的物理模型及其数学表达式 ,并归化为一个在
采用有限体积 TVD-LW格式求解 N-S方程 ,使用了 B-L模型、高雷诺数 k-ε模型和低雷诺数 k-ε模型等多种湍流模型。并且用具体算例说明本文所用程序的可靠性 ,比较了 3种的湍
文中介绍了钞票的光反射和透射机理及钞票的光反射和透射检测技术。通过对其机理的研究和对比实验 ,找到真假钞票在光透射方面的特性差异 ,有针对性地利用其特性研制有关检测
考虑了一种五层结构的正规化模糊神经网络模型,针对网络结构的优化问题给出了该网络模型的规则层节点的选取方法和相应的反传播学习规则。对于具有较少数输入节点的情况,该网
低能电子衍射(LEED)对6H-SiC(0001)-(3×3)R30°表面的研究结果表明,该表面有1/3单层的Si原子吸附在T4空位上与第一个SiC复合层中的三个Si原子键接,它们之间的垂直距离为0.171n
解决估计运动目标和静止观测者之间的接触时间 (time to contact)的问题 .首先定义了广义接触时间的概念 ,并提出了基于特征点跟踪的估计匀速运动目标接触时间的理论依据和利