结合半监督与主动学习的复杂名词短语识别

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:kongguoying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为克服传统的全监督机器学习模型的训练依赖于大量的标注样本的弱点,给出一种半监督学习和主动学习相结合的算法。根据主动学习选择策略选择最有价值的句子来标注,结合半监督来充分利用未标注的句子。结合汉语语料的特点,改进主动学习选择策略。实验结果表明,与采用随机选择标注样本相比,在使用相同数目的训练样本的情况下,该算法可以使学习器的F-score调高10.2%,在分类器到达相同性能的情况下,人工标注量可以减少32%,学习器对标注样本的需求得到了有效降低。
其他文献
2006年,我国机床产值增速为37.3%,远高于全球9.34%的平均水平。今年一季度国内数控金属切削机床产量继续呈稳步增长态势,同比增长30.27%。特别值得欣喜的是,今年2月份机床行业利润总额
通过对目前流行的几种用户之间的资源交换方式进行对比,提出了利用企业级邮箱进行资源中转方式进行用户之间的资源交换,并给出具体解决方案,包括各种邮件内容的定义、整体流
为了实现遥控器颜色缺陷的自动检测,进行了遥控器缺陷检测以及印刷缺陷检测的调查,提出了一种基于图像处理的自动检测算法。针对传统的互相关匹配速度慢的缺点,采用高斯金字塔分解与互相关匹配结合的方法对样品图像和模板图像进行匹配,保证了匹配速度和精度;将两幅图像转换到与人的目视感觉最符合的均匀色彩空间CIE1976L*a*b*(简称CIELAB),利用色差公式CIEDE2000来计算二者的色差值;依据色差值
为了支持更多的认知业务,提高认知系统的总体性能,提出了基于业务和信道分级的分布式信道分配算法。根据数据速率的不同,将认知用户的业务需求和可用信道分别分为不同等级,优
采用顶空固相微萃取(HS-SPME)技术结合气相-质谱法(GC-MS)对不同玉米中挥发性成分进行分析。优化了顶空固相微萃取的条件,对不同玉米中挥发性成分进行了鉴定和分类。结果表明
针对现有基于信息熵、最大模糊熵、最大粗糙熵和粗糙模糊熵等分割方法在去噪以及保留图像细节信息等方面存在的不足,提出一种灰度级大小信息融合粗糙模糊熵的阈值分割法。将传
针对传统图像拼接方法对视差较大的图像拼接效率不高的问题,使用特征点的尺度不变特征变换算法提取图像特征点;在特征点匹配阶段通过添加约束性条件剔除粗匹配的特征点对的外点(误匹配点),提高了内点的概率,有效减少了随机抽样一致算法的估计次数,得到稳定的变换矩阵进行统一坐标变换,利用加权平均算法完成图像融合。实验结果表明,与传统算法相比,该算法能大幅度提高内点的概率,提高算法的效率和配准精度。
针对生物地理学优化算法(biogeography-based optimization,BBO)收敛速度慢和容易陷入局部最优解的问题,提出一种基于中值迁移和柯西变异的生物地理学优化算法(MCBBO)。在MCBBO中,设
针对自然语言处理和信息检索传统算法存在影响因子单一、收敛性差、受数据稀疏和数据噪声的干扰较大等问题,提出一种以特定领域本体为基础的综合加权语义相似度计算方法。采用