Co—training机器学习方法在中文组块识别中的应用

来源 :中文信息学报 | 被引量 : 28次 | 上传用户:weiqing1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7
其他文献
受国际金融危机影响,国内钢材市场价格从去年7月下旬开始下跌,今年5月初,钢材价格出现反弹上涨,最近几周价格上涨较为明显,受到社会有关方面的高度关注。近期钢材价格变动情况据国
新能源具有与传统能源不同的技术经济特征,需要不同的体制环境和政策支持。我国新能源的快速发展正面临传统体制的诸多制约,急需通过完善规划、审批、价格等体制机制,调动不同主
小学生思维活跃,精力旺盛,厌烦枯燥无味的说教。小学语文新课改也在呼唤扎实、灵动的课堂教学。因此,教师必须要改变教学方式,创设具有可动性的学习情境,把课堂交给学生,使学生在课堂表演、辩论、PK中“动”起来,展示自己的同时获得知识,实现高效的语文课堂。  课堂表演学辩式教学PK游戏小学语文新课改呼唤扎实、灵动的课堂教学,该怎样实践和把握呢?这是教师们普遍关心而又感到困惑的问题。小学生天性好动,精力旺盛
随着人工智能技术的发展,基于人机会话的智能化技术成为当前研究热点,知识表示是人机会话领域的研究难点之一.在众多的知识表示方法中,框架表示法由于具有适应性强、概括性高
针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题.现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析.
《社会保险法》素有民生基本大法之称,涉及到养老、医疗、失业、工伤、生育五大险种,是关乎每个公民的基本生存条件和基本生活保障的法律。多年来,我国在社会保险领域已经颁布了
聚烯烃改变了世界,它们不仅是最高产量的聚合物,且产量不断增加。由于聚烯烃只包含碳和氢原子,它是可持续材料且质轻并具有各种性能。生产聚烯烃的工艺只需使用易得且无毒的单体
期刊
为尽快走出困境,适应日益激烈的国内国际竞争,集团公司在着手制定重组改制规划的同时,要求亏损单位通过自身努力尽快实现扭亏解困。这对亏损面较大的石油运输系统形成