基于SVM和词间特征的新词识别研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:wxxflystar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词测间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量。对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与洲练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新洲候选向量结合进行SVM测试,得到最终的新词识别结果。
其他文献
【摘 要】本文为中国职业技术教育学会德育工作委员会2019—2020年“新时代职业院校加强学生劳动教育的研究”课题的调研实践与分析。课题组通过对天津市部分职业院校学生劳动观念与学校劳动教育开展的现状进行针对性的调查研究,探研目前职业院校在实施劳动教育过程中存在的典型问题与成因,总结职业院校在课程教学与专业教学中融入劳动精神存在的困惑和困难,提出本课题后续研究的思路与设想。   【关键词】职业院校;
近年来,斜坡道在矿床开拓中得到越来越广泛的应用,合理的斜坡道设计,对工程实践具有重要的意义。阐述了一种基于最短路径的斜坡道自动生成算法,原始数据仅提供斜坡道人口点和阶段
射频识别(RFID,Radio Frequency Identification)技术是物联网的关键技术,物联网系统中分布的阅读器获取的大量原子事件对于商业决策几乎没有价值。为了能从海量的原子事件中挖掘出能够帮助管理者进行决策的具有商业逻辑的复杂事件,引用相对成熟的复杂事件描述语言SASE,在此基础上进行优化,补充了若干事件运算符以提取高级语义事件,并给出其形式化定义和应用实例。实验表明,事件运算
优化蚁群算法是一种基于种群的模拟进化算法,其高效的仿生过程在各类组合问题中有了广泛的应用。CSAHLP经常被用来描述物流在大范围运输时所产生的问题。在CSAHLP问题中,枢流点
这些年以来我国大力发展基础建设,公路行业也得到了蓬勃发展,随着人们对质量要求的提高,道路施工中的各个环节也越来越受到关注。在高速公路的建设中测量工程对整个建设项目的好
机器定理证明可以避免人工证明容易出现的低级错误,是人工智能的重要方面,有广泛的应用前景;函数式程序设计的设计思想更加接近于数学,在定理证明方面有天然优势。人们证明逻