【摘 要】
:
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。
【机 构】
:
中国科学院计算技术研究所,内蒙古大学蒙古学学院
【基金项目】
:
国家自然科学基金资助项目(60736014 ,60873167), 教育部、国家语委民族语言文字规范标准建设及信息化资助项目(MZ115-038)
论文部分内容阅读
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率
其他文献
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法(简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后
用重铬酸钾法对化学需氧量进行分析并进行加标回收.建立水质化学需氧量分析的加标方案和方法,提高了分析准确度.加标量一般是待测物含量的0.5~2.0倍.加标物以浓度高、体积小
在美国的政治圈子里,每到选战逼近,就会掀起一阵旧闻炒作的热潮,有时候“杀伤力”还挺强。现任美国国务卿、民主党人克里当年参选总统时,就因为一个名为“炮艇老兵要真相”的组织质疑他的越战经历,而在关键时刻名誉受损,选战败北。如今,同为民主党政治家的希拉里,也遭到类似的质疑“突袭”。 艾米特曾在老布什、克林顿和小布什主政期间担任美国特勤局总统保护组特工,其所写的回忆录《一臂之遥》近日超火,主要原因就是披
随着网络的迅速发展,各种数据量变得庞大且分散,利用关键词检索数据的传统方式变得相当费时。为了减少用户在网络上的搜寻时间,提供用户更确切的内容信息,自动化推荐系统(Auto
针对在采用支持核函数的机器学习算法进行基于特征的中文领域实体关系抽取中,不同核函数对不同中文领域关系抽取在效果上存在差异性的问题,该文提出一种基于凸组合核函数的中