论文部分内容阅读
该文提出了一种基于NA假设的词性自动标注方法。该方法采用基于NA假设自动从无标注语料库中抽取性三元组数据,训练词性标注统计模型所需参数,对稀疏数据进行平滑处理。对词典中未登录词的词性进行猜测。根据未登词的上下文评估各种词性的概率,最终选陂最大概率词性作为未登录词词性。两万词次的开放性测试,三个模型的测试结果的准确率分别为80.2℅,93.1℅和85.4℅。