基于虚词停顿的中文分词消歧研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:tbtbtb5518232
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于虚词停顿的中文分词消岐的模型.首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理.整个过程分为粗分词、精分词和歧义消除三个过程.测试结果显示,该模型能有效地降低词歧义引起的错误切分率.
其他文献
STM期刊即科学、技术和医学期刊,是学术交流活动中非常稳定、重要的传播媒介。随着信息网络技术的发展,学术信息交流环境产生了“数字出版”、“开放存取”和“Web2.0”等新概
泛在环境是未来知识型社会的信息环境,在该环境下信息资源组织呈现出以用户为中心的特点。在探讨泛在环境下信息资源组织特点的基础上,通过分析泛在环境中用户间的关系,从内
首先分析知识链成员间收益分配的三个影响因素,即知识链的总收益、知识链成员的贡献及知识链成员承担的风险,并指出知识链收入分配的原则;其次,提出与知识链成员对知识链收益
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSSfeed中的少量entry信息训练得到主题内容模板,通过模板可以对RSSfeed下的所有网页进行主题内容抽取。该方法支持分别抽
知识链组织嵌入在特定的社会网络中,社会网络的网络结构、关系强度及社会资本对知识链的技术学习有重要影响.网络结构的中心位置以及较多的结构洞有利于知识链成员的技术学习
[目的]梳理学术期刊网络出版的进程,分析纸本期刊的未来,并为期刊发展提供对策.[方法]以“印后上网出版”“优先数字出版”“网络首发出版”三个阶段为研究对象,结合传播学“
专业领域知识应用环境是e-Research环境下科技自主创新的重要支撑,是数字知识基础环境的重要组成部分。探讨专业领域知识环境所处的生态环境,生态环境对专业领域知识环境的作
[目的]了解中国地学科技期刊互联网+新媒体技术的应用现状、效果和存在的问题,为提高我国地学科技期刊的宣传能力和影响力提供参考.[方法]围绕期刊网站、优先数字出版、邮件
讨论RSS的特点及其在个人信息环境设计中的作用,提出基于RSS的个人信息环境设计的目标、原则,结合实际介绍基于RSS的个人信息环境设计的具体方法,最后,分析基于RSS的个人信息