【摘 要】
:
中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的
【基金项目】
:
重庆市自然科学基金(2008BB2183);中国博士后科学基金(20080440699);国家社会科学基金(ACA07004-08)资助
论文部分内容阅读
中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。
其他文献
根据我国城乡三种基本医疗保险制度的现状,借鉴国际全民医保的经验,结合目前我国社会经济发展的状况,立足体现社会公平,把享受基本医疗保障作为公民的基本权利,在当前的客观条件下
课堂是教师进行教学活动的主要场所,教师在课堂上表现出来的一些违反教育教学规律以及教师职业道德的行为(例如:玩手机,打骂学生等),不仅妨碍课堂教学的正常进行,同时也会对学
本文综述分布式数据库设计方法学。分布设计可以自顶向下或自底向上进行,第一种方法象征着从头开始开发分布式数据库,第二种方法象征着通过聚集现存数据库而开发多数据库。沿
基于1992~2007年相关数据的实证分析表明,四川省居民住房资产和股票资产的当期财富效应微弱;对未来的财富效应逐步显现;并且股票资产财富效应大于住房资产财富效应。为了更好
对贵州省产业结构与经济增长之间关系的研究表明:贵州省产业结构变动与经济增长之间存在着显著的相关性,第二、三产业是目前该省经济增长的主要支撑,其中第二产业中的工业增
贵州地处云贵高原,是一个多民族聚居的省份,历史上是"驿道所经"之地,49个民族(其中有48个少数民族)以大杂居和小聚居的形式居住其间。民族区域内封闭与交往并存,民族文化中个
苏南地区乡村旅游在开发和发展中以起点高、投入大和规范性强的特点而取得了可喜的成绩。在此基础上进行品牌建设可谓意义重大,也是乡村旅游进入可持续发展的重要举措。品牌
以2005—2014年政府工作报告中涉及随迁子女教育问题的表述进行文本和话语分析,勾勒出政府解决该问题的行动逻辑:我国政府在态度上表现为越来越重视该社会问题;在工作重点上
<正>教师应以怎样的姿态来确定一堂课的教学任务呢?欧阳代娜老师的回答是:"把我对教材的理解教给学生"。"我对教材的理解"包括理解的结论和理解的过程,"把我对教材的理解教给