中文自动分词法在全文检索中的研究及应用

被引量 : 0次 | 上传用户:landa54321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词,就是利用计算机将连续文本切分为以词为单位的字符序列。全文检索是以文档的全部信息作为检索对象的一种检索方式,较以往以文档外部信息如题名、关键字等的检索,全文检索既提高了检索精度和检索速度,也扩展了用户检索的自由度。中文自动分词是全文检索的首要步骤,也是中文信息处理的基础,因此,对其研究具有重要的理论和现实意义。本文在对传统自动分词系统及目前已有的主要自动分词算法研究的基础上,对传统分词词典的组织结构和分词算法都做了改进,具体工作如下:设计了基于Hash的三层分词词典组织结构,以提高词典查询效率;对传统的最大正向匹配算法进行了改进,将传统的固定最大匹配词长改为分词过程中动态确定,充分体现了“长词优先”原则;对于分词中的歧义字段问题,分别对交集型歧义和组合型歧义进行了分析,并针对占歧义字段总数90%以上的交集型歧义识别提出了一种改进的最大正向匹配算法;对分词中的未登录词识别问题,分别对三种主要形式人名、地名、机构名进行了分析,并针对地名提出了一种新的基于互信息的识别方法。经大量实验测试表明:本文研究初步实现的自动分词方法具有较高的分词速度,平均达到了12000字/秒以上,同时在分词精度方面,对交集型歧义字段保持了97.56%的召回率,对地名识别也达到了93.41%的召回率。综上所述,本文研究的自动分词方法,具有较好的分词效果,可以初步应用于全文检索及各种中文文本处理。
其他文献
[目的]1.通过检测抑郁症中细胞因子IL-2、IL-10、TGF-β1及CD4~+CD25~+Treg数量和及其特征性标志Foxp3的变化,探讨抑郁症的免疫失衡及Foxp3的作用。2.以Foxp3为切入点,研究抑郁症
当前中医药信息化建设在实施过程中遇到了诸多障碍。分析云计算的概念和典型应用,阐明云计算在中医药信息化建设的优势。提出基于云计算的"中医药医疗云"应用模型,以打破现有
目的观察丹参酮ⅡA对化疗诱导的小鼠S-180肿瘤获得性多药耐药(MDR)模型化疗敏感性、细胞凋亡及对P-糖蛋白(P-gp)、肺癌耐药蛋白(LRP)、拓扑异构酶Ⅱ(TOPOⅡ)表达的影响。方法
目的观察抗瘤升白片治疗恶性肿瘤化疗白细胞减少的临床疗效。方法将149例化疗后出现骨髓抑制的恶性肿瘤患者随机分为治疗组和对照组。其中治疗组84例,予抗瘤升白片口服;对照
社会的发展使得人们越来越关注人身体上最精密的器官之一——眼睛,针对远视、近视、老花、异物侵入等不同的状况提出了很多的解决方法,从佩戴矫正眼镜到准分子激光,到人工角膜等
黄土地区的滑坡严重制约了当地的经济发展,为了减少滑坡灾害的损失,有必要进一步加强边坡稳定的分析预测研究工作。由于黄土的水敏性,黄土高边坡土体的稳定性主要受到坡体含
为了解决传统机队规划方法无法准确反映航空公司运营环境的问题,从航班机型分配的角度为航空公司设计机队规划算法,其基本思想是:给定候选机型以及航空公司生产运营环境(航线
为提高个体层次上客户流失预测的精度,建立了基于SMC-粗糙集-最小二乘支持向量机的电子商务客户流失预测模型.该模型首先利用SMC模型计算出客户活跃度,以0.5为阈值判断出客户
观察了丹紫康膝冲剂对兔膝OA模型的抗退变作用。将28只家兔随机分成A、B、C、D4组,前3组用管型石膏制动兔左后膝于伸直位,6周后制成膝OA模型,A、B组分别喂服丹紫康膝冲剂、壮骨关节丸,C组为空白对