无词典分词相关论文
随着WWW技术在全球范围内的迅速发展与普及,Internet上的资源日趋丰富,现有的搜索引擎技术和方法已经不能满足用户对信息需求快速......
作为提升生物医学文献检索系统智能化水平的一种重要手段,基于生物医学文献相关性数据库的相关文献检索对于满足医疗卫生领域临床......
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词......
分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适......
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据......
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词......
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特......
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首......
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原......
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 ,无词典分词模型能够满足快速分词的要求......