【摘 要】
:
针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减
【机 构】
:
中国科学技术大学自动化系工业自动化研究所
论文部分内容阅读
针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立了一套歧义处理方法。实验结果表明,该3种算法在分词速度和准确率上均有显著提高,错误率降低到了原算法的三分之一以下。当文本规模大于200 MB时,3种正向增字最大匹配算法的分词速度均比原最大匹配算法提高30%以上。
其他文献
针对微机电系统(MEMS)陀螺测量精度低、随机噪声复杂的问题,根据MEMS陀螺的实测数据,分析其噪声特性,研究MEMS陀螺的随机噪声模型。应用时间序列分析方法,采用时间序列分析(AR)模
无人机机载功率放大器的性能一直是限制无人机技术发展的主要因素,为此提出了将功率合成技术应用于无人机数据系统的方法解决上述问题。利用微带线技术结合系统性的电路调试
为筛选出由串珠镰孢菌引起的玉米苗期根腐病生防木霉菌,对分离出的木霉菌株,采用对峙培养及室内盆栽试验对木霉菌(Trichoderma spp.)进行了拮抗效果筛选及防效试验。结果表明:从
针对基于 S3C6410嵌入式系统的低功耗设计问题,应用 TPS62402芯片设计了可以动态调节核心供电电压的超低功耗核心供电单元。给出核心单元电源部分的原理图和印制板设计要点及T