【摘 要】
:
中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模
【机 构】
:
辽宁石油化工大学研究生学院,辽宁石油化工大学计算机与通讯工程学院
论文部分内容阅读
中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。
其他文献
为防御突发水污染事故可能造成的水环境影响,本文研究建立基于B/S结构突发事故模拟平台,为制定科学有效的事故处置方案提供依据。以浙江省某条河流为例,采用PHP+MySQL体系架构
目的 观察氯吡格雷反应阴性的不稳定型心绞痛患者经皮冠脉介入治疗(PCI)术后不同抗血小板治疗方法的早期和晚期临床效果.方法 连续入选择期行PCI治疗术后24 h经血栓弹力图测定
目的 研究大黄在防治重度急性有机磷中毒(AOPP)引起全身炎症反应综合征(SRIS)、胃肠功能障碍、多器官功能障碍综合征(MODS)方面的效果.方法 将100例受试对象按照随机对照原则分为大
目的观察从脾胃立论针药结合治疗多囊卵巢综合征(PCOS)的临床疗效。方法将多囊卵巢综合征患者120例随机分为A组(予西药治疗)和B组(针药治疗),比较2组患者在排卵率、规律月经
基于中尺度自动气象站数据库的应用很多,并且我省加密自动站数量近千个,大量实时数据的传输使数据库负荷比较重,容易出现入库异常情况。本文介绍了如何应用Visual Basic结合Flas