Nutch0.9中二分法中文分词的实现

来源 :计算机时代 | 被引量 : 0次 | 上传用户:zhou414663000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出了改进中文分词的方法。
其他文献
出露于秦岭、祁连造山带结合部位的王家岔石英闪长岩体,侵入于变质基底陇山岩群之中。岩石学、岩石化学、地球化学特征显示石英闪长岩侵入体具有俯冲花岗岩特征。利用LA-ICPMS(激光剥蚀等离子体质谱)测年技术,对石英闪长岩进行单颗粒锆石微区U-Pb同位素测定,获得加权平均年龄为(454.7±1.7)Ma,代表了岩石的形成年龄。这一新的成果资料,对研究秦祁结合部位早古生代构造演化、造山过程及秦、祁造山带的
随着社会经济的发展、卫生"三项改革"的深入和医疗市场竞争的加剧,社会上"看病难、看病贵"的呼声日高,对现行医院成本核算制度提出了严峻的挑战.构建符合医院经营管理需求,又
为了研究钻孔雷达对金属矿的响应特征,利用时域有限差分法(FDTD)对钻孔雷达探测进行了数值模拟。通过对不同形态的金属矿体,包括等球状体、板状体和一个实际矿体的模拟,得到大
介绍了一种在MFC中设计报表的方法:将各种报表共同的功能集中在一起,建立一个打印架构,在这个架构上设计报表,报表就具有了该架构的功能。文中也列出了关键的源代码。
摘要:首先根据体检中心的历史数据对体检状况进行定量分析研究;再从体检的“硬环境”、“软环境”以及信息化建设等方面提出改进策略;最终设计出基于信息流的体检状况定量分析流程,构建出基础统计分析模型,并设计了体检状况定量分析信息系统。该系统对提高体检服务质量和效率作用明显。  关键词:体检;信息流;定量分析;分析系统
协作医疗服务模式是建立分级诊疗的重要基础,是实现患者有序就医、优化医疗资源配置的重要抓手。为更好地探索分级诊疗模式,2014年,国家卫生计生委卫生发展研究中心选择江苏
[目的]了解广西壮族自治区市、县、乡、村四级医疗机构服务能力,为加强基层医疗机构服务能力建设,推进分级诊疗制度提出建议。[方法]采用描述性统计分析方法分析2013年广西14个