汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现

来源 :军械工程学院学报 | 被引量 : 0次 | 上传用户:xiaoxiaoxiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统实现的中文分词完善了Nutch的中文搜索功能。
其他文献
为了解决支持向量机的分类仅应用于较小样本集的问题,提出了一种密度聚类与支持向量机相结合的分类算法.在密度聚类中,当一个样本点不存在拟密度可达的样本点,则其显著特征即
普适计算以用户为中心,具有不可见计算的特点,普适环境下的资源分配需要解决面向不确定性用户任务分配动态资源的问题。文章提出一个两阶段的普适资源分配模型来解决该问题,
酰胺官能团是蛋白质的基本结构单元,是构建多功能聚合物,生物材料和药物分子的最重要的砌块之一。传统的酰胺合成方法主要依靠羧酸及其衍生物与胺的缩合反应,它们大都需要多制备
在混合流动模型的基础上,建立了一个新的二维两相流模型来研究质子交换膜燃料电池内水分的传递规律和分布状态,在该模型中,催化剂层作为一个有厚度的实体包含在电极中.模型耦
基于准稳态理论,建立了准稳态量热器,可用于常压下250~400 K物质的融解热、固相和液相比热容的实验测量.利用量热学中测定比热容的标准物质正庚烷对量热器进行了标定,用标定后
张侬教授为甘肃省第五批老中医药专家学术经验继承带徒师傅,在长期的理论研究和临床实践中形成了自己独特的针灸操作技法和学术理念。张教授传承和规范了兰州民间特色疗法“十