一种无词典快速抽词算法的设计和实现

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:ruyingxiangsui1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score和二分相结合的抽词算法。它首先对原始文本进行预处理。利用噪音词的辅助信息来做初始切分,经过处理后一部分词被抽取出来,存入结果集。接着利用本文的抽词算法来进行二次抽词,本算法应用了N—Gram的思想,经过实验证明,该算法不但抽词速度快,而且抽取出的词相对长度大,维护了中文语言的完整性,为进一步进行语义分析和索引构建打下了良好的基础。
其他文献
将RFID技术和计算相结合。应用于远距离车辆进出智能管理系统.并着重描述框架中的终端技术。以停车场车辆管理系统为背景,终端实现主动服务、被动服务、RFID读写命令、液晶现实
本文介绍了基于RS485总线主从式多路容栅位移数据采集系统,给出系统配置方案、协议结构设计,以及确保RS485总线网络可靠连续运行的数据链路控制机制。系统实际运行符合预期目标,表现良好。
论文在Philips公司嵌入式ARM7 LPC2210硬件环境下,以ADS1.2软件开发环境,对温控箱采用单神经元PID的控制方法,同时对其进行改进,并与传统的PID和变速PID进行比较。实验结果表明,该
安捷伦科技公司(NYSE:A)日前宣布,推出支持多重播放基础设施开发和部署的多种测试解决方案。随着多重播放服务行业的不断演进,网络设备制造商、服务提供商、电缆安装商和网络运营
运用回转变换张量法建立了6自由度喷涂机器人的运动学模型,并利用消元法简化了运动学逆解的求解过程,得出了较为简易的解析解。利用ADAMS软件建立了机器人的虚拟样机模型,并进行
随着网络的飞速发展。基于网络的机器人远程控制日益受到了人们的重视;同时以往的基于各类单片机的移动机器人已经不能满足当前机器人发展的需要。有鉴于此。本文提出基于嵌入
第八届全国交通运输行业筑路机械操作工职业技能竞赛圆满而华丽地落下了帷幕,在本届大赛中,不论是选手还是裁判,都体现出较高技术水准和素质。据交通运输部职业资格中心副主任朱
本文根据TCP/IP网络中读卡器的访问需求,提出基于ARM的射频IC卡读卡器的设计方案,并给出了详细的设计过程。
以"推进中国多式联运产业实践"作为主题的第四届中国多式联运合作与发展大会,于2016年11月29日至30日在京成功召开,本届大会得到国家发展和改革委员会、交通运输部的大力支持,