一种无词典快速抽词算法的设计和实现

来源 :微计算机信息 | 被引量 : 0次 | 上传用户：ruyingxiangsui1989

【摘要】

：

中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score和二分相结合的抽词算法。它首先对原始文本进行预处理。利用噪音词的辅助信息来做初始切分，经

【作者】

：

屈志毅张星廖绍雯

【机构】

：

兰州大学信息科学与工程学院,甘肃气象局、兰州大学联合数据实验室

【出处】

：

微计算机信息

【发表日期】

：

2008年27期

【关键词】

：

无词典 T-SCORE 二分法快速抽词 no-lexicon t-score dimidiate method fast extracting words

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score和二分相结合的抽词算法。它首先对原始文本进行预处理。利用噪音词的辅助信息来做初始切分，经过处理后一部分词被抽取出来，存入结果集。接着利用本文的抽词算法来进行二次抽词，本算法应用了N—Gram的思想，经过实验证明，该算法不但抽词速度快，而且抽取出的词相对长度大，维护了中文语言的完整性，为进一步进行语义分析和索引构建打下了良好的基础。

其他文献

多路容栅位移数据采集系统

本文介绍了基于RS485总线主从式多路容栅位移数据采集系统,给出系统配置方案、协议结构设计,以及确保RS485总线网络可靠连续运行的数据链路控制机制。系统实际运行符合预期目标,表现良好。

期刊

容栅位移传感器数据采集RS485总线可靠性Capacitive Displacement Transducer Data Acquisition RS4

基于ARM嵌入式的单神经元温度控制系统

论文在Philips公司嵌入式ARM7 LPC2210硬件环境下，以ADS1．2软件开发环境，对温控箱采用单神经元PID的控制方法，同时对其进行改进，并与传统的PID和变速PID进行比较。实验结果表明，该

期刊

中断ARM7嵌入式系统单神经元PID控制温控箱PID变速PIDIntermit ARM7 Embedded System Single Neuron

6自由度喷涂机器人的运动学分析与仿真

运用回转变换张量法建立了6自由度喷涂机器人的运动学模型，并利用消元法简化了运动学逆解的求解过程，得出了较为简易的解析解。利用ADAMS软件建立了机器人的虚拟样机模型，并进行

期刊

6自由度喷涂机器人回转变换张量法运动学模型ADAMS6-DOF Spraying Robot The Rotation-Transfornmtion-T

基于无线网络的嵌入式机器人控制系统

随着网络的飞速发展。基于网络的机器人远程控制日益受到了人们的重视；同时以往的基于各类单片机的移动机器人已经不能满足当前机器人发展的需要。有鉴于此。本文提出基于嵌入

期刊

无线网络机器人远程控制任务重构嵌入式系统Wireless Network Remote Robot Control Duty Restructure E

基于ARM的射频IC卡读卡器设计

本文根据TCP／IP网络中读卡器的访问需求，提出基于ARM的射频IC卡读卡器的设计方案，并给出了详细的设计过程。

期刊

射频IC卡ARM读卡器RF Integrated Circuit Card ARM Card Reader

一种无词典快速抽词算法的设计和实现

其他学术论文