信息过滤中的中文自动分词技术研究

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户：zhangxc0398

【摘要】

：

文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理，使得文本成为可计算和推理的信息，而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法

【作者】

：

孙铁利李晓微张妍

【机构】

：

东北师范大学计算机学院

【出处】

：

计算机工程与科学

【发表日期】

：

2009年3期

【关键词】

：

中文自动分词歧义未登录词形式化模型 automatic Chinese segmentation ambiguity unknown word fo

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理，使得文本成为可计算和推理的信息，而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析，构造了分词的形式化模型，说明了自动分词中存在的两个最大困难及其解决方法，最后指出了中文自动分词研究中存在的问题及未来的研究工作。

其他文献

《资本论》中的补偿经济思想

补偿是促进经济社会可持续发展的前提，《资本论》研究了资本主义生产总过程，在这个过程中马克思论述了工人利益的受损与补偿、社会再生产过程的补偿、生态断裂与补偿等问题。《

期刊

补偿经济利益补偿再生产补偿生态补偿compensation economyinterest compensationcompensation of

基于综合相似度的二次差分法在镜头检测中的应用

本文提出了一种基于综合相似度的二次差分法,综合考虑小波分析和统计量等多种方法对镜头进行检测。在镜头突变检测中考虑了相邻帧的二次差分法;同时,在渐变检测中引入了自适应阈值法,考虑了非相邻帧的二次差分法,避免了人为因素,克服了其他方法仅适用于一类视频序列或几类视频序列的限制,因而具有较好的鲁棒性。实际视频数据的实验结果表明,本文所用方法对镜头边界检测具有很好的效果。

期刊

镜头边界检测帧分块小波变换似然比综合相似度shot boundary detection frame blocking wavelet chang

原始儒家“性与天道”问题的现象学还原——以孔子与子贡的形上学探讨为例

在言说与解读之间,有着一个巨大的须填充的空间。借助现象学、语言哲学的问题意识,以通达并填充这一空间,也许可以对相关问题获致一定程度的＂正解＂。子贡＂得闻夫子之文章＂而＂不得

期刊

《论语》孔子子贡言说解读LUN YU Confucius Tzu-gong speech interpretation

拓扑保持的高质量网格简化算法研究

本文对传统的网格简化算法进行了深入的研究,针对传统算法在新顶点位置的确定、边界顶点和边界边的处理、累进网格二义性的处理,以及网格拓扑关系有效地保持的处理等方面所存在的不足进行了相应的改进。改进后的网格简化算法能够有效地保持网格模型的形体特征,消除了累进网格的二义性,保证了简化过程中网格拓扑关系的正确性,提高了网格简化的质量。实验结果表明,改进的算法不仅能产生高质量的网格,而且具有很高的执行效率,可

期刊

边折叠点分裂拓扑保持网格简化edge collapse vertex split topology preserving mesh simp

《计算机程序设计实验》课程的教学改革与实践

围绕《计算机程序设计实验》教学的全过程，以建构主义学习理论为指导，构建本门课程教学的四大模块：学员自我建构、学员协作学习、学员自我反馈和教员归纳总结。这种教学模式真正

期刊

计算机程序设计实验教学意义建构教学改革computer program designexperiments teachingmeaning cons

多播协议PI演算建模与MWB检测

MWB是一个基于PI演算的模型检测工具。本文对多播的PIM_SM协议用PI演算建立一个三层模型并进行模型检测，其中主要检测PIM_SM协议中的嫁接和剪枝等；讨论利用PI演算建模的一般方

期刊

PI演算模型检测多播PIM_SM协议嫁接剪枝PI-calculus model checking multicast PIMSM prot

基于离散粒子群的DNA编码序列组合优化方法

本文分析了DNA编码序列设计的目标及需要满足的约束条件H—measure、连续性、相似度、发夹结构、GC含量等约束，建立一种组合优化评价模型，通过引入基于权重的适应度函数来评价D

期刊

DNA计算DNA编码组合优化离散粒子群优化算DNA computingDNA encoding combinational optimization

基于CABAC和去耦合码率估计技术的H．264／AVC帧内模式选择方法研究

本文提出了一种简单有效的帧内模式选择方法，通过分析CABAC熵编码中色度分量与量度分量的交织信息，去除耦合，同时在率失真优化过程中部分引入部分码率估计方法，降低模式选择的计

期刊

帧内模式选择H.264/AVC去耦合intra-frame mode decision H. 264/AVC decoupling

多通道皮肤听声系统中语音增强算法的应用研究

针对提高应用多通道皮肤听声系统进行语音识别的识别率,提出了基于多频带谱减法的语音增强算法。在多通道皮肤听声的实验中,有色噪声会严重降低语音质量,进而降低皮肤听声系

期刊

皮肤听声谱相减语音增强多通道DSPskin-hearing spectral subtraction speech enhancement mu

信息过滤中的中文自动分词技术研究

其他学术论文