【摘 要】
:
词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分
论文部分内容阅读
词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分布相似度作距离量度;然后分析了仪依据距离量度进行中文词聚类的缺陷,提出词的临近空间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的情况下,依靠词的内在语义进行聚类;最后,算法再将聚类结果作为计算相似度的依据,进行EM迭代聚类,使聚类结果得到明显优化。实验证明,算法有效地克服了中文训练数据的数量和质量问题,聚类结果好。
其他文献
准噶尔盆地陆梁隆起之上的石西凹陷深层钻井较少,认识程度较低。笔者利用区域重力、地震等资料,明确石西凹陷与目前有勘探发现的滴水泉凹陷具有相同的沉积背景,发育上石炭统
本文以工商银行基层行为出发点,对商业银行的战略管理展开深入分析,探究工商银行基层行的外部经营环境和内部条件,以及工商银行基层行特点和经营战略发展,从而给出一些更加契
针对在DEM制作的过程中直接采集大量的特征点线,虽然可以提高DEM内插精度,但效率低下的问题,提出运用DEMix自动生成结构点并与其他软件互相配合的一种DEM制作方法,并对其中发
针对春光油田结蜡严重,需要频繁清蜡的开采现状,研制了防蜡剂配方和加注工艺,并成功用于现场试验,该配方与储层具有较好的配伍性,防蜡率达到了60%以上,平均加药周期延长1倍以
经历了原始生长期的O2O领域开始通过整合进行市场布局。洗衣O2O企业多洗日前宣布以全资收购方式并购云洗衣,创造了互联网洗衣行业最大的并购案。首汽租车日前宣布战略入股瑞卡
通过建立云南省生态环境脆弱性评价指标体系和利用德尔菲调查方法确定评价因子权重,构建了综合评价模型。研究表明:云南省生态环境处于轻度脆弱的类型区面积仅占该省总面积的19
针对药品玻璃瓶包装的检测,提出了一种基于机器视觉技术的、适于实时在线检测和控制的方法。介绍了基于HALCON机器视觉软件的药品玻璃瓶包装在线检测系统的硬件结构组成、软件
6月3日~7日,嘉康利大中华区总裁黄海涛带领400多名绩优“嘉人”进行了为期一周的韩国炫动之旅。在感动、欢乐与留恋之中,嘉康利伙伴们不但结下了深厚的友谊,也得到了最直接的鼓舞
本文针对当前人力资源和社会保障局档案管理中普遍存在的问题加以分析,突出表现在缺乏完善的档案管理制度、缺乏统一标准的数据系统以及缺乏专业的信息管理人才等方面,且基于
魔芋为天南星科魔芋属多年生宿根草本植物,别名蒟蒻,鬼芋,花杆莲等.魔芋环茎富含葡甘聚糖、果胶、生物碱、淀粉、灰分及17种氨基酸和多种微量元素.随着魔芋产品的不断开发,魔