基于自组织映射神经网络的词自动聚类

被引量 : 0次 | 上传用户:pgzwoaini1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的分类问题在语言学和自然语言处理研究中占有相当关键的位置。对词进行语义分类,通常有两类做法。一类是基于语言学家的主观判断;另一类则是基于机器的自动聚类。后者是本文所要研究的主题。本文基于大规模的语料库利用自组织映射神经网络(SOM)对词进行无监督的自动聚类,并利用语言模型中的混乱度(Perplexity)构造了客观的评价方法。首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最终将构造好的待聚类词的特征向量做为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同节点;将类别用染色体表示,构造C-均值遗传算法,实现词聚类。本文讨论了上下文窗口大小对聚类结果的影响;讨论了特征选择中抽取向量维数对聚类结果的影响;讨论了SOM学习率、输出网格边长等因素对聚类结果的影响。在此基础上,确定了聚类过程中的相关参数,从语料库抽取了4638个高频实词进行了聚类实验,比较了不同输出网格边长对混乱度评价结果的影响,实验结果发现利用SOM聚类结果由原来的初始随机分类混乱度1005.72下降到247.37;并利用C-均值和C-均值遗传算法对4638个词进行了聚类,对应的混乱度值分别为353.68和337.27。
其他文献
构思精妙的楼盘名称,不仅能强烈地吸引人们的注意力,而且能刺激消费者的购买行为。因此,在楼盘的推介营销过程中,楼盘的命名已成为创意策划的重要手段之一。本文以南京房地产
近几年体育教育专业的大学生就业形式越来越严峻,学生的选择呈现多样化,并且在就业时都青睐于工资高,经济发达的工作单位。但是又对当前的就业形式不甚了解,体育教育专业毕业
新制度经济学是一门新兴的经济学科,它运用新古典经济学的逻辑和方法,来研究经济活动与制度以及它们之间相互关系。现阶段,我国正处于社会转型期,建立和完善社会主义市场经济
<正> 中国古代对男性不育的论述,有其悠久的发展历史,尤其对男性不育的生理特点、病因病理、辨证施治等方面都不乏记载,曾有《男科全书》和《傅青主男科》等专著问世,但限于
爱·摩·福斯特不仅以其经典小说《印度之行》誉满全球,而且还以其旗帜鲜明地倡导联结蜚声世界文坛。在福斯特的人文主义思想体系中,联结观占据着核心地位。他不仅主张人与人
笔者采用固本澄源法治疗糖尿病胃轻瘫取得较好临床疗效,现介绍如下。
近年来,我们越来越关注在外语教学过程中的跨文化交际现象。在跨文化交际中,文化冲突的事例屡见不鲜,严重影响了交往的顺利进行。本文探讨了跨文化交际能力的培养在外语教学
背景肺癌是严重危害人类健康的重大疾病,在世界范围内发病率和死亡率较高。在美国2019年预计有超过22.8万新发病例被诊断为肺癌,而且同年有超过14.3万的患者将死于肺癌。病理
目的探讨优质护理服务在无抽搐电休克治疗中的应用效果。方法选取我院2016年10月—2017年10月收治的行无抽搐电休克治疗患者90例,按照就诊时间先后随机分为2组,每组45例。采
本体最早是哲学上的概念,20世纪90年代以来,研究者将本体的概念引入到人工智能、知识工程和信息管理系统等领域,从而本体的含义也发生了改变。本体是对领域中的概念及概念间