基于并行信息瓶颈的多语种文本聚类算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户：chenjzh68

【摘要】

：

聚类算法在抽取文本数据中的模式结构时，忽略多个语种信息之间潜在的互补作用，得到的模式结构不能充分反映数据的内在信息．针对此问题，文中提出基于并行信息瓶颈的多语种文本聚类

【作者】

：

闫小强卢耀恩娄铮铮叶阳东

【机构】

：

郑州大学信息工程学院

【出处】

：

模式识别与人工智能

【发表日期】

：

2017年6期

【关键词】

：

并行信息瓶颈多语种文本聚类信息最大化 Parallel Information Bottleneck Multilingual Document Cl

【基金项目】

：

国家自然科学基金项目（No.61502434,61502432,61170223）资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类算法在抽取文本数据中的模式结构时，忽略多个语种信息之间潜在的互补作用，得到的模式结构不能充分反映数据的内在信息．针对此问题，文中提出基于并行信息瓶颈的多语种文本聚类算法．首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量．然后将多种相关变量引入并行信息瓶颈方法，通过最大化地保存模式结构与多个相关变量之间的信息，使得到的模式结构能够反映数据的多个语种信息．最后提出基于信息论的抽取合并方法优化文中算法的目标函数，保证其收敛到局部最优解．实验表明，文中算法能有效处理文本数据的多个语种信息，性能优于单

其他文献

尿素市场进入相对平稳期

由于市场多空因素相互交织、相互作用，且较为平衡，近期尿素市场进人了相对平稳期，各个市场尽管由于季节因素及市场供求因素而导致涨跌有所不同，但不管是上涨还是下跌，变化幅度都不

期刊

市场进入尿素平稳相互作用市场供求季节因素上涨售价

元代的畲族

元代畲族分布范围较唐、宋稍广,但其主体仍聚居于今天闽、粤、赣三省交界地区这一传统地域.畲民农耕技术在元代尚处于刀耕火种阶段,有槃瓠信仰.至元中后期,畲民在陈吊眼、黄

期刊

元代畲族畲民~~

海外华商与海外印商经营管理特点的比较研究

海外华商与海外印商在企业经营管理上的相同与差异反映了两大海外族群在传承本民族文化、传统与伦理上的相同与差异,而它们在经济全球化环境下革新求变不断发展的趋势又与中

期刊

海外华商海外印商华商网络印商网络经营管理比较研究overseas Chinese businessmenoverseas Indian busin

中国营养学会第十次全国营养学术会议暨第七届会员代表大会将在北京举行

<正>中国营养学会第十次全国营养学术会议暨第七届会员代表大会定于2008年10月22日至24日在北京温都水城(HOT SPRING LEISURE CITY)召开。

期刊

弹性核子空间聚类

现有子空间聚类算法通常假设数据来自多个线性子空间，无法处理时间序列聚类中存在的非线性和时间轴弯曲问题．为了克服这些局限，通过引入核技巧和弹性距离，提出弹性核低秩表示子空

期刊

子空间聚类高斯弹性核时间轴弯曲时间序列数据Subspace Clustering Gaussian Elastic Kernel Time Warp

贵州地区复合肥价格稳中有升

目前，贵州地区进入用肥时期，复合肥终端销售逐步展开。复合肥价格稳中有升，上游经销商均已提价，45％（S）复合肥市场主流批发价格1950—2050元／吨；45％（CL）复合肥市场主流批发价格1800—1900

期刊

批发价格贵州地区复合肥市场销售量铁路运输经销商

基于θ算子的变精度直觉模糊粗糙集

在模糊近似空间中，结合直觉模糊集的隶属度、非隶属度与模糊蕴涵算子，提出基于θ算子和θ＊算子的直觉模糊集及其隶属度和非隶属度的概念，并证明它们一系列性质．然后，结合直觉模糊集

期刊

模糊蕴涵算子直觉模糊集变精度粗糙集隶属度Fuzzy Implication Operator Intuitionistic Fuzzy Set Va

牛磺酸对低水平铅暴露大鼠神经行为与功能的影响

目的探讨牛磺酸对低水平铅暴露大鼠神经行为与功能的影响.方法将成年Wistar大鼠随机分为对照(Cont)组、铅(Lead)对照组、Lead+0.5%牛磺酸(Tau)组、Lead+1.0%Tau组和Lead+1.5%

期刊

牛磺酸铅中毒脑发育神经行为神经功能运动实验taurinelead poisoningbrain developmentbehavior

沙棘多糖对小鼠实验性高脂血症的影响

沙棘(Hippophae rhamnoides L.)是胡颓子科多年生灌木,不仅是西部防风固沙生态治理的优选植物,而且具有很高的营养价值[1].沙棘果汁、沙棘油和沙棘黄酮在调节血脂、抗氧化等

期刊

沙棘多糖小鼠高脂血症降血脂作用polysaccharide from seabuckthorn(HPZ HPG)hyperlipemia

农药超标困扰我国茶叶出口

自美国、欧盟、日本加强对进口食品、农产品检疫检验力度后，我国茶叶出口呈现大幅下降的趋势。据海关总署统计，实施命令检查和监控检查之后，这些产品的出口数量均出现大幅下降。

期刊

茶叶出口农药超标出口数量进口食品检疫检验海关总署农药含量农产品

基于并行信息瓶颈的多语种文本聚类算法

与本文相关的学术论文