基于并行信息瓶颈的多语种文本聚类算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:chenjzh68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量.然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息.最后提出基于信息论的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解.实验表明,文中算法能有效处理文本数据的多个语种信息,性能优于单
其他文献
由于市场多空因素相互交织、相互作用,且较为平衡,近期尿素市场进人了相对平稳期,各个市场尽管由于季节因素及市场供求因素而导致涨跌有所不同,但不管是上涨还是下跌,变化幅度都不
元代畲族分布范围较唐、宋稍广,但其主体仍聚居于今天闽、粤、赣三省交界地区这一传统地域.畲民农耕技术在元代尚处于刀耕火种阶段,有槃瓠信仰.至元中后期,畲民在陈吊眼、黄
海外华商与海外印商在企业经营管理上的相同与差异反映了两大海外族群在传承本民族文化、传统与伦理上的相同与差异,而它们在经济全球化环境下革新求变不断发展的趋势又与中
<正>中国营养学会第十次全国营养学术会议暨第七届会员代表大会定于2008年10月22日至24日在北京温都水城(HOT SPRING LEISURE CITY)召开。
期刊
现有子空间聚类算法通常假设数据来自多个线性子空间,无法处理时间序列聚类中存在的非线性和时间轴弯曲问题.为了克服这些局限,通过引入核技巧和弹性距离,提出弹性核低秩表示子空
目前,贵州地区进入用肥时期,复合肥终端销售逐步展开。复合肥价格稳中有升,上游经销商均已提价,45%(S)复合肥市场主流批发价格1950—2050元/吨;45%(CL)复合肥市场主流批发价格1800—1900
在模糊近似空间中,结合直觉模糊集的隶属度、非隶属度与模糊蕴涵算子,提出基于θ算子和θ*算子的直觉模糊集及其隶属度和非隶属度的概念,并证明它们一系列性质.然后,结合直觉模糊集
目的探讨牛磺酸对低水平铅暴露大鼠神经行为与功能的影响.方法将成年Wistar大鼠随机分为对照(Cont)组、铅(Lead)对照组、Lead+0.5%牛磺酸(Tau)组、Lead+1.0%Tau组和Lead+1.5%
沙棘(Hippophae rhamnoides L.)是胡颓子科多年生灌木,不仅是西部防风固沙生态治理的优选植物,而且具有很高的营养价值[1].沙棘果汁、沙棘油和沙棘黄酮在调节血脂、抗氧化等
自美国、欧盟、日本加强对进口食品、农产品检疫检验力度后,我国茶叶出口呈现大幅下降的趋势。据海关总署统计,实施命令检查和监控检查之后,这些产品的出口数量均出现大幅下降。