【摘 要】
:
本研究主要解决在大量文本数据中抽取关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已
【基金项目】
:
本文受国家自然科学基金(91546111)资助
论文部分内容阅读
本研究主要解决在大量文本数据中抽取关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。
其他文献
<正>2016年2月4日财关税[2016]6号各省、自治区、直辖市、计划单列市财政厅(局)、国家税务局,新疆生产建设兵团财务局,海关总署广东分署、各直属海关:经国务院批准,自2016年1
科技服务创新运营模式是推动高新技术产业,加快科技创新发展的前提与重要保障。哈长城市群综合科技服务平台作为东北区域共享平台之一,自2009年成立以来,平台在体制和运营模
<正>2015年12月31日财库[2015]245号党中央有关部门,国务院各部委、各直属机构,武警部队,新疆生产建设兵团,高法院,高检院,有关人民团体,各省、自治区、直辖市、计划单列市财
在当前"五水共治"不断推进的新时期,河道治理取得的成果十分显著,"断头河"作为河道治理中的重要部分,其还存在一些不足,尤其是在城市化进程不断推进的今天,很多河道被堵塞与
<正>2016年11月29日财农[2016]177号各省、自治区、直辖市、计划单列市财政厅(局),新疆生产建设兵团财务局:为规范中央财政农村综合改革转移支付资金管理,推动党中央、国务院
使用HP-Plot Q色谱柱与FID检测器检测消毒剂中复配的正丙醇与乙醇含量,最大方法相对偏差(RSD)为2.14%,最小方法回收率为100.0%,乙醇与正丙醇的检出浓度为0.025%,是一种快速准
民勤防沙治沙纪念馆是由甘肃省委宣传部发起,甘肃省委组织部、省财政厅、水利厅、农牧厅、林业厅、文化厅、广播电影电视局、体育局、文明办及武威市、民勤县联手共建的全省
<正>2016年2月17日财预[2016]18号党中央有关部门,国务院各部委、各直属机构,军委后勤保障部,武警各部队,全国人大常委会办公厅,全国政协办公厅,高法院,高检院,各民主党派中
天安金谷科技园项目一期工程为水利部在上海市督办项目,水土保持措施除主体工程区具有的工程和植物措施外,还根据不同区域水土流失特点进行了相对应的临时措施设计,对可能造
<正>2016年4月6日财库〔2016〕62号天津市、河北省、吉林省、江苏省、浙江省、安徽省、福建省、厦门市、江西省、海南省、四川省、陕西省、甘肃省、青海省、新疆维吾尔自治区