【摘 要】
:
句子或者是短文本的相似度在文本相关性判断,网页检索,信息检索以及文本挖掘方面起着越来越重要的角色。在相似性计算方面已有一些算法来自于对于长文本以及大文档的相似性计
论文部分内容阅读
句子或者是短文本的相似度在文本相关性判断,网页检索,信息检索以及文本挖掘方面起着越来越重要的角色。在相似性计算方面已有一些算法来自于对于长文本以及大文档的相似性计算。但是这些算法在计算效率上明显不足,对短文本的表达形式不完善,并且需要比较多的人工输入信息,较多的背景知识。本文提出了一种新的计算短文本语义距离的算法,该算法不涉及通用的相似性算法,它是基于知识库WordNet,以及词法库The Brown Corpus的相似性算法。文中构建了一种新的基于WordNet和Corpus Statistics的IC(Information Content)计算模型IC-CW,考虑概念在WordNet中语义信息以及语料库中概念的频率信息。并针对目前已有的语义相似性计算方法均与领域相关的特点,设计了一种通用的概念之间的语义相似性计算方法:SS-CW。在SS-CW的基础上又提出了一种新的文本之间的语义相似性计算方法ST-CW,在R&B以及Miller数据集上进行了实验,实验结果验证了新的模型和算法的有效性。
其他文献
随着我国参与全球化分工程度的不断加深,中间品的进口规模迅速扩大,成为我国进口贸易的主体。本文以进口中间品为研究对象,利用1995-2011年世界投入产出表,首先对我国中间品
西方博物馆的历史最早可以追溯到古希腊神庙和亚利山大城的博物馆,文艺复兴晚期开始,建立私人收藏成为贵族和学者们生活的重要内容,他们收藏了包括艺术品在内的各种珍稀物,成
<正>进入2010年以来,北京市各区县建委有关单位正按照北京市住房和城乡建设委员会办公室印发的《北京市混凝土预制构件行业发展专项规划》(由北京市住房和城乡建设委员会建材
目的:评价吻合器痔环切除术的临床治疗效果。方法:选取2009年10月到2011年9月我院肛肠科收治的重度混合痔76例,随机分为两组。治疗组38例,采用吻合器痔环切除术治疗;对照组38
由于不同收入群体的公共产品偏好不同,因此,随着居民收入的增长,公众对于公共产品的需求会有所改变,由此引致的财政支出规模变化应当是“民生财政”建立过程中需要重点考虑的
文化产业融文化和经济为一体,在精神文明和物质文明两大领域同时发挥巨大作用。文化产业的发展是国民素质的提高和社会进步的重要标志。从世界各国文化产业发展的历程来看,文
由于大中城市的空中输电走廊的限制和不断发展的城市负荷,纯交流线路的城市配电网络已经越来越不能满足社会和经济发展的需求。柔性直流输电利用电压源换流器VSC的自换向特性
目的:观察"四大血"的水、醇提取物的抗炎、镇痛作用。方法:建立小鼠耳廓肿胀、小鼠棉球肉芽肿炎症及醋酸致小鼠腹腔毛细血管通透性增加等模型研究抗炎作用。采用小鼠热板法、
<正>多少人感谢胡耀邦从1976年至1978年,胡耀邦抓住一个最要害的问题,拉开中国社会大转折的序幕,这就是极具针对性的"实践是检验真理的唯一标准"大讨论。这场大讨论的意义有
运用巴赫金的复调小说理论解读《法国中尉的女人》和《水之乡》等后现代主义元小说。分别从作者与主角的关系,对话性艺术语言以及双声语的话语形式这三个方面展开论述。认为