【摘 要】
:
文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的
【机 构】
:
国防科学技术大学计算机学院,国家计算机网络应急技术处理协调中心
【基金项目】
:
国家自然科学基金(60933005,60873204);国家高技术研究发展计划(863)(2001AA012505);国家242信息安全计划课题(2009A90)
论文部分内容阅读
文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%.
其他文献
伴随老旧城区改造、城市地下空间开发,因原有地下管线错综复杂,涉及多家产权单位,地下不明管线探测难度大、施工保护不到位等因素造成近年因工程项目施工导致各类电力、燃气
<正> 韩翔、朱英荣合著的《龟兹石窟》一书,已由新疆大学出版社出版发行。此书是新疆龟兹石窟研究所与新疆大学中亚文化研究所联合组织编写的《龟兹文化研究丛书》之一。该书
通过选择培养基平板培养法和液体发酵培养法筛选得到2株高产漆酶的平菇菌株P1和P2,并对平菇菌株产漆酶的培养基进行筛选,得到产漆酶的最适培养基为最低盐MSM培养基。菌株P1不
目的探讨预见性护理模式应用于肛肠外科病房对护理质量及患者满意度的影响。方法选取2015年3月~2016年7月在我院进行治疗的肛肠外科疾病患者84例,将其随机分为预见组与基本组
借鉴标杆管理理念,提出了一种基于标杆管理的优化算法(benchmarking-based optimization algorithm,简称BOA).根据标杆管理的核心价值观,设计了一套基于动态小生境的竞争性学
影响动物免疫功能的因素很多 ,主要有 :生物制剂、化学药剂、饲料营养、中草药剂以及动物本身的抵抗力等 ,本文仅就微量元素对动物机体免疫功能的影响作一阐述
<正>在美国,全国性的高考主要有SAT和ACT两种(学生可以自行选择参加何种考试),其中SAT的影响较大.SAT的主办单位是美国大学委员会(The College Board).除SAT之外,美国大学委员
电力工程是我国极其重要的一项产业,我们生活的各个方面都离不开电力,因此电力行业发展迅速,行业竞争力贡献增高。无论是大型的电力企业还是小型的先例公司,都承担着电力工程
采用单一、独立的监测诊断方式已经无法满足大工业化的生产需求,实现信号数据的存储、特征提取和共享,开展设备状态监测和技术创新,是科技发展的主要趋势,互联网/物联网技术