基于群体智慧的Web访问日志会话主题识别研究

来源 :中文信息学报 | 被引量 : 11次 | 上传用户:EricQLiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。
其他文献
基于主观性文本的意见挖掘技术是一种在多种领域都有广泛应用的语言技术。该文把评价性语素作为研究对象,在哈尔滨工业大学的语言技术平台(LTP)对语料处理结果的基础上,利用SBV
知识资源的建设在语言信息处理中具有重要作用,中医基础理论知识库建设是进行中医文献处理和语义计算的基础工作。该文在分析中医基础理论术语特点的基础上,借鉴HowNet的构建思
所谓QC小组,简单的讲,就是一个车间或一个部门自主的组织起来的开展质量活动的小团体.这种小团体对于充分调动企业员工的积极性,提高产品质量,降低消耗起着至关重要的作用.但
当今世界,随着科学技术的迅猛发展、市场经济的繁荣、产品的激烈竞争,人们对产品质量的要求越来越高,"以质取胜"已被更多的企业所认识.1994年,美国著名质量专家朱兰博士在美
基于"组态王"设计了一个棉浆粕生产过程的计算机监控系统,通过控制和调节棉浆的浓度、流量以及烘缸蒸汽压力,达到满足棉浆粕定量水分的生产要求.并且可在局域网上进行监测.