论文部分内容阅读
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法.该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略.应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试.结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14.