论文部分内容阅读
论坛、博客、微博、QQ空间等都是重要的网络社交载体,但各自的网页结构和语言风格又有差异.本文根据网络论坛的网页结构和数据特点,阐述了应用于话题检测的网络论坛数据处理的相关技术,包括文本预处理和特征选择技术.介绍了这些技术的发展现状和研究成果,论述了命名实体信息在论坛话题检测中的作用,讨论了论坛中时间信息的识别与规范化处理.