【摘 要】
:
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息
【机 构】
:
华东师范大学计算机科学与技术系,池州学院数学计算机科学系
论文部分内容阅读
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。
其他文献
本文对中频炉的运行电流进行谐波分析,中频炉通过变压器接入系统,含大量谐波的运行电流增加了变压器的额外畸变损耗,并导致机械振动和噪音。作者建议在变压器低压侧接入有源
<正>近日,陈赫离婚事件闹得沸沸扬扬,剧情更是一波三折。先是陈赫被曝离婚,一篇包含数个"对不起"的道歉书坐实离婚传闻。随后,陈赫被曝与张子萱出轨,很快便有媒体亮出"铁证",
<正>政府购买法律服务在国际社会已经非常普遍,但在中国,政府购买法律服务还处于探索和试行阶段。随着中国经济社会发展、改革开放深入、新农村建设等一系列活动的开展,政府
针对一个考虑新产品和再造品差别定价的制造商回收闭环供应链,在突发事件干扰两类产品生产成本发生扰动的情况下,研究了集中式决策闭环供应链的应对策略,以及设计可协调突发
自2003年国家颁布《建设工程量清单计价规范》以来,各地大多数建设工程在招标过程中广泛深入地推行了工程量清单计价,并取得了很好的成绩,特别是还承包商以报价自主权,使工程
快速高质量聚类技术已成为文本挖掘中重要的研究课题。本文首先提出文本挖掘中聚类算法的六个评价标准,然后对文本数据挖掘中的常用算法进行分析与比较,指出每种文本聚类算法
20世纪90年代以后,中国高技术服务业快速发展,高技术服务业在未来现代服务业的发展中将占据越来越重要的地位。中国加快发展高技术服务业有助于带动中国产业结构优化与升级、
本文分析了我国旅游档案开发利用的现状;根据旅游档案的特点,阐述了开发旅游档案的现实意义;同时,提出了开发旅游档案的几点思考。
通过文献资料法、调查法对独竹漂运动进行研究,运用逻辑分析法总结该项运动的文化特征。独竹漂运动在群众体育当中不断实现它的多元文化功能和价值。与现代体育积极的融合,不
<正>幼儿的欺负行为是一种特殊的攻击性行为,是伴随着幼儿的社会生活而发生的频率极高的一种不良行为。它主要表现为直接的言语欺负(如责怪、讽刺等)和身体欺负(如争抢玩具、