结合内容和标签的Web文本聚类研究

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:guyehanxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】探索社会标签与文本内容的结合对文本聚类的影响。【方法】采用Engadget中英文博客数据,使用TF×IDF、Text Rank、Text Rank×IDF三种特征抽取方法,线性函数和Sigmod函数进行相似度加权,AP算法进行聚类。【结果】结果表明,TF×IDF的聚类效果最好,两种加权对英文博文聚类有不同程度的改善,但在中文博文聚类中,Sigmod加权结果稍有下降,线性加权比Sigmoid加权方法效果更好。【局限】没有找出标签相似度与内容相似度最佳的权重系数。AP聚类算法不能应用于大数据,聚簇过多影响聚类结果的展示。【结论】社会标签与文本内容相似度的线性加权能改善Web文本聚类结果。
其他文献
基于小型无人机搭载可见光镜头作为数据获取手段,通过对比可见光波段差异植被指数(VDVI)、过绿指数(ExG)、过绿减过红指数(ExG-ExR),归一化绿红差异指数NGRDI和绿叶指数(GLI)
创新型国家的建设需要和产业结构升级的外在推动,以及企业增强自身竞争力的内在需求,使得技术创新成为企业的战略选择,提高技术创新效率也成为企业的重要任务。研究表明,产业
对特定文本进行译法分析、技巧探索,是推动翻译事业发展的重要方法之一。本文以党的十八大报告汉哈文本为基础,探讨了什么是特定文本,什么叫特定格式,并结合相关理论,对特定
<正>资源型经济转型是经济发展的必然选择,但是,往哪儿转?如何转?却是需要探讨和思考的问题。从历史经验来看,各国各地区规避和走出"资源诅咒"的方式各不相同,这与当地人文环
香豆素类化合物是1-苯并吡喃酮的一大分支,在植物中广泛存在。香豆素类化合物因其特殊的分子结构和广泛而灵敏的生物活性受到国内外化学家、药理学家、植物学家的持续关注。
我国金融市场与国际接轨,给我国金融行业带来了更大的挑战,市场竞争越来越激烈,只有不断创新才能在市场竞争中不被淘汰。我国的商业银行也需要从单一的业务模式向多元化的模
为研究泉林嘉有黄腐酸营养液对棉花产量构成及经济效益的影响,采用小区对比试验,调查分析滴施黄腐酸营养液对棉花生物学性状、产量构成及经济效益的影响,为泉林嘉有黄腐酸营
运行中的汽轮发电机定子接地故障是较常见的,但对于定子接地保护投信号还是投跳闸应取决于发电机中性点接地方式及所配套的定子接地保护。该文讨论了几种接地方式下定子接地
在当今的图书馆界,不少组织或机构纷纷提出各自的图书馆核心价值观,这一现象的出现将极大地促进图书馆职业价值观的形成,相反地也有可能导致图书馆价值“核心不核”或“自我否定
众所周知,岛崎藤村的代表作《破戒》通过对主人公濑川丑松从"守戒"到"破戒"的心路历程的细腻描写,反映了消除等级差别、主张人权解放和自由平等的近代观念与日本社会残留的封