论文部分内容阅读
运用中文信息处理方法,从大量医药新闻报道中进行有价值话题挖掘,为后续话题跟踪提供训练测试文本。从医药新闻特点入手,使用轮廓系数评价法对k-means的聚类性能进行评估,选取最佳聚类中心数。利用LDA将选取的最佳主题进行提取,从而得到相应的话题。轮廓系数评价法与k-means方法的结合,有助于从海量信息中筛选出有价值的话题。当样本量足够大聚类效果不好时,人工标记可在一定程度上改善聚类效果。