论文部分内容阅读
在社交网络迅猛发展的今天,如何对有歧义的微博实体进行消歧和如何将微博实体连接到知识库已成为当今研究热点。对实体消歧和实体链接提出了多种策略方案。首先利用ICTCLAS对微博文本进行分词处理,利用百度百科、实体专家库对实体进行规范化处理。然后利用由爬虫爬取的百度百科信息、微博数据、网络词语构建了消歧文本数据库,再结合TF-IDF算法和FaSt-Newman聚类算法对实体进行消歧和链接。使用第二届自然语言处理与中文计算会议(NLP&CC2013)中的中文微博实体链接任务给的数据进行测试,测评中准确率为