论文部分内容阅读
伴随大数据时代的到来,信息文本爆炸增长,已有的知识获取方式早已不能解决用户的知识性需求,面对大量信息资源我们应该进行组织加工方法的变革与更新,创建了新的医疗健康信息化服务模式。在新的时代要求下,人们希望能有一款理解领域知识,塑造领域知识轮廓,进入能帮助人们掌握领域知识的移动软件。为了达到这个目标,我们的首要任务就是能从海量的互联网信息资源中准确获取目标知识,文本分类正是解决这个问题的关键技术。然而,传统的文本分类模型有较大的局限性,无法分析文档中关键词之间的语义联系,也不能满足人们对层次化分类的基本需求。为了解决这个问题,本文提出了一种基于单一主题下知识图谱的文本分类算法,并在这个算法的基础上构建了一个睡眠主题的知识服务系统。为了达到语义网络层次分类的目的,本文引入了知识图谱技术。通过构建单一主题领域下知识图谱,结合经典SVM(Support Vector Machine,支持向量机)文本分类模型分析文本与图谱内知识实体的相似度,该算法实现了具有知识概念网络的文本分类效果,为整个睡眠主题知识服务奠定了基础。本文的研究内容主要有以下三个方面:以百科知识库中庞大的词条语料为基础构建主题图谱。首先,研究分析基于百科词库提供的睡眠主题种子语料,对数据进行采集与结构化;随后,采用中文分词、实体识别等技术对词条文本内容进行实体抽取,并使用机器学习算法——双向LSTM(Long Short-Term Memory,长短期记忆)模型抽取实体之间关系,从而构建主题图谱,并对实验结果进行了相关评价测试。本文提出一种基于主题图谱的文本分类算法。算法的主要思想是结合构建的主题图谱,将文本分类任务分成更小的子问题,从而提高文本分类的效率,降低硬件占用率。鉴于本文的主题图谱是有向无环类别树结构,因此,我们采用了一种自顶向下的文本分类模型。具体来说,在主题图谱的每一个知识实体节点收集样本,训练出子文本分类器,然后自顶向下通过这些分类器把大量待分类的文本分到主题图谱的实体类别中,从而实现了文本的语义网络化分类。最后,基于主题图谱和文本分类算法,本文构建一个睡眠主题的知识服务系统,该系统面向移动设备,负责睡眠主题知识的自动获取和推送。系统的主要结构为:首先,利用主题图谱对专业领域的知识数据进行有效挖掘和分析,使用文本分类算法搜索主题相关的知识;其后,以每个知识实体为信息结构单位,以单位信息为枢纽实现知识系统;最后,通过移动设备对用户提供服务。