论文部分内容阅读
中国现在正处于互联网、车联网的时代,不同的软件、智能化服务充斥在我们生活的周围。不同领域、不同行业产生大量的数据信息。同时,文本挖掘技术和处理技术也使得各行业发展的速度更快、效率更高。用户在页面上留下的大量信息,具有很高的利用价值,但是,与此同时复杂的网络词语对文本的处理和分析带来巨大的挑战。因此,需要找到一种机器学习的方法能够自动地从大量的数据文本当中挖掘出词语的含义、对词语相似度进行计算,挖掘出更深层次的语义信息并表达出来,已成为当前的迫切需要。首先,针对基于统计方法进行的词语相似度计算中存在的计算模型单一、结果精确度不高等问题,本文提出一种基于WEB文本的词语相似度计算方法。该方法利用网络爬虫HERITRIX对互联网中的大量网页文本进行抓取,经过过滤、ICTCLAS分词处理获得以文档、段落、句子为单位的纯文本信息。从信息论的角度利用LUCENE对三个路径中的文本构建索引,并计算两个词语分别与中间词语同时出现在同一文档、同一段落、同一句子中的概率,从而求出词语在各单位的同现相似度,并将词语在三个不同单位的同现相似度加权求和,算出两个词语分别与中间词语的综合相似度。实例验证的结果表明:该方法能够充分利用词语在大数据文本中的关系,简化计算模型,与词语统计相似度方法相比精度有所提高。其次,在专业的知识领域管理当中,领域主题划分一直是各行业关注的热点。本文将LDA主题模型引入到交通文本领域当中,实现交通领域主题划分和交通术语自动生成技术。对于传统的领域词分类产生的实时性不高、准确性低,交通术语只能通过人工方法生成等问题,通过本文的方法得到了很好的解决。