基于Web文本的词语相似度计算研究及交通术语自动生成

来源 :长安大学 | 被引量 : 2次 | 上传用户:qq1094795388
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国现在正处于互联网、车联网的时代,不同的软件、智能化服务充斥在我们生活的周围。不同领域、不同行业产生大量的数据信息。同时,文本挖掘技术和处理技术也使得各行业发展的速度更快、效率更高。用户在页面上留下的大量信息,具有很高的利用价值,但是,与此同时复杂的网络词语对文本的处理和分析带来巨大的挑战。因此,需要找到一种机器学习的方法能够自动地从大量的数据文本当中挖掘出词语的含义、对词语相似度进行计算,挖掘出更深层次的语义信息并表达出来,已成为当前的迫切需要。首先,针对基于统计方法进行的词语相似度计算中存在的计算模型单一、结果精确度不高等问题,本文提出一种基于WEB文本的词语相似度计算方法。该方法利用网络爬虫HERITRIX对互联网中的大量网页文本进行抓取,经过过滤、ICTCLAS分词处理获得以文档、段落、句子为单位的纯文本信息。从信息论的角度利用LUCENE对三个路径中的文本构建索引,并计算两个词语分别与中间词语同时出现在同一文档、同一段落、同一句子中的概率,从而求出词语在各单位的同现相似度,并将词语在三个不同单位的同现相似度加权求和,算出两个词语分别与中间词语的综合相似度。实例验证的结果表明:该方法能够充分利用词语在大数据文本中的关系,简化计算模型,与词语统计相似度方法相比精度有所提高。其次,在专业的知识领域管理当中,领域主题划分一直是各行业关注的热点。本文将LDA主题模型引入到交通文本领域当中,实现交通领域主题划分和交通术语自动生成技术。对于传统的领域词分类产生的实时性不高、准确性低,交通术语只能通过人工方法生成等问题,通过本文的方法得到了很好的解决。
其他文献
目的:探析糖尿病患者发生下肢深静脉血栓的危险因素及该并发症的有效预防性护理措施.方法:收集我院2018年6月至2019年5月收治的72例单纯2型糖尿病患者(对照组)和38例合并下肢
本论文依托“十五”国家科技攻关计划课题的一个专题“智能公路技术跟踪”而完成,对智能公路磁导航车辆运动数字控制关键技术进行全面探讨,其主要研究内容及创新点如下:1)首次建
随着经济全球化带来的挑战及入世我国货运市场的进一步开放,中国的国际货运代理业面临更加激烈的竞争格局。 本文作者供职于深圳某大型国有国际货代企业(文中简称A公司),参与
伴随着人们对出行以及货物运输的安全、快速、方便和机动性要求的提高,公路交通事故及其造成的损失越来越受世界各国高度重视,道路交通安全已成为社会各界广泛关注的重大课题
军队的财务管理状况影响着整个军队的正常运转,因此,军队内部应该更加关注军队财务管理的进行情况,尤其是军队财务部门必须严格按照军队财务规章制度对军费的来源、支出,其对
本文通过对荣华二采区10
期刊
路边停车是三种主要停车方式之一,因为其停放车辆的便捷性,在我国很多城市中占着相当大的比例。建立路边停车设计和管理体系是提高路边停车场的利用率,协调路边停车和动态交通的
学位
论文以"孝襄高速公路金刚砂耐磨混凝土路面工程"为依托,根据高速公路收费广场路面特点和性能要求,从提高路面耐磨性能出发,结合混凝土磨损破坏机理,着眼于混凝土自身的组织构