【摘 要】
:
文本信息挖掘是从非结构化的文本数据中获取有价值的信息的过程。文本信息挖掘作为数据挖掘的一个重要研究方向,目前已经被广泛应用于各行各业,政府和企业都利用文本信息挖掘
论文部分内容阅读
文本信息挖掘是从非结构化的文本数据中获取有价值的信息的过程。文本信息挖掘作为数据挖掘的一个重要研究方向,目前已经被广泛应用于各行各业,政府和企业都利用文本信息挖掘的结果对决策的制定提供数据依据。专家信息作为政府决策和项目评审重要的参考信息,如何通过文本信息挖掘方法自动从互联网中进行挖掘存在着诸多研究的难点。基于大数据的文本信息挖掘机制针对专家信息的特点从互联网网站中挖掘出了专家的基本属性,并经过了数据清洗和专家推荐模型等一系列计算最终得到了较为精准的专家基本信息。主要研究内容包括,提出了文本信息抽取方法,将信息抽取分为了结构化信息抽取和非结构化信息抽取两部分,提高了信息抽取的精准度。针对结构化数据的特点,提出了结构化数据的对比方法,通过对结构化数据相似度的计算来对比结构化数据,为数据清洗提供了基础。提出了数据清洗和去冗余方法,根据对专家信息特点的分析,制定了数据清洗和去冗余的方法,提高了数据的质量。提出了专家推荐模型,将专家属性转换为带权有向图,通过在带权有向图上寻找最长路径得到最终的专家属性,该方法考虑了数据源的可靠性,解决了数据冲突问题,提高了专家属性的准确度和完整性。通过测试数据集的测试,结果表明了此种文本信息挖掘方法具有稳定的性能,对于不同的数据集都能达到一定的抽取准确率,且对于唯一值的属性抽取能够达到较高的精准度,其中对于有同名数据集的抽取精准度能达到85%。
其他文献
电力的供应与社会生活息息相关,现代生活无处不充斥着电力的身影,一直以来,人们对电力的稳定大量需求产生了电力工程建设企业的垄断高利润。而近年来,电源建设不断发展,我国电力体
<正> 猪骨含水分69.26%,蛋白质11.69%,脂肪10.27%,钙3.31%,磷1.32%,灰分8.78%。这些骨头被人们视为“食之无肉,弃之有味”的物质。据日本研究表明,骨中含有人体所必需的十分丰富的
党和国家领导人多次提出要提升中国文化的国际影响力,提升中国的国家软实力。而作为当今世界的软实力大国——美国的发展经验很值得借鉴。以好莱坞模式为代表的商业化文化产业
以改进型SD-1生丝细度仪(采样率为10 K)采集的电压值序列为判别依据,利用NI-cRIO平台内置的FPGA模块μs级的时间控制特性以及内装的9014实时控制系统,开发了生丝匀度、清洁、洁
关注资源型城市的协同发展(企业间的副产品、水和能源交换)可以为资源型城市的可持续发展提供有益的借鉴。通过对发达国家与地区资源协同项目的描述,对产业共生与资源协同发展进
本文研究中立型时滞微分方程〔y(t)-P(t)y(t-γ)〕’+P(t)y(t-τ)-Q(t)y(t-σ)=0,其中R(t)、Q(t)、P(t)∈C([0,+∞),(0,+∞)),γ,τ,σ≥0,τ】σ的振动性,所得结果为一新结
合成了纳米固体超强酸,考察了该催化剂在乙酸异戊酯合成的催化活性,并与非纳米的SO^2-4/TiO2,SO^2-4/ZrO2,SO^2-4/Fe2O3,浓H2SO4催化剂进行了比较,同时对酯化反应的影响因素诸如催
提出了一种将普通紧后工序表转化为标准紧后工序表的方法,列举了一个该方法的应用实例.
本文从热处理工艺的改进方面阐述了提高3Gr2W8V钢压铸模使用寿命的方法。
<正> 小尾寒羊适应性、抗逆性、免疫性强,耐粗饲,易管理,整个饲养管理与其他绵羊大致相同,但需强调的方面是: 一、科学饲养 种公羊:配种期日粮营养要求全价,适口,易消化。日