【摘 要】
:
伴随着信息技术的迅猛发展,互联网上的数据呈爆炸式的增长。Internet中存在着海量诸如文本、图像和音频等各种数据信息,文本数据与其他数据相比,具有占用网络资源小的特点,这
论文部分内容阅读
伴随着信息技术的迅猛发展,互联网上的数据呈爆炸式的增长。Internet中存在着海量诸如文本、图像和音频等各种数据信息,文本数据与其他数据相比,具有占用网络资源小的特点,这使得网上的数据大多是以文本的形式呈现的。为了有效的组织、管理和利用这些文本数据,从中发现有价值的信息,基于机器学习的文本自动分类技术倍受关注。监督学习根据样本标签的个数可以分为单标签学习和多标签学习,多标签文本分类属于多标签学习,在多标签文本分类领域,每篇文档可能有一个或多个标签与之对应。近十年来,多标签学习取得了较大的发展,然而现有的研究中针对文本数据的多标签学习算法较少,多标签文本分类的性能也难以达到满意的效果,其面临的主要问题有:(1)特征空间的维度较高,且其中有较多的冗余特征;(2)样本输出空间的维度极大,学习任务更加困难,因此多标签学习算法的复杂度一般较高,在数据规模上升至十万级时,其效率较低。针对上述问题,本文的研究工作分为以下两个方面:1.将Word2vec引入经典的多标签分类算法ML-kNN,提出了一种基于Word2vec加权的ML-kNN多标签文本分类方法wMLkNN(Weighted Multi-Label k-Nearest Neighbor)。该方法首先基于Word2vec计算特征与标签之间的相关度,对于与标签关联度较高的特征,在ML-kNN模型学习时加大其权重,降低与标签关联度较低的冗余特征的权重,以提升多标签文本分类的精度。2.研究一种基于MPI的并行化ML-kNN算法。该方法首先在不影响算法精度的情况下改进ML-kNN算法中的距离度量公式,其目的是进一步提升并行的效率,再基于MPI将改进ML-kNN算法并行化,以提升多标签文本分类的效率。值得一提的是,本文针对文本数据特征维度较高的特点,提出了一种支持以特征为单位切分数据集的并行化方法,相比单一的以样本为单位切割数据集具有更高的效率。通过在多标签文本数据集的若干实验,验证了本文所提出模型的有效性和优越性。
其他文献
物联网使人与人、物与物、人与物的信息交互成为可能,也使信息安全变得越来越重要。在物联网的数据安全方面,加密技术起到了至关重要的作用。然而,传统互联网中的加密算法大
使用光斑直径为3mm的CO2激光器制备单-MoSi2熔覆层,通过X射线衍射仪(XRD)和扫描电镜(SEM)检测得出熔覆层内部长条枝晶主要为(Fe,Si)2Mo,枝晶间主要为α—Fe、Fe2Si两相共晶,涂层显微硬
采用高温固相熔融法在弱还原气氛下制备了Ce3+离子掺杂的Y2O3-A12O3-SiO2(SAY)系基础玻璃,并在1250℃~1300℃热处理一定时间制备了晶相为YAG的黄色微晶玻璃。通过XRD、SEM研究了
逻辑真理问题是逻辑哲学中的一个重要的问题,一直为许多逻辑学家和哲学家所探讨,从莱布尼茨到奎因都试图给逻辑真理下一个准确的定义,但都未能完成这一工作。本文依据莱布尼茨等
临优2018具有优质、高产、抗寒性好、分蘖力强、成穗率高、矮秆抗倒、综合性状好、适应性广、产量结构良好等特点,是适应山西南部麦区及黄淮麦区中水肥地种植的优质中筋小麦新
色彩是工笔人物画中的一个重要元素,而且是最能形成视觉冲击力的要素。当代工笔人物画受西方绘画的影响,色彩技法发生了很多转变与创新,呈现出新的感官冲击力。论文分析色彩在不同材料、材质下所呈现出的状态,学习和运用中西方名画的色彩搭配,汲取精华,从而学以致用,呈现到《研途》系列作品中去。笔者研究生阶段的专业是工笔人物方向,结合本专业对当代工笔人物画的色彩进行由表及里地认识,学习和借鉴中西方绘画的色彩知识,
报道了2006年6月至2007年10月间在汾河源头采集的部分鳞翅目昆虫,包括波纹蛾科Thyatiridae3属5种,枯叶蛾科Lasiocampidae13属16种,天蛾科Sphingidae7属10种,带蛾科Eupterotidae1
大气压非平衡等离子体射流自问世以来,备受研究者们的青睐,是当今低温等离子体物理研究与实际应用领域的热点之一。与传统的低温等离子体放电相比,大气压等离子体射流中放电产生的自由基、带电粒子、和亚稳态粒子等能够在气流场和电场的共同作用下被传送到想对远距离的区域,保证了放电系统的稳定性。同时,放电产生的等离子体无电击感和灼热感,能够与生物体直接接触,这也促使了等离子体射流在医学治疗上的应用。由于等离子体射
研究氯化锌浓度,溶液酸碱度,离子强度等底液性质及反应温度对化学反应法在不溶膜上制备纳米级硫化锌粒子化膜的影响,得出了一些规律并加以初步的解释。