基于机器学习的软件开发者心智状态识别技术

来源 :南京大学 | 被引量 : 0次 | 上传用户:pldpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件行业的快速发展,软件开发的从业者逐渐增加。研究人员也开始进行一些与开发人员相关的研究,包括挖掘他们的开发行为模式、识别工作时的心智状态等。企业管理者在这些研究结果的指导下,可以对开发人员的工作时长与任务分配进行动态调整,这样既可以改善开发人员的工作体验,同时还能提高团队的生产力。现有研究工作大多关注开发人员的编程行为,但对于他们工作中的心智状态的研究并不普遍。而这些研究又大多基于实验室场景开展,对数据的有效性的考虑不够充分。在实验室场景中,采集得到的开发者数据往往与真实企业场景中有所不同,数据处理方法又大相径庭,这些因素影响了最后实验结果的可靠性,导致其无法为企业管理者提供正确的指导意见。本文研究了真实企业环境中软件开发人员心智状态的识别问题,提出了借助开发人员编程行为数据来识别心智状态的实验方案,并总结出了在真实企业环境中开展实验可能遇到的问题。针对这些问题逐个分析,我们提出了一套解决问题的框架——EPRFML,包含了数据采集、数据准备与借助机器学习方法识别心智状态等实验步骤。为了保证在真实企业中采集数据的质量,我们提出了非侵入与隐私保护的采集工具设计方案,并在此基础上实现了一套数据采集工具——Dev Act Rec,有效地完成了数据采集任务。我们同时给出了一套标准的数据处理流程,并针对“投入”状态识别问题进行了实验研究,将我们给出的技术框架中的不同模块具体实现,组成了一套完整的识别开发人员不同心智状态的应用。对“投入”状态识别问题进行的实验,验证了我们框架的有效性。本文的贡献主要包含以下方面:1.本文系统地分析了真实企业环境中开发人员心智状态识别问题的需求,提出了借助开发人员与IDE交互数据识别心智状态的方案,并将其整合为EPRFML框架,可以支持各种心智状态识别任务。2.本文提出了非侵入与隐私保护的数据采集原则,开发了一套IDE插件形式的数据采集工具Dev Act Rec,可以采集开发人员与IDE的所有交互数据,并以问卷形式定期采样其心智状态,为后续的识别工作提供了数据支撑。3.本文基于DevActRec工具采集的数据,提出了一套数据抽象模型,将原始数据抽象为不同粒度的行为序列。并给出了进行心智状态识别实验的参考数据处理流程。最后选择“投入”状态识别问题,借助监督学习方法进行了数据采集与实验验证,验证了本文提出的框架的有效性。4.本文总结了团队先前关于开发人员心智状态识别的研究工作,借助EPRFML框架对其进行了实验验证,最终得到了对三种真实企业环境中心智状态的实验结果。本文将实验数据集、实验流程与结果整合,组成了一套识别开发人员心智状态的基准测试集,为相关研究工作提供了参考。
其他文献
[目的]阿米替林(Amitriptyline,AMI)作为最常见的抗抑郁药物之一,在部分地区被广泛使用,具有复杂的药理机制以及多种不良反应,其中以心血管系统最为常见,过量摄入阿米替林的死亡机制主要为心脏毒性,但阿米替林的心脏毒性机制仍不清楚。钙离子在生物体内,尤其是心肌细胞内具有十分重要的地位及作用,它与心血管疾病和心血管不良反应密切相关。钙离子的调节机制也十分复杂,多种钙调蛋白通过不同的方式调节
我国改革开放40多年来,经济持续增长、社会财富不断积累,高净值人群数量实现了跨越式增长。随着家族信托业务实践在国内的展开,高净值人士通过家族信托进行财富的保值增值、家族财富管理与传承的需求日益旺盛。当前,国内信托公司的主要业务是融资类业务,其现有的以融资类信托为主的业务受托能力与家族信托业务受托能力的要求不完全匹配,因此梳理、分析和提高信托公司家族信托业务受托能力、顺利完成信托公司业务转型成为信托
细粒度情感分析,又被称为多方面情感分析,是自然语言处理领域重要的子方向,相较于传统的句子级或文档级情感分类,需要对每个方面词做出针对性的情感极性分类。该领域的核心在于计算方面词和句中其它词的相关性以及得到针对该方面词的文本表示。经典的细粒度情感分析的解决方案大多都是基于长短期记忆网络或卷积神经网络,同时引入注意力机制生成对应的文本表示。尽管大量的研究工作表明了这些方法的有效性,但是仍然存在一些不足
正电子发射计算机断层扫描(Positron Emission Tomography,PET)是一种高灵敏度核医学成像技术,能在分子水平检测器官代谢。PET探测器承担PET系统的核心功能,探测高能粒子并生成用于解码成像的电子信号,其性能改善有助于提高PET系统成像质量。PET探测器主要由闪烁晶体、光传感器、采集电路三部分组成。其中闪烁晶体用于拦截高能粒子并产生闪烁光子。由于PET系统中常用的闪烁晶体
数据中心在云计算的发展过程中起着至关重要的作用。在当今的数据中心,集群计算以其高性能和低廉的计算价格,广泛应用于数据处理和分析领域。然而,现有的网络级优化与集群计算应用程序的性能需求不匹配。对于Hadoop和Spark等主流数据并行框架来说,网络通信是高度结构化的。它们通常实现一个数据并行计算模型,其中每组数据流在产生最终结果之前都需要经历一个连续的通信阶段。在每个通信阶段,并行流需要在一组主机之
随着我国经济和社会的不断发展,智能制造在工业生产的诸多领域取得了长足的进步,并得到了广泛的应用。装配式建筑作为建筑行业实现数字化、信息化、自动化、智能化的重要载体,获得了从国家到地方的大力扶持和推广。装配式建筑的生产自动化,离不开预制构件自动化生产工厂和设备,边模机械手作为预制混凝土构件生产自动化流水线上的重要设备,承担着置模和拆模的工序作业,为预制混凝土构件的自动化生产提供了保障。开发适合于国内
随着人工智能、大数据和传感器等技术的飞速发展,国内的一部分人工智能专家和投资人预测自动驾驶将是这一轮智能化浪潮中最合适的技术落地场景。自动驾驶的汽车一旦真正产品化,将在降低交通事故发生率、提高交通运输效率、节省人力成本等方面产生明显的效益。自动驾驶技术进一步可以分为低速载物、高速载物、低速载人和高速载人四个维度,在真正的高速载人自动驾驶汽车商业化到来之前,低速载物的无人车是更加现实的落地场景,国内
电信诈骗和骚扰发生在多个国家,在我国也经历过十余年的发展历程。因为人口众多等原因,我国未能完全杜绝电信诈骗和骚扰。电信诈骗和骚扰的低成本策略,使其通信号码的通话行为较正常使用号码行为表现出明显异常。对正常和异常号码的通信行为分析可为异常号码的筛选提供依据。本研究通过随机抽取X市某运营商用户号码群的大量通信数据,形成正常通话数据矩阵,将公安部门认定的电信诈骗嫌疑号码通信数据作为异常通话数据矩阵。经过
近年来,随着移动设备的迅速普及和无线网络的广泛覆盖,图片和视频取代文本成为人们分享生活的主要方式,由此产生了数量庞大的图像数据。在自然场景图像中,文本常常蕴含丰富的语义信息,为人们理解场景提供了重要依据。最近涌现了一批行之有效的场景文本识别模型,但是由于自然场景中存在大量的不规则文本,目前已有的大部分模型都不能有效处理。不规则场景文本指的是由于拍摄角度或者文本自身排布而导致在图像中呈现出倾斜、弯曲