前言:
此刻朋友们对“训练误差会降低模型的准确率”大约比较讲究,我们都想要了解一些“训练误差会降低模型的准确率”的相关内容。那么小编也在网上汇集了一些有关“训练误差会降低模型的准确率””的相关资讯,希望朋友们能喜欢,小伙伴们一起来学习一下吧!机器学习模型在为训练数据中代表性不足的个体做出预测时常常会失败。例如,一个用于预测慢性病患者最佳治疗方案的模型可能主要使用男性患者的数据进行训练,这样当该模型在医院中部署时,就可能对女性患者做出不准确的预测。
为了解决这个问题,工程师们有时会通过删除数据点来平衡训练数据集,确保所有子群体得到平等代表。然而,这种方法通常需要删除大量数据,从而可能损害模型的整体性能。
麻省理工学院的研究人员现在开发了一种新技术,重点识别和删除那些对模型在少数群体上失败贡献最大的训练数据点。这项技术比传统的平衡方法删除的数据点少,因此能够在提高少数群体表现的同时,保持或甚至提高模型的整体准确性。
此外,这种方法还能够识别训练数据集中潜在的偏差来源,即使这些数据集没有标签。在许多应用中,无标签数据比有标签数据更加普遍,因此这项技术在改善AI公平性方面具有广泛的潜力。
该方法还可以与其他方法结合使用,增强AI模型在高风险情境中的公平性,例如在医疗领域中,它可以帮助防止由于偏见的AI模型导致的误诊。
麻省理工学院研究的关键贡献
麻省理工学院电气工程与计算机科学(EECS)研究生Kimia Hamidieh表示:“许多其他算法试图解决这个问题时,假设每个数据点与其他数据点一样重要。在本文中,我们展示了这个假设并不成立。我们可以找到数据集中特定的那些数据点,它们对这种偏差的贡献最大,我们可以将它们删除,从而获得更好的表现。”
Hamidieh与Saachi Jain(PhD ’24)、Kristian Georgiev(EECS研究生)、Andrew Ilyas(斯坦福大学Stein Fellow)以及高级作者Marzyeh Ghassemi(EECS副教授)和Aleksander Madry(麻省理工学院Cadence设计系统教授)共同撰写了这篇论文。研究将会在神经信息处理系统大会(Conference on Neural Information Processing Systems)上展示。
解决问题数据点
机器学习模型通常使用从互联网各个来源收集的大规模数据集进行训练。这些数据集往往包含不良示例,会影响模型性能。研究人员知道,某些数据点对模型性能的影响比其他数据点大,特别是在少数群体的情况下。
麻省理工学院的研究团队将之前的工作与新技术相结合,包括TRAK(训练集相关性),该方法识别了对特定模型输出最重要的训练示例。通过使用TRAK,研究人员分析了模型在少数群体上的错误预测,识别出了那些对这些错误预测贡献最大的训练示例。
通过对错误预测的信息进行汇总,研究人员能够找出训练数据集中的哪些部分导致了整体最差群体的准确性下降。然后,删除这些有问题的数据点并重新训练模型,结果是少数群体的表现得到了提升,同时整体准确性得以保持。
新技术的性能优势
在三个人工智能数据集的测试中,麻省理工学院的新方法优于现有的多种技术。在一次测试中,它提高了最差群体的准确性,同时比传统的数据平衡方法少删除约20,000个训练样本。此外,该技术还比那些需要改变模型内部机制的方法取得了更高的准确性。
由于该方法仅要求对数据集进行更改,因此它比其他方法更容易应用,并且可以用于多种类型的模型。更重要的是,即使在偏差未知的情况下(如训练数据中的子群体没有标签的情况下),也可以实现应用。通过识别那些对模型预测影响最大的训练数据点,研究人员可以更好地理解模型在做出预测时所使用的变量,即便没有标签。
使AI更公平且更可靠
Hamidieh表示:“这是一个任何人在训练机器学习模型时都可以使用的工具。他们可以查看这些数据点,看看它们是否与他们试图教给模型的能力对齐。”
研究人员还计划改进该技术,以便更好地检测未知的子群体偏差,这需要直觉来判断应该寻找哪些群体。通过未来的人工研究,他们希望能够验证这一方法并进一步探索。
他们的目标是提高该技术的性能和可靠性,使其对实践者更加易于使用,未来可以在实际环境中部署。Ilyas表示:“当你有工具可以让你批判性地查看数据,弄清楚哪些数据点会导致偏差或其他不良行为时,它为你提供了构建更公平、更可靠模型的第一步。”
这项研究部分得到了美国国家科学基金会(NSF)和美国国防高级研究计划局(DARPA)的资助。
标签: #训练误差会降低模型的准确率 #模型误差可以避免吗 #模型设定误差的类型会导致哪些后果 #模型设定误差的类型会导致哪些后果呢 #模型设定误差的类型会导致哪些后果影响