当前位置: 首页 > 

1号店网上超市数据中毒…- Moneyweb

|

想象一下。您需要一个气球的图像用于工作演示,然后使用文本到图像生成器(如Midjourney或DALL-E)来创建合适的图像。

你输入提示:“蓝色天空下的红色气球”,但是生成器返回的却是一个鸡蛋的图像。你再试一次,但这一次,生成器显示了一个西瓜的图像。

广告

继续往下读

这是怎么呢?

你正在使用的发电机可能已经“中毒”了。

文本到图像生成器的工作原理是在包含数百万或数十亿图像的大型数据集上进行训练。一些生成器,如Adobe或Getty提供的生成器,只使用生成器制造商拥有或拥有使用许可证的图像进行训练。

但其他生成器通过不加选择地抓取在线图像来训练,其中许多可能是受版权保护的。这导致了一系列侵犯版权的案件,艺术家们指控大型科技公司窃取他们的作品并从中获利。

这也是“毒药”这个概念出现的地方。希望赋予艺术家个人权力的研究人员最近创建了一个名为“Nightshade”的工具,以对抗未经授权的图像抓取。

该工具的工作原理是微妙地改变图像的像素,以一种对计算机视觉造成严重破坏的方式,但对人类的眼睛来说,图像是不变的。

如果一个组织随后抓取其中一张图像来训练未来的人工智能模型,那么它的数据池就会“中毒”。这可能导致算法错误地学习将图像分类为人类在视觉上知道是不真实的东西。因此,生成器可能开始返回不可预测的和意想不到的结果。

在我们前面的例子中,气球可能变成一个鸡蛋。请求莫奈风格的图像可能会返回毕加索风格的图像。

早期人工智能模型的一些问题,比如无法准确地绘制手部,可能会再次出现。这些模型还可以在图像中引入其他奇怪和不合逻辑的特征——想想六条腿的狗或变形的沙发。

训练数据中“有毒”图像的数量越多,破坏就越大。由于生成式人工智能的工作原理,“中毒”图像的伤害也会影响相关提示关键词。

例如,如果在训练数据中使用了法拉利的“中毒”图像,那么其他汽车品牌和其他相关术语(如vehicle和automobile)的提示结果也会受到影响。

Nightshade的开发者希望这个工具能让大型科技公司更加尊重版权,但也有可能用户滥用这个工具,故意上传“有毒”的图片给生成器,试图破坏它们的服务。

作为回应,利益相关者提出了一系列技术和人力解决方案。最明显的是更多地关注输入数据的来源以及如何使用它们。这样做可以减少不加区分的数据收集。

这种方法确实挑战了计算机科学家的一个共同信念:网上找到的数据可以用于他们认为合适的任何目的。

广告

继续往下读

其他技术解决方案还包括使用“集成建模”,其中在许多不同的数据子集上训练不同的模型,并对其进行比较,以定位特定的异常值。这种方法不仅可以用于训练,还可以用于检测和丢弃可疑的“有毒”图像。

审计是另一种选择。一种审计方法涉及开发一个“测试电池”(test battery)——一个小型的、高度管理的、标记良好的数据集——使用从未用于培训的“保留”数据。这个数据集可以用来检验模型的准确性。

所谓的“对抗性方法”(那些降低、否认、欺骗或操纵人工智能系统的方法),包括数据中毒,并不是什么新鲜事。历史上还包括使用化妆和服装来绕过面部识别系统。

例如,人权活动家一段时间以来一直担心机器视觉在更广泛的社会中被滥用。这种担忧在面部识别方面尤为严重。

像Clearview AI这样的系统被世界各地的执法部门和政府机构使用,该系统拥有从互联网上收集的大量可搜索的人脸数据库。2021年,澳大利亚政府认定明视人工智能侵犯了澳大利亚人的隐私。

为了应对面部识别系统被用来分析特定个人(包括合法抗议者)的情况,艺术家们设计了锯齿状线条和不对称曲线的对抗性化妆图案,以防止监控系统准确识别他们。

这些案例与数据中毒问题之间存在明显的联系,因为它们都涉及到围绕技术治理的更大问题。

许多技术供应商认为数据中毒是一个棘手的问题,需要通过技术解决方案来解决。然而,最好将数据中毒视为侵犯艺术家和用户基本道德权利的一种创新解决方案。

TJ Thomson是RMIT大学视觉传播与数字媒体高级讲师,Daniel Angus是昆士兰科技大学数字传播教授。

本文转载自The Co在知识共享许可下的对话。阅读原文。

 

TAG: