人工智能。自古希腊人及其神话时代以来,它一直以一种或另一种形式存在于我们的文化中,一直到弗兰肯斯坦和阿西莫夫。这段漫长而传奇的历史无法消除人工智能现在成为我们世界的前沿和中心的事实。人工智能技术对爱立信及其的客户都是关键的业务推动者。
回顾人工智能的历史,我们看到了一个反复出现的主题。对隐私和人权的影响。错误地使用人工智能,或者没有尽职调查可能会导致许多方面的问题广泛升级。
今天,为了减轻这些风险,我们看到业界和政府都在试图监管人工智能,并建立一个可信赖的基础,使上述虚构的故事只是一个虚构的作品。
(资料图片)
需要什么才能使 AI 与人类的道德和伦理原则保持一致?也许我们可以在爱立信的AI Ethics Inside 报告中找到答案。
第一个问题:什么是人工智能?
在我们开始研究人工智能对隐私的影响之前,让我们先定义一下它的含义。
这里最重要的是首先澄清“人工智能”的含义,因为它对不同的人可能意味着不同的东西,而围绕它的行业并没有一致的定义。因此,我们将尝试描述我们如何处理爱立信内部的定义。在爱立信,我们将 AI 视为一组支持图像识别、文本生成或文本分析等功能的技术(例如机器学习、深度学习)。这些技术显示出一定程度的自主性,在某种程度上类似于人类“推理”和得出结论的能力。
我们有爱立信可信人工智能道德准则,它本身就以欧盟自己的可信人工智能准则为基础。该欧盟指南强调了人工智能的三个关键要素以及我们如何建立信任。
图:值得信赖的人工智能的三个组成部分
人工智能是如何工作的?
人工智能基于模型。为了解释这一点,我们以一个简单的决策树为例。该过程从顶部开始,然后根据决策向下移动到较低级别的分支。这种技术通常用于较小的数据集,因为它提供了很大的透明度,但随着数据量的增加可能难以理解。
图:简单决策树示例(来源:挪威数据保护局 Datatylsnet)
从本质上讲,这个模型所展示的内容如下:“如果你心情好,又累了,又饿了,你就不会有生产力”。
然而,这个模型也说明了偏见对人工智能的影响。例如,如果我们看看这个模型是如何工作和发展的,它会出现这样一个场景,其中模型“决定”一个饥饿的人没有生产力。这是决定中的一个转折点:“饥饿 -> 没有生产力”。“不饿 -> 富有成效”。
很明显,偏见本身并不好也不坏,公平或不公平。这只是模型决定“A”而不是“B”的拐点。我们都可以理解这个模型所描述的内容,因为我们都饿了,并且觉得在这种情况下我们的生产力是多么低。如果我们更进一步,并将其应用到隐私的角度,我们可以看到,如果人工智能“决定”缺乏生产力是由性别或年龄造成的,那么这种偏见将是多么不公平。
人工智能与隐私有什么关系?
随着以消费者为中心的应用程序、媒体、信息和商业的数字化程度不断提高,我们见证了过去几年技术的重大发展和人工智能的使用。我们还看到,并非所有人工智能都使用个人信息。事实上,5G 网络中有很多用例旨在提高基础设施的质量和可靠性,而无需向人工智能提供隐私相关数据。
另一方面,在人工智能和隐私方面,我们也注意到必须格外小心地处理隐私影响。例如,人工智能系统可能有能力挑选和识别从输入数据集的角度无法识别的个人。这种识别甚至可能由于人工智能计算而意外发生,从而使相关个人面临不可预测的后果。出于这些原因,我们稍后会在博客中解释我们开发了哪些方法以及在开发 AI 系统时确保令人满意的隐私级别所需的步骤。
我们如何信任人工智能系统?
所以,这就是基础知识。现在让我们看看如何在实时系统中构建可信赖的 AI(具有设计固有的隐私)。从哪里开始比网络系统更好——在这个领域,我们看到人工智能的使用越来越多,并且正在发生重大变化。
在这里,与所有 AI 系统一样,需要使用三个关键接口:AI 输入数据、实际在网络中的 AI 和 AI 输出数据。这三个领域都存在关键的隐私问题,为了确保我们在每一步都有值得信赖的人工智能,我们努力对爱立信内部在每个阶段使用人工智能的人提出要求。我们将这些要求建立在法律义务、客户要求以及我们认为的最佳实践之上,并试图使这些要求与我们看到的行业发展方向保持一致。
图:网络系统中的可信人工智能
输入数据
输入数据很容易理解。很简单,它是用于为 AI 模型提供数据的数据。这本质上可以是个人的或非个人的。无论如何定义,我们都需要确保规则到位,因为无法准确确定最终可以生成什么(个人数据甚至可以在系统中生成,或者至少可以推断出来)。这一点,再加上个人数据定义的广泛性,几乎没有错误的余地。
在爱立信,我们制定了涵盖数据质量、数据去识别化能力、数据最小化以及将数据分离为生产、测试和训练数据的能力等方方面面的要求。
黑匣子阶段
过程的中间,或者说黑盒阶段,可能是最难详细解释的领域。
这有两个主要原因:首先,这是机器学习和推理模型发挥作用的阶段,有时很难解释。其次,考虑到围绕这些通常对业务敏感的流程的商业重要性,任何解释的尝试(除非有法律义务)都可能冒着泄露商业机密的风险。
但是,我们可以说的是,在爱立信,我们在这个阶段有严格的要求,包括问责制、透明度、解释人工智能的能力和配置保护等方面。
输出数据
最后,我们有输出数据。在这里再次值得一提的是,仅仅因为我们知道并控制了输入数据,并且我们知道“黑匣子”内发生了什么,结果仍然可能会产生惊喜和新数据。这些数据还具有潜在的敏感性,这可以增加我们需要提供的保护。在数据质量、访问控制和一般数据安全方面,我们这里的规则与输入数据相同。然而,我们在这里也有额外的要求,比如通知用户人工智能的使用,提供解释结果的能力,有趣的是,在构建数据循环之前需要获得授权。
人工智能中使用的数据集类型
对于许多人来说,“数据”是一个广泛的话题,尤其是在隐私领域。即使是个人数据,通常被认为是狭义的定义,也是一个如此多变和多样化的术语。
在人工智能方面,数据的使用范围扩大到“数据集类型”。在 AI 方面,我们在爱立信处理三种不同的类型:生产数据、合成数据和混合数据。
图:人工智能中使用的数据集类型
生产数据
生产数据是从部署的系统或网络馈入人工智能的实际实时数据。这就是要求发挥作用的地方,并提供了管理存储、使用和结果的严格规则;很大程度上是因为这些数据集可能包含个人信息。
综合数据
显示与生产数据相同属性但不包含真实订阅者数据并且是人为生成的数据。从隐私的角度来看,这些数据可以以低得多的风险级别进行处理,因为它不会直接或间接地识别个人。这些数据通常用于训练、测试和验证人工智能的结果。
混合数据
生产数据和混合数据的组合。此类数据具有某些隐私含义,例如个人的可识别性。另一方面,这些数据对于模拟现实生活中的生产场景也非常有用,因此可以用来训练、测试和验证人工智能的结果。
自然偏斜的数据集与固有偏差
重要的是要注意,所有上述数据集都可以纯粹基于样本自然偏斜。例如,一个包含比女性工程师更多的男性工程师的数据集可能会导致有偏见的结果,从隐私的角度来看,这会损害数据集中的少数样本。在评估隐私影响时,始终需要考虑这一点。
评估人工智能中的隐私影响
识别哪些固有隐私风险与数据集相关联的最有效方法,一般来说,使用人工智能,是执行隐私影响评估 (PIA)。对于爱立信,我们的内部 PIA 是一种成熟的实践,多年来一直在完善。
然而,由于人工智能的流动性,我们为寻求使用人工智能的人创造了另一种评估隐私的方法;这需要完成,不仅要让隐私评估员深入了解人工智能的含义,还要提供有关正在发生的事情的具体信息。我们将其分为四个关键部分:
评估 AI 用例:应描述预期用例,包括所需的输入数据、数据处理操作和预期结果。算法影响评估:应从隐私角度评估算法,并记录算法可能对隐私造成的影响。在爱立信的内部指南中,我们在这里列出了几个问题以帮助指导课程。设计选择和理由:应该解释为什么在开发人工智能系统时做出某些设计选择。解释应涵盖有关处理哪些数据以及如何在系统中处理数据的详细信息。输出验证级别结果:应根据基于风险的方法描述结果是否以及在什么条件下可能与用例的期望不一致。人工智能和隐私的未来
可以理解的是,人工智能和隐私的话题既漫长又复杂。我们希望已经总结了上面提到的一些关键点,从它的重要性到它今天的发展方式。我们还谈到了爱立信如何通过我们所有的人工智能技术来处理和确保隐私从头到尾嵌入到整个过程中。
爱立信遵循欧盟对人工智能及其所有固有特征的定义。这包括我们的人工智能必须合法、合乎道德和强大的事实。我们知道,隐私和人工智能的未来由于其性质而紧密相连;最近的案件及其相关罚款进一步证明了这一点。
我们知道,人工智能的整个格局正在发生变化。从所使用的技术来看,客户对更智能的人工智能的需求,以及越来越多的法规。即使所有这些人工智能变化不会直接影响隐私,我们也需要做好准备。在爱立信,我们可以自信地说,我们在这方面处于领先地位,并且拥有一个适应性强的系统,不仅可以与当前的发展步伐相匹配,而且可以确保我们能够帮助塑造整个领域将人工智能转变为尊重未来隐私关键原则的人工智能。