课程: 生成式 AI vs. 传统 AI

免费学习该课程!

今天就开通帐号,24,000 门业界名师课程任您挑!

大规模数据收集与隐私

大规模数据收集与隐私

著名的法学教授劳伦斯·莱斯格, 曾经警告说,“代码即法律。” 他说, 我们的自由可能会被软件和技术重新定义, 当代码开始自我编写时,这个问题尤为突出。 生成式 AI 系统, 应该体现我们的共同价值观。 不要把这些 AI 系统 看作像重力那样不可抗拒, 或者像刻在大理石上的法律那样固定不变。 相反,我们每次与这些系统互动, 实际上都是在用自己的价值观训练它们。 这也是为什么 它们能反映和放大我们的一切好与坏。 这一点对隐私和生成式 AI 来说, 都很重要。 还记得吗? 这些系统使用大量的非结构化数据进行训练, 它们可以使用你和其他数十亿人创造的数据。 现在, 我们大都带着能记录和共享活动的智能手机, 使用信用卡购物, 使用手机应用与大多数企业和政府沟通。 这些数据都可以被收集, 并分析来创造一个你的精确分身。 在大多数国家,这些数据并不归你所有。 它们通常集中在少数几家大公司手中, 可以用来买卖及开发新产品。 生成式 AI 系统 让这些公司有可能推出定制产品, 能更加了解客户需求来丰富他们客户的体验。 公司面临的挑战在于, 如何获取足够多的信息来了解客户, 而不会因为获取了太多的信息冒犯他们。 监管很有可能落后于技术发展, 所以想要构建什么完全取决于公司。 要与竞争对手的模型相匹敌,压力巨大, 但如果走捷径的话,就有可能侵犯客户隐私。 现在的公司要做出很多艰难选择, 所以要牢记以下三点: 第一点是, 在系统中构建某种东西容易,但剔除很难。 如果你向系统中添加了新的非结构化数据, 然后客户觉得你侵犯了他们的隐私, 移除这些数据,将变得极其困难。 还记得吗? 基础模型寻找模式, 并需要大量非结构化数据。 一旦它找到这些模式, 就很难再将这些学到的东西拆解开来。 第二点是,在某种意义上, 这些系统做的很多事情是不可知的。 系统使用的数据对人类来说无法理解, 没有人能和这些系统一样, 日常处理这么多数据来生成模型。 虽然可以试着解释模型的工作原理, 但这可能只是机器所知内容的一小部分。 第三,系统现在快要具备自我进化的能力了, 今天的一个简单决定, 可能会在明天变成另一个更大的系统规则。 我们对于数据或者训练方式做出的选择, 将会对系统产生持久的影响, 因此,在增加系统能力时最好保守一些。 如果它发展太快,走错方向的可能就会增大。

内容