南方财经全媒体记者 冯恋阁 记者 王俊 北京、广州报道
“尽管制定了购买和使用个人信息的协议,但被告采取了不同的方法:窃取。”近日,一批匿名人士以此为理由,向OpenAI,以及其投资方之一的微软公司发起集体诉讼。
(资料图片仅供参考)
起诉书称,OpenAI从互联网上窃取了3000亿个单词,它们来自“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。
目前这些指控仍是一面之词。不过,这已经不是这家公司第一次陷入数据安全、个人信息泄露相关的指控了。
“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。可能是该起诉讼的争议焦点所在。”北京大成律师事务所高级合伙人邓志松表示。
以大模型原理构建的生成式人工智能产品,是算力与数据加持下的“暴力美学”,数据是门槛,语料库海量数据(603138)存在高度的数据合规风险。拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲,但以数据为基石的大模型,数据安全问题正变得越来越重要,甚至可能成为产品的“阿克琉斯之踵”。
AI新秀变“数据小偷”?
根据ChatGPT的开发者OpenAI提供的信息,ChatGPT的三个主要信息来源是互联网上的公开信息、从第三方处通过许可获取的信息以及用户或模型训练者提供的信息(如用户与ChatGPT的聊天记录)。
这份将近160页的起诉书声称,OpenAI 秘密从互联网上窃取了 3000 亿个单词,窃听了“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。
具体而言,该集体诉讼的原告认为,为了赢得“人工智能军备竞赛”,OpenAI从ChatGPT的交互对话以及集成ChatGPT的应用程序中“收集、存储、跟踪、共享和披露”数百万人的个人信息,包括产品详细信息、帐户信息、姓名、联系方式、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、使用数据、分析、cookie、搜索和其他在线活动。
原告认为,此举违反了服务协议条款以及州和联邦的隐私和财产法。起诉书指出,这一数据窃取行为的受害人预计有数百万,潜在损失达 30 亿美元。原告诉求则是,要求法院暂时冻结 OpenAI 产品的商业访问和进一步开发。
邓志松告诉记者,ChatGPT运行的原理通过“阅读”大量现有文本并学习词语在上下文中的出现方式来预测可能出现在回应中的最可能的词语。此前,OpenAI方面声称不会“主动”收集个人信息用于模型训练,但各渠道训练数据可能“偶然”包含个人信息,人工智能模型可能会从中了解如何在回应用户时正确使用人名、地址等信息,同时它们坚称这些信息不会被用于建立用户画像、广告推广等商业用途。
“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。这两个问题可能是该起诉讼的争议焦点所在。”邓志松分析,未经用户许可擅自抓取并利用其个人信息,可能涉嫌违反所在司法辖区的个人信息保护法律法规,并构成民事侵权。
不过,受访专家也指出,目前“窃取”暂时仍是原告方的一面之词,还不能据此贸然将OpenAI所实施的个人信息收集活动定性为违法行为。
如何理解数据“窃取”
综合来看,合规、知情-同意成为这起诉讼的风暴眼。
“第一是信息的来源,尤其是训练用的物料是否能说得清、是否合规;第二,在与用户交互的过程中是否涉及到了用户的隐私信息。”数安信CTO崔维友也指出,“窃取”很可能是在用户没有充分知情的情况下拿到了用户的个人数据。
“尽管 OpenIAI对其数据收集和做法 ‘绝对保密’,但就我们了解,该公司使用(至少)5个不同的数据集来训练ChatGPT。”根据起诉书陈述,OpenAI使用的数据集中有部分数据的抓取并不合规。
以WebTex2这一OpenAI "专有 "人工智能语料库为例。原告指出,为了构建这一语料库,OpenAI抓取了社交媒体网站Reddit上所有获得至少3个 "喜欢"(在Reddit上被称为 "Karma "投票)的帖子所链接的所有网页,以及Reddit帖子和相关评论。而Reddit中受欢迎的内容除了来自其网站本身,还包括大量来自YouTube、Facebook、TikTok和Instagram等社交媒体的链接。这些链接及与之关联的个人信息在没有通知相关方获得同意的情况下被大量抓取。
值得注意的是,公开资料显示,今年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。
袁立志指出,当前人工智能大模型训练数据主要有应用存量数据、商业和开放数据、公共互联网数据和用户使用数据等几大来源,而不同的数据源的使用则各有不同优劣。“要做到完全合规,并不容易。”他直言。
数据安全——大模型产品的“必答题”
人工智能发展的突破得益于高质量数据的发展。大模型的最新进展依赖于更高质量、更丰富的训练数据集。如何判断数据收集行为以及留存的数据内容是否合规,已成为当前相关技术发展亟待解决的问题,更是大模型产品未来健康发展的关键。
“虽然ChatGPT表示,存储训练和运行模型所需的数据会严格遵守隐私和安全政策,但在未来可能出现网络攻击和数据爬取等现象,仍存在不可忽视的数据安全隐患。特别是涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程,需平衡数据安全保护与流动共享。”南开大学法学院副院长、中国新一代人工智能发展战略研究院特约研究员陈兵说。
大成律师事务所高级合伙人肖飒则强调了AI技术“文本数据挖掘功能”潜藏的合规风险。她表示,该功能不仅可以“主动”搜集和存储数据,并且能在不断的数据处理过程中形成自己的处理模式。若其所搜集的数据(含个人信息)并未取得合法授权,相关的处理活动就可能涉嫌违法违规。
这已经不是ChatGPT第一次陷入数据泄露的风波。今年3月,其Redis 开源库中的错误导致本 ChatGPT 服务中暴露了其他用户的个人信息和聊天标题。在ChatGPT被接连发现意外泄露用户聊天记录后,意大利数据保护局(Garante per la Protezione dei Dati Personali)于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。 加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。
但这并不是OpenAI这家公司、ChatGPT这个产品的个例,其暴露出的隐私泄露、存储敏感信息、未授权访问等数据安全问题是大模型产品落地应用后可能普遍面临的问题。
CCIA数据安全工作委员会指出,大模型使用来自互联网的公开文本数据作为预训练数据,这些数据可能包含一些用户的个人信息,这些信息可能被LLM无意中学习和记忆,并在后续的应用中泄露出来。预训练和微调过程中需要对数据进行收集、存储、分析和处理,这些操作可能会侵犯用户的个人信息权利,如知情权、选择权、删除权等。用户可能没有充分的意识和能力来保护自己的个人信息,也没有足够的透明度和监督机制来确保数据处理方遵守相关的法律法规和伦理规范。
并且,由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,这就增加了数据被窃取、篡改、滥用或泄露的风险。
自ChatGPT发布后,中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型,在接下来商用过程中如何做到数据合规,已经成为每一个产品需要面对的“必答题”。
在袁立志看来,未来,针对不同的数据来源,企业应采取不同手段保证训练数据合规。原有业务的存量数据,如果用以大模型训练,属于变更使用,需要再次得到用户同意;如果爬取互联网公开数据,则需做好数据清理、匿名化等处理,同时注意爬虫技术本身的法律风险;如果购买商用数据或者使用开源数据,则需要企业内做好相关合规审查,保障安全。至于用户使用过程中产生的数据,如与大模型对话的聊天记录,C端数据在事前告知用户获得同意后使用;接入API使用的B端数据,由于与企业高度相关,模型默认不会收集和使用。
“合规确实是后发的大模型训练者需要面对的棘手问题。”袁立志坦言,从业者只能参照自身现实情况,选择尽可能安全透明、成本可控的方法。
AI的浪潮不会停歇,如何掌好前行的船舵,在企业生存与合规生产间找到平衡向前,或许已经成为第四次工业革命下的时代命题。
关键词:
(责任编辑:黄俊飞)推荐内容
- OpenAI被指控偷窃数据?数据安全成大模型
- 外国专家幡然醒悟:人民币国际化程度远超
- 6月29日基金净值:前海开源价值策略股票
- 当前热讯:鸿烈 鸿烈书庐
- 北京织密居家社区养老服务网络,去年新增
- 智翔金泰,默默承担了整个市场对创新药的
- 暖心! 图书馆将参建民工名字刻满外墙|
- 打造清廉教育红色加油站
- 世界微动态丨交易商协会:提升民营企业发
- 热资讯!市场日报丨涨疯了!机器人板块强
- 美元基金的日子有多难?
- 动态点评:锂资源实现自给,一体化布局再
- 观焦点:如何预防手足口病最有效?上海疾
- 信创板块午后持续拉升
- 刘强东年内第7次出售京东股票,此次约2亿
- 山海经异变周年庆是什么时候_dnf周年庆是
- 如何打造“临港储金、金山制金、外滩赏金
- 全球微速讯:南方加入“高温群聊” 广东
- 全球最新:6月29日生意社锰硅基准价为656
- 焦点热门:香港公司成功进入老挝成品油市场
- 23家银行半年收282张罚单 小微贷、房贷
- 每日简讯:市民出游热情高 长三角跨城出
- 米利托:国米应该在欧冠决赛取胜,他们比
- 国君转债:刊登重要公告,连续停牌_微速讯
- 贝比歌曲(贝比)
- 招联逾期上门合法吗?招联逾期上门催收怎
- 天齐锂业:公司认为锂行业基本面在未来几
- 当前动态:怎样申请4050社保补贴 ?“405
- 不易瘦体质如何减肥学生_不易瘦体质如何
- 新资讯:“一带一路”青年长沙说⑧|长沙
- 只需一针!首个国产带状疱疹疫苗完成云南
- 当前时讯:反弹后还会有诱空过程
- 颜夕卡盟充值卡_颜夕卡盟什么充值
- 广州城市轨道交通八号线北延段及支线工程
- 2023黄石中考志愿填报怎么填写?|世界快
- 九号公司:已与英伟达等合作探索服务机器
- 最新快讯!5G新应用的“寒武纪大爆发”正
- 食疗补气血的最佳方法_食疗补气血吃什么
- SMM快讯:印尼镍矿禁令或将重新审视?_环
- 创元科技(000551.SZ)参股公司创元期货撤
- 梅雨季,听说杭州人都去这些地方赏“夏雨
- 三七互娱因涉嫌信披违法违规被证监会立案
- 简讯:普通人夏季穿衣别太复杂,这三种配
- 美ONE,除了李佳琦还有谁?
- 每日热文:校花的贴身保镖鱼人二代全文阅
- 孙颖莎、钱天一参赛,陈梦无球可打,晒美
- 这些城市落户门槛降了!还有地方出手:落
- 蔚来与中国海油达成战略合作
- 民生直通车|2023年各地中考透露出哪些“
- 海南板块涨1.99%! *ST凯撒涨停2连板,
- 精彩看点:柴胡姜桂汤_关于柴胡姜桂汤概略
- 海报|张维为:面对人工智能的挑战没有一
- 成都旅游攻略一日游_成都旅游攻略二日游
- 重庆一医院食堂盒饭中吃出老鼠头?当地正
- 经纪公司辟谣李凯尔今日抵沪:归化事宜正
- 焦点快报!《战斗机重装》价格介绍
- 祁阳油豆腐粑粑做法?|环球头条
- 智融100W移动电源参考设计解析,SW7201+S
- 全球观天下!老马点金:27号黄金12连胜,
- 塞尔达传说荒野之息祠堂迷宫玩法技巧 祠
- 23家银行半年收282张罚单 小微贷、房贷
- 每日简讯:市民出游热情高 长三角跨城出
- 米利托:国米应该在欧冠决赛取胜,他们比
- 国君转债:刊登重要公告,连续停牌_微速讯
- 贝比歌曲(贝比)
- 招联逾期上门合法吗?招联逾期上门催收怎
- 天齐锂业:公司认为锂行业基本面在未来几
- 当前动态:怎样申请4050社保补贴 ?“405
- 不易瘦体质如何减肥学生_不易瘦体质如何
- 新资讯:“一带一路”青年长沙说⑧|长沙
- 只需一针!首个国产带状疱疹疫苗完成云南
- 当前时讯:反弹后还会有诱空过程
- 颜夕卡盟充值卡_颜夕卡盟什么充值
- 广州城市轨道交通八号线北延段及支线工程
- 2023黄石中考志愿填报怎么填写?|世界快
- 九号公司:已与英伟达等合作探索服务机器
- 最新快讯!5G新应用的“寒武纪大爆发”正
- 食疗补气血的最佳方法_食疗补气血吃什么
- SMM快讯:印尼镍矿禁令或将重新审视?_环
- 创元科技(000551.SZ)参股公司创元期货撤
- 梅雨季,听说杭州人都去这些地方赏“夏雨
- 三七互娱因涉嫌信披违法违规被证监会立案
- 简讯:普通人夏季穿衣别太复杂,这三种配
- 美ONE,除了李佳琦还有谁?
- 每日热文:校花的贴身保镖鱼人二代全文阅
- 孙颖莎、钱天一参赛,陈梦无球可打,晒美
- 这些城市落户门槛降了!还有地方出手:落
- 蔚来与中国海油达成战略合作
- 民生直通车|2023年各地中考透露出哪些“
- 海南板块涨1.99%! *ST凯撒涨停2连板,
- 精彩看点:柴胡姜桂汤_关于柴胡姜桂汤概略
- 海报|张维为:面对人工智能的挑战没有一
- 成都旅游攻略一日游_成都旅游攻略二日游
- 重庆一医院食堂盒饭中吃出老鼠头?当地正
- 经纪公司辟谣李凯尔今日抵沪:归化事宜正
- 焦点快报!《战斗机重装》价格介绍
- 祁阳油豆腐粑粑做法?|环球头条
- 智融100W移动电源参考设计解析,SW7201+S
- 全球观天下!老马点金:27号黄金12连胜,
- 塞尔达传说荒野之息祠堂迷宫玩法技巧 祠
- 当前聚焦:谱写中国式现代化新篇章
- 世界微头条丨偏头痛潜在危害有哪些_偏头
- (高质量发展调研行)中国“医疗特区”博
- 下面式神会吃人的是 以下式神中会吃人的是
- 描写雪的语句和作者(尘与雪表达了什么简
- 鲜有银行推出端午节专属理财产品 节日理
- 鲜有银行推出端午节专属理财产品 节日理
- “折翼天使”的守护者
- 蔡欣一是谁_蔡欣一
- 来收藏!2023年华为鲲鹏龙头股有哪些?(
- 每日看点!电脑如何连接共享打印机怎么连
- 环球热头条丨现在装修多少钱一个平方的_
- 华夏银行大连分行优化小微首贷户服务
- 每日热讯!德国央行:德国经济将在二季度
- 全球快看点丨“龙舟水”天气频发 相关部
- 沃顿科技最新公告:与绿色环保签订了采购
- 天天最新:一季度全国婚姻数据:结婚登记
- 最新消息:宝丰:坚守职能定位 彰显利剑
- 奥锐特(605116.SH):地屈孕酮片获得药品
- 十个冷知识葡萄和提子有什么区别|世界速