看到象上讨论无授权训练AI ( https://bgme.me/@Camus/110607855459201852 )。除了对创作者的伤害,我还想补充一下对使用者来说也并不总是获益的。
这里需要先绕个远路,引入一个考古学的概念"Provenance"。它指的是一件物品从制造/挖掘出来后的*所有*转手过程,e.g.在哪里/什么情况下制造/挖掘的,被谁买了/卖了,什么时候被什么人修复过等等。完整的信息链是非常重要的,因为物品的意义要在context里才能得到解读,年代也往往需要context才能推断。同一件物品在墓葬里出土和在城市遗址里出土(以及在城市的什么区域)、在不同地域的墓葬里出土、在不同墓主身份/性别/地位的墓室里出土,指向了不同的解读方向,对后人分析当时社会的各种形态风俗品味非常重要。甚至是修复痕迹也能透露当时的技术水平/理念偏好。所以考古学家和艺术史学者对各种让信息链断裂的盗挖和黑市深恶痛绝:物品的“舌头”被切去了,它虽然存在,却无法完整发声。
回到现代的信息交流语境,数据的provenance对于理解和分析数据有着类似的意义。Data需要metadata (直译就是“关于数据的数据”)的帮助去“说话”。举个简单的例子,“研究指出,吸烟对人的影响blablabla”这个信息,当它的生产链里出现了大烟草公司的身影时,读者会产生警惕;当它的传播链里出现了以假新闻/扭曲事实出名的网站平台,读者也会产生警惕。数据的credibility和provenance是相关的。
但生成式AI彻底破坏了数据的provenance。如果说人类写作不做明晰的引用让数据溯源变得艰难(象上之前有过相关讨论),那么生成式AI让溯源变得根本不可能。
同样危险的是新一代semantic AI模型的不透明性。研究AI的社会学者Mona Sloane在“AI’s (un)Stable Diffusions?”圆桌讨论上提到招聘人员使用电脑方式在过去十来年的转变:之前是通过关键字的组合来筛选简历,招聘人员需要将职位要求“解释”/interpret为一系列关键字的组合。他们需要学习如何选择关键字、组合关键字,在使用这项技术中可能会出错,但检查起来还是相对一目了然的:哪个关键字可能出问题、哪个组合方式可能不对。但改为自然语言输入后,检查变得不可能了。AI接过了“解释”工作,而解释后被执行的指令不再像以前的关键字组合那样可以被人类清楚理解。换句话说,人类不清楚自己的话被怎样“理解”了。当semantic AI涉及歧视偏见(或者仅仅是错误),它更难被监察/发现/修正。
还有一个容易被忽略的是semantic AI涉及的“语言歧视/霸凌”。这个概念有一点复杂,但可以用一个人类语境来作为跳板:试想一下,某个人不会说普通话/说的普通话带有明显的口音,假如ta又不是外国人,那么ta在大陆会有怎样的遭遇?在与semantic AI,如ChatGPT,对话的过程中,如果使用者并不是一个说“标准语言”的人,会发生什么?一种可能的情况是ta会被反向训练自己的语言,去靠近所谓的“标准语言”,而以英语为例,“标准英语”=精英白人的英语 (Mike Mena在水管上有一期专门聊所谓“标准语言”的,链接放在结尾)。另一种情况是同一个圆桌讨论上另一位学者Beth Coleman所观察到的mirroring effect:当使用者用“不规范”的语法或“不标准/主流”的表述方式和AI对话时,AI的输出会更明显反映出模型的训练数据提供者的画像(偏好/偏见/立场/信念)。于是也完全可以预见,AI能像它的数据提供者那样对某些人群施加伤害。
那么,是什么样的人的话语出现并被保留在了互联网上?什么样的人的话语被AI公司主动打包/爬取了?什么样的人的话语是AI公司认为“不合格”而剔除出去的?AI让什么样的人被更加边缘化了?
双重的不透明性(provenance缺失和模型本身的不可解读)叠加后还产生了第三重危险:无法追责。被它不公正对待的人将比以前更难要求正义。
Mike Mena | Debunking "Standard" Language
https://www.youtube.com/watch?v=h6JtmMAvf1o
这个“豆瓣精选”必须一挂,之前好像别人也挂过它,我就再挂一次
#什么值得ban #
https://m.cmx.im/@douban_read/110599389517760528
在2023年6月24日20:07,豆瓣用户艾大荀发了条广播(已经过同意转发):“我再次警告搬运我广播的各位:我不接受任何未经询问的转载和搬运。迄今为止,我也没有授权过任何媒体或者账号转载搬运过我的内容。
特别是最近长毛动物上的一个账号,名字叫【豆瓣精选】,有几乎一半的内容都是直接转发我的广播。
这是明抢。如果各位看到这样的搬运,请各位帮我投诉/举报一下,并即日起删除一切转载的内容。否则我将运用一切手段进行追究。”
而在这条广播发出后过了一个多小时,毛象“豆瓣精选”又无授权搬运了一条她的广播,于是艾大荀发了条广播(发于6.24 23:19。已经过同意转发):
“一个小时之前,这个账号还在继续搬运我的内容。这位作者,小心反噬,半年之内你必被偷家。”
而她的广播下有人留言说,在电报上也有个“豆瓣精选”帐号,不知道是不是同一个运营者。
我非常怀疑就是同一个垃圾人。已将它无授权搬运了的几条嘟文点了举报,等站长处理了。在我看来,如此嚣张的搬运行为,不仅值得ban ,也值得一个销号了。毛象一直都是无授权禁转出象,在毛象不应该有无授权搬运的帐号存在。