显示更新内容

猫连续两天在窗户上看见一个小壁虎,每次都要盯很久。后来这几天壁虎没来上班,害得我猫到点儿都去等,又等不到。今天晚上怕猫失望,给猫做了一个贴在窗户外面。又是相约相聚的一天。满意。

所有做无授权转载精选的人,本质上都是在想建立自己的互联网独裁帝国,所有存在在网络上的内容我全部可以无偿征用=我看见了我就可以强征你的网络存在税,加上强征的税收内容任由自己分配自己获利和大量拉黑并过滤粉丝进行洗脑,就成功建立了自己支配的独裁网络帝国,一个这样做的人,谁会相信它会真的支持平等互助和弱势群体呢?虎鲸是不信的。

打车,要上车的时候一只鸟掉在车上,就把它带进了车里,灌了点水,感觉它缓过来一点了

看到象上讨论无授权训练AI ( bgme.me/@Camus/110607855459201 )。除了对创作者的伤害,我还想补充一下对使用者来说也并不总是获益的。

这里需要先绕个远路,引入一个考古学的概念"Provenance"。它指的是一件物品从制造/挖掘出来后的*所有*转手过程,e.g.在哪里/什么情况下制造/挖掘的,被谁买了/卖了,什么时候被什么人修复过等等。完整的信息链是非常重要的,因为物品的意义要在context里才能得到解读,年代也往往需要context才能推断。同一件物品在墓葬里出土和在城市遗址里出土(以及在城市的什么区域)、在不同地域的墓葬里出土、在不同墓主身份/性别/地位的墓室里出土,指向了不同的解读方向,对后人分析当时社会的各种形态风俗品味非常重要。甚至是修复痕迹也能透露当时的技术水平/理念偏好。所以考古学家和艺术史学者对各种让信息链断裂的盗挖和黑市深恶痛绝:物品的“舌头”被切去了,它虽然存在,却无法完整发声。

回到现代的信息交流语境,数据的provenance对于理解和分析数据有着类似的意义。Data需要metadata (直译就是“关于数据的数据”)的帮助去“说话”。举个简单的例子,“研究指出,吸烟对人的影响blablabla”这个信息,当它的生产链里出现了大烟草公司的身影时,读者会产生警惕;当它的传播链里出现了以假新闻/扭曲事实出名的网站平台,读者也会产生警惕。数据的credibility和provenance是相关的。

但生成式AI彻底破坏了数据的provenance。如果说人类写作不做明晰的引用让数据溯源变得艰难(象上之前有过相关讨论),那么生成式AI让溯源变得根本不可能。

同样危险的是新一代semantic AI模型的不透明性。研究AI的社会学者Mona Sloane在“AI’s (un)Stable Diffusions?”圆桌讨论上提到招聘人员使用电脑方式在过去十来年的转变:之前是通过关键字的组合来筛选简历,招聘人员需要将职位要求“解释”/interpret为一系列关键字的组合。他们需要学习如何选择关键字、组合关键字,在使用这项技术中可能会出错,但检查起来还是相对一目了然的:哪个关键字可能出问题、哪个组合方式可能不对。但改为自然语言输入后,检查变得不可能了。AI接过了“解释”工作,而解释后被执行的指令不再像以前的关键字组合那样可以被人类清楚理解。换句话说,人类不清楚自己的话被怎样“理解”了。当semantic AI涉及歧视偏见(或者仅仅是错误),它更难被监察/发现/修正。

还有一个容易被忽略的是semantic AI涉及的“语言歧视/霸凌”。这个概念有一点复杂,但可以用一个人类语境来作为跳板:试想一下,某个人不会说普通话/说的普通话带有明显的口音,假如ta又不是外国人,那么ta在大陆会有怎样的遭遇?在与semantic AI,如ChatGPT,对话的过程中,如果使用者并不是一个说“标准语言”的人,会发生什么?一种可能的情况是ta会被反向训练自己的语言,去靠近所谓的“标准语言”,而以英语为例,“标准英语”=精英白人的英语 (Mike Mena在水管上有一期专门聊所谓“标准语言”的,链接放在结尾)。另一种情况是同一个圆桌讨论上另一位学者Beth Coleman所观察到的mirroring effect:当使用者用“不规范”的语法或“不标准/主流”的表述方式和AI对话时,AI的输出会更明显反映出模型的训练数据提供者的画像(偏好/偏见/立场/信念)。于是也完全可以预见,AI能像它的数据提供者那样对某些人群施加伤害。

那么,是什么样的人的话语出现并被保留在了互联网上?什么样的人的话语被AI公司主动打包/爬取了?什么样的人的话语是AI公司认为“不合格”而剔除出去的?AI让什么样的人被更加边缘化了?

双重的不透明性(provenance缺失和模型本身的不可解读)叠加后还产生了第三重危险:无法追责。被它不公正对待的人将比以前更难要求正义。

Mike Mena | Debunking "Standard" Language
youtube.com/watch?v=h6JtmMAvf1

开车送同事x回家,x说上周发现家里和一个很大的下水道相连,从地下走过去更快,叫我们把他送到路口一个井盖口放下就可以……我们意识到他在说什么后疯狂拦着,他不顾我们极力阻止还是自顾自下车,然后在来来往往的车流里找了个空,冲到马路中间,起了那个井盖就钻了下去,把它盖好。一气呵成不到几秒钟。
我们剩下的人开车回家,一路木然无话,回想那个车流中微微动了一下的井盖,好像一场梦。我后知后觉自己是不是有点在羡慕。

这两天围观的笑点:我虽然和一切无关,但我就是解决问题的人,我就是搬运者,我就是上级监督,我就是上级的上级,我就是上级工作组……我就是颜色不一样的烟火

#长毛象中文站 免翻墙入口更新,请需要的用户收藏:

:nyan_cat: 00000086.xyz

入口页会自动检测用户冲浪环境,选取可用的免翻墙地址。如果网络环境通畅,不会显示免翻墙地址。

请不要将免翻墙镜像地址公开在Fediverse以外的平台。

喵的,安全意识这么稀薄还做涉政的传媒类的项目,建议该NGO的整个团体也都去把安全方面的知识全部回炉重造重新培训一遍。
不单单是被转载的人会很危险,你们自己也会很危险,ok?我如果是国安的话我可真是乐死了,顺着你们的账号就可以找到一大串重点盯防对象(你们的转载对象)还可以收获一小撮搞事情的做NGO的(你们团队)

这个“豆瓣精选”必须一挂,之前好像别人也挂过它,我就再挂一次
#什么值得ban #
m.cmx.im/@douban_read/11059938

在2023年6月24日20:07,豆瓣用户艾大荀发了条广播(已经过同意转发):“我再次警告搬运我广播的各位:我不接受任何未经询问的转载和搬运。迄今为止,我也没有授权过任何媒体或者账号转载搬运过我的内容。
特别是最近长毛动物上的一个账号,名字叫【豆瓣精选】,有几乎一半的内容都是直接转发我的广播。
这是明抢。如果各位看到这样的搬运,请各位帮我投诉/举报一下,并即日起删除一切转载的内容。否则我将运用一切手段进行追究。”

而在这条广播发出后过了一个多小时,毛象“豆瓣精选”又无授权搬运了一条她的广播,于是艾大荀发了条广播(发于6.24 23:19。已经过同意转发):
“一个小时之前,这个账号还在继续搬运我的内容。这位作者,小心反噬,半年之内你必被偷家。”

而她的广播下有人留言说,在电报上也有个“豆瓣精选”帐号,不知道是不是同一个运营者。
我非常怀疑就是同一个垃圾人。已将它无授权搬运了的几条嘟文点了举报,等站长处理了。在我看来,如此嚣张的搬运行为,不仅值得ban ,也值得一个销号了。毛象一直都是无授权禁转出象,在毛象不应该有无授权搬运的帐号存在。

发到豆瓣被秒毙的两张浮春画(一下子忘记保留画家备注)

显示更早内容
雾海

雾海是一个开放且不限制讨论主题的非营利性中文社区,名字来源于德国浪漫主义画家 Friedrich 的画作《雾海上的旅人》。生活总是在雾海中吞吐不定,不管怎么艰辛,他还是站在了这里!希望大家在这里玩的开心~