坐地铁去取CT报告,第二站旁边上了两个女人,年老的穿着酒红色的正装,年轻的穿oversize的运动服,二人都是长发,年老的染了头,拎着一个看上去很贵的包。
我旁边只有一个座位,以为会是年长的女人坐,结果二人都没谦让,年轻女孩就被她按着肩膀推坐下。年轻人坐下的时她顺势扶着对方的肩膀弯腰脱了高跟鞋,年轻的女生就乖乖地让她按着,帮她拎着包,拿着鞋。
地铁脱鞋我有点反感,还在皱眉,听到年长女人问:李文琦(音)还没联系你?
年轻女性摇头。
年长:(沉默了一站,暴怒低吼了一些方言)我生他有什么用!不如当初丢在青岛港上就得了!烂泥扶不上墙!
年轻:妈,妈,好啦。
类似对话应该有过很多次,她拉了下年长女人的手握了握,对她露出一个有点苦涩的小狗笑。年长女人明显很心软,叹气又沉默了好久。
年长:我要生的是你就好了。
年轻:嘿嘿,妈,没关系,我现在也是你的(小孩)。办了证我还去看你。
年长女人不说话,就看着地铁外面飞速后腿的广告牌,又沉默了一站多路,突然开口:你不要和我住一起吧。
年轻:啊?
年老:(语气逐渐强硬)你和我,住市南那套。
年轻:那文琦,呃……
年老:不管他!(暴怒)他爸给他留了房,我给他还了贷款,还要怎么样!他妈的生孩子也不能生,作天孽!(因为车厢里的人都开始看她而停顿了一会,瞥了一眼年轻人)你和我一起。
年轻人沉默了一小会,很小心很自卑地说可是妈,我不会做饭。年长者停了一下,说我也不会。两个人呆了一下,互相笑起来,都有点羞涩。
年长女人说没事,日子商量着过,不然就请个人吧。年轻女人立刻小狗拍手,说好,不过我还是想照顾照顾妈妈。年长女人说你不用做饭也能照顾我,你在这就是照顾我了,不像李文琦……(随后又开始骂方言)
二人在此地下车,伴随着年长女人穿着体面的咒骂声。
我从城东坐到城西,几乎偷听完全程,听了一路感觉心跳都要上180,戏剧到放知乎上我都要笑话剧情编得太烂。
我在她们下车的站点查了一下,那一站果然是法院。
最好吃的还是扬州包子,肉汁浸到面皮里,咸甜调得正正好,最能把面与肉的鲜香激发出来。家里人爱吃也会吃,小时候我有幸吃过非常正宗的富春包子和烫面蒸饺,如今很多店铺都不再了。现在还能买到冶春蒸饺,冷冻,一盒六个,卖得太贵,个头也小。不过味道还是和小时候吃的一样。
上海的生煎次之,主要是甜口调得对味。底面煎得脆亮,面上撒小颗黑芝麻,咬一口,汁水流出来,热气腾腾,沾手上黏糊糊的。
南京的汤包再次之。读大学时,和表姐的学校离得不远。每次去,她都带我吃校园后街的汤包小店。一笼包子端上来,中间倒扣小瓷碟,用筷子一夹翻转过来,装醋和辣椒。汤包皮薄,咬第一口,汤汁必然淌出来。往往得用勺子托着,才好蘸上一点醋。这家小店豆浆畅饮,甜甜的热豆浆配汤包,是我大学记忆之一。btw,南京南地下二层有家店,汤包配鸭血粉丝汤,味道也好。
看到象上讨论无授权训练AI ( https://bgme.me/@Camus/110607855459201852 )。除了对创作者的伤害,我还想补充一下对使用者来说也并不总是获益的。
这里需要先绕个远路,引入一个考古学的概念"Provenance"。它指的是一件物品从制造/挖掘出来后的*所有*转手过程,e.g.在哪里/什么情况下制造/挖掘的,被谁买了/卖了,什么时候被什么人修复过等等。完整的信息链是非常重要的,因为物品的意义要在context里才能得到解读,年代也往往需要context才能推断。同一件物品在墓葬里出土和在城市遗址里出土(以及在城市的什么区域)、在不同地域的墓葬里出土、在不同墓主身份/性别/地位的墓室里出土,指向了不同的解读方向,对后人分析当时社会的各种形态风俗品味非常重要。甚至是修复痕迹也能透露当时的技术水平/理念偏好。所以考古学家和艺术史学者对各种让信息链断裂的盗挖和黑市深恶痛绝:物品的“舌头”被切去了,它虽然存在,却无法完整发声。
回到现代的信息交流语境,数据的provenance对于理解和分析数据有着类似的意义。Data需要metadata (直译就是“关于数据的数据”)的帮助去“说话”。举个简单的例子,“研究指出,吸烟对人的影响blablabla”这个信息,当它的生产链里出现了大烟草公司的身影时,读者会产生警惕;当它的传播链里出现了以假新闻/扭曲事实出名的网站平台,读者也会产生警惕。数据的credibility和provenance是相关的。
但生成式AI彻底破坏了数据的provenance。如果说人类写作不做明晰的引用让数据溯源变得艰难(象上之前有过相关讨论),那么生成式AI让溯源变得根本不可能。
同样危险的是新一代semantic AI模型的不透明性。研究AI的社会学者Mona Sloane在“AI’s (un)Stable Diffusions?”圆桌讨论上提到招聘人员使用电脑方式在过去十来年的转变:之前是通过关键字的组合来筛选简历,招聘人员需要将职位要求“解释”/interpret为一系列关键字的组合。他们需要学习如何选择关键字、组合关键字,在使用这项技术中可能会出错,但检查起来还是相对一目了然的:哪个关键字可能出问题、哪个组合方式可能不对。但改为自然语言输入后,检查变得不可能了。AI接过了“解释”工作,而解释后被执行的指令不再像以前的关键字组合那样可以被人类清楚理解。换句话说,人类不清楚自己的话被怎样“理解”了。当semantic AI涉及歧视偏见(或者仅仅是错误),它更难被监察/发现/修正。
还有一个容易被忽略的是semantic AI涉及的“语言歧视/霸凌”。这个概念有一点复杂,但可以用一个人类语境来作为跳板:试想一下,某个人不会说普通话/说的普通话带有明显的口音,假如ta又不是外国人,那么ta在大陆会有怎样的遭遇?在与semantic AI,如ChatGPT,对话的过程中,如果使用者并不是一个说“标准语言”的人,会发生什么?一种可能的情况是ta会被反向训练自己的语言,去靠近所谓的“标准语言”,而以英语为例,“标准英语”=精英白人的英语 (Mike Mena在水管上有一期专门聊所谓“标准语言”的,链接放在结尾)。另一种情况是同一个圆桌讨论上另一位学者Beth Coleman所观察到的mirroring effect:当使用者用“不规范”的语法或“不标准/主流”的表述方式和AI对话时,AI的输出会更明显反映出模型的训练数据提供者的画像(偏好/偏见/立场/信念)。于是也完全可以预见,AI能像它的数据提供者那样对某些人群施加伤害。
那么,是什么样的人的话语出现并被保留在了互联网上?什么样的人的话语被AI公司主动打包/爬取了?什么样的人的话语是AI公司认为“不合格”而剔除出去的?AI让什么样的人被更加边缘化了?
双重的不透明性(provenance缺失和模型本身的不可解读)叠加后还产生了第三重危险:无法追责。被它不公正对待的人将比以前更难要求正义。
Mike Mena | Debunking "Standard" Language
https://www.youtube.com/watch?v=h6JtmMAvf1o