我担心泄露的那23T可能只是冰山一角,至少可以基本确定的是有其他人通过同一个漏洞下载到了除那23T以外的数据。
在之前出售数据的同一个论坛,一位名为“ChinaSeller123"的用户在出售”Passport SHGA: Database of foreign nationals who have visited China - 到过中国的外国人数据库“,这个数据库共有4400万条数据。评论里有人问他这个数据库是否包含在之前泄露的23t数据里时,他回答说”This comes from the same source (now down) however ChinaDan does not appear to have it “ (ChinaDan就是出售23t数据的黑客)所以若他所说是真的,便证明了确实有人下载了那23t之外的数据。
哦对了,这个到过中国的外国人数据库的sample是Obama的信息。纵是美国总统,到了中国也逃不过个人信息泄露。
而在CNN的报告中提到的LeakIX网站上也列出了这次泄露的相关信息。其中有一个数据库暴露时间从去年4月23日到今年7月1日,leak size是7.7g,但其实查看发现这个数据库在今年6月之前大小是26.4T,这与CNN提到的在今年6月遭受攻击和勒索是吻合的。再根据这个数据库的包含的几个tables的标题,很明显那23t数据正是来源于此。
但这只是其中的一个,单单大小以TB为单位的就有另外的60.8t和92.3t。这个60.8t的数据的tables标题大多为地名拼音+拼音缩写或者英文+日期组成,出现的地名主要是上海的各个区和省份,主要是安徽江苏浙江这几个上海周边省份。除此之外很难看出是什么内容。
我们无从知道也很难想象这些数据究竟包含了什么样的信息,也不知道这些信息会被用到什么地方。或许如果被仅仅用于电信诈骗都是一件值得庆幸的事。每个踏足过这个国家的人都有风险,但每个人似乎都完全无能为力。
上面提到的LeakIX列出的本次泄露数据库:https://leakix.net/search?scope=leak&q=%2Bssl.certificate.fingerprint%3A%22c5e75f488196ecf5ac910ecf294b6c1d5fdd965b48852127dc6355a71aebd025%22
@ly_safeb 参考了象友的这条嘟嘟https://m.cmx.im/@ly_safeb/108601698638552175 和其提到的CNN报道
A quick wrap up of CNN reporting on China Data Leak:
1. 2021年4月起,LeakIX(一个公开数据库搜索引擎)就侦察到这个数据库。无需密码,只要注册就可以进入下载。直到上周四黑客售卖数据,这个数据库的入口才被关闭。
2.无法得知在这14个月内有多少人进入并下载过数据。两位西方专家表示,在黑客卖数据前他们就知道这个数据库的存在。另一位专家曾经在网上寻找公开数据时,误入过这个数据库,下载过一份包含970M中国市民的数据。(救命... 就是说黑客卖那么便宜,其实也是因为很多数据早就外泄了?)
3. 本周一阿里云对CNN说他们正在调查并会公布进展,但周三不再接受采访。
4.专家意见是,过错在数据持有者,而非存储平台。
明天看看还有没有其他外网报道。匪夷所思到不敢相信。
https://edition.cnn.com/2022/07/05/china/china-billion-people-data-leak-intl-hnk/index.html
之前看见有象友在讨论gender neutral pronouns,分享一下我很喜欢的研究pronouns的语言学家Kirby Conrod的博客:https://kconrod.medium.com/ask-a-linguist-about-pronouns-8add318fbd67
以及我特别喜欢的一篇博文,是关于singular they应该用themself还是themselves的:https://kconrod.medium.com/intermediate-pronoun-studies-themselves-and-themself-d900e49c8990
@hommes_infame
评论1
“是真的,这个作者在他的发布源里贴了部分样本和索引集。
我下载解包之后导入了excel,发现了三个各含25万条数据的手机号+姓名+地址+身份证号,有效数据总计74万6800多行,最老的数据居然有1930年代生人,某些数据还注明了这些数据来自某某人口办单位,可能是核算或人口普查时留痕的。之后我随机抽取了15行数据,把他们的手机号用“支付宝转账”的姓名校验功能作了验证,结果每一个注册的支付宝实名账号都是真实存在的,每一个人都能被验证(即样本里数据真实)。数据非常杂,地域分布全国,地址也看不出来是快递地址还是备案住址。目前看不出来实用价值,除非是虚假注册账号之类需要这种,但是10BTC的售价成本显然高昂,真搞诈骗的买不起这么贵而且还没经过处理加工的数据。
在第二个包里我找到了“设法联系车主将车撤离”、“报警处理不立案”等字眼,初步判断这是110报警调度台、12345热线或其他应急服务电话调度的数据库数据,还有部分数据是公安局派出所数据,数据构成是“报警原因、出警结果”,偷车和民事纠纷记录特别多。
第三个包里除了身份证信息,所有行数据共同指向一个叫“oss-cn-xx/xxx/xxxx/xxxxx”的数据库,各地都有,应该是个能共同访问的数据库。从文件名判断,里面所有人都有的数据:1.莫名其妙的照片,有出境照片、有证件照、有工作照片,还有在逃人员的照片;2.宗教信仰、民族;3.宾馆酒店入住人脸识别登记信息;4.死亡证明;5.未成年人照片‘’6.驾驶证、执业证;7.不知道代表什么的莫名其妙的照片;8.居住证,身份证照片
接下
会有很多猫猫日常