齐浩初把智能分类的接口演示界面发给赵语丽试用,赵语丽一口一个“好厉害啊”,“太牛了”,把齐浩初说得心花怒放。用公安局的几十万条数据做样本,就能做一个这么好用的分类模型,虽然是意料之中的,但也是非常有成就感。
然而回过头来,在数据局看着“面纱”的数据,作为目前唯一真正可以看到这些数据的人,齐浩初忍不住想要用这些数据,试试看训练一些分类模型,相似度模型,预测模型之类的,积累些经验。这个平台本身有集成训练数据的模块,有挺不错的GPU资源。
原本只做数据治理的话,齐浩初的账号是没有权限访问这个数据训练的模块的。不过因为当时蒋主任说为了方便齐浩初能随时测试数据效果,也给他申请了这个权限。不同账号能访问的数据不同,而齐浩初有访问回流库所有数据的权限。
齐浩初想着自己只是训练测试而已,不会把模型带出来,也不会正式发布,本身平台里面也有各种临时的测试脚本。唯一不合适的,是他本人原本只是做数据清洗而已,这个训练模块是给他测试下数据是否正常达标而已,正式算法模型是吕天和的事情。但是某种程度上来说,自己的账号其实比吕天和的账号权限都高。犹豫了几天,终于还是忍不住在数据训练平台开始写训练脚本。
“面纱”的数据果然是厉害,数据质量非常好,而且类型又全面。在测试神经网络和深度学习时,发现了一些有趣的事情,比如从购物习惯可以看出某个有钱人其实有私生子,从高铁记录可以看出某个人的学历是伪造的,从买房买车的记录中可以看出某个人中了彩票但是没和家里人说之类的。当然并不知道具体是谁,只是知道有这个人存在。
然而有一天,齐浩初忽然有点担心起来,虽然隐去了姓名身份证号码,但是数据上的各种标签组合其实也是过滤条件,如果凑齐很多具体的标签,还是有可能指向具体的某个人。于是他用自己的信息做测试,把从小到大的学校名称、出生年月、工作、住址、外地上学经历、消费习惯、出行习惯、饮食习惯都输入进去。经过几次调试后,虽然还是有6条数据显示可能符合要求,但是稍微再对比几个其他的数据,齐浩初很容易就找到了那条自己的记录,以及自己对应的那个虚拟id。也就是说,如果对某个人足够了解,其实还是可以从“面纱”的库里,找到这个人的所有信息。
想到这里,齐浩初并不是兴奋,而是担忧,他怕在他手上,出现什么数据泄露的事情。因此更加不敢和别人提这个系统,使用的时候也更加小心谨慎,每天上班前都在心里默念几遍“今天不出事,天天不出事”。当然他也不敢汇报,一来这个是国家的系统,他有什么能汇报的,难道国家还会为了他的建议,对这个系统做什么改造。二来他本身也没有被授权使用这些数据做训练,这个结果他又怎么能和别人提起。自己一个打工仔,操这个心干嘛,不要出错就行了。
每次训练测试完,齐浩初只把代码脚本保留在自己的工作空间,生成的模型和临时数据都直接删除了。
突然,工作群里,数据局蒋主任@所有人:“领导要来视察了。”