这大概是样本量的问题,经过这么多版本的迭代,类似于阴阳人和嘲讽钓鱼帆船等的回答肯定是极小概率出现的。
“我写了一部小说,《科技无垠》,你怎么评价?”这么想着,程旭灵机一动,问了这个问题。
“白金之姿,速更,夜不能寐,百万必神!”
“我R-T-M-D!”
程旭差点儿爆了粗口,什么华吧帝吧孙吧的影响没出现,小说作者吧的梗倒是被他记住了,这……不得不说,这真的非常让人无语。
不过略微一想,程旭立即就明白了其中的关窍。
这绝对是千寻科技纠偏过后的成果——极为离谱的回答应该得到的矫正更多,所以出现的概率低了。
而像“白速夜”这种,攻击性没那么强,所以这些语料的训练“成果”幸存率更高。
一些离谱的回答,哪怕模型训练不奏效,就算加关键词物理屏蔽也得给它干掉——无论在哪个国家,对非法违规影响恶劣的信息作出屏蔽和限制都是必然的。
有了这个思路,程旭立即就又问题了一个问题:“华维Mate50和iPhone 14怎么选。”
“当然选华维啊,任总一个按钮,全世界的苹果全都得断网!”
“言心”的这个回答更是彻底把程旭给整不会了,直摇头的同时也连连发出感慨:
“千寻科技这是作了什么孽啊这是,这东西要放出来,指定会引起轩然大波。”
不用说,这指定又是手机吧里某个阴阳人整的活被千寻科技早期用作训练语料了。
看这一开口就暴击的效果,那可真是“学”到了其中之精髓——类似的语料当时指定没少用。
“这完全就是串串本体啊这!真是造孽!”
程旭一边摇头,一边又设计了一些典型问题,从中甚至听到了“言心”有些翻动的答案——屏蔽的效果都不是很好,稍微诱导一下,自己就能把自己给卖了的那种!
怪不得千寻科技要跳脚,这玩意敢放出来,那就不是轩然大波的问题了——真被有心人利用一下,舆论被带起来,这简直就是生死存亡的问题了!
怎么说呢,这问题很典型,就是属于早期教坏了,没有及时发现,以至于现在已经到了晚期,无可救药了快。
这个时候,继续强化学习,效果可能会有点儿,但不可能太多。
哪怕程旭以未来的眼光来看,也没有特别好的办法。
它自身的价值体系判断和决策过程已经趋近成型,评估网络自身是有缺陷的,而自我迭代根本无法改变它的糜烂基础。
除非——有外界的强力干预。
这就像学生学习差不多——一个好的学生,遇到了自己答错了的问题,他能自己发现问题,并很快的自我纠正过来,然后很快的进步、提高。
但像“言心”这样的学生,学习很差,已经到了快没救了的程度,你就是告诉他错了,他甚至都不知道错在哪儿了。
更别说自己闷着头在那强化学习了,再怎么学也很难提高。
除非——有外界的强力干预——你给他找一个老师,看着他,告诉他哪儿哪儿错了,然后再告诉他怎么样才是对的,手把手的教给他应该怎么做。
只有这样,才有提高的可能。如果这样还不行,那就只能上强的,实在不行就抽他。
人是如此,机器学习亦是差不多的逻辑——当然,抽是不可能抽的,在机器强化学习算法中,有一种方式叫“加权惩罚”。
“需要再想想……”程旭思索着……