“在传统的视觉分类当中,其实图片的标签分级也是一个很麻烦的事情。如果能够直接对应到人类语言当中,我想智能水平会强大很多倍。”孟繁岐这里提到的问题【图片的标签分级】是一个老牌难题了,简单点说就是图像的类别到底应该怎么分才科学。
为一张图片标注一個类别非常容易,只需要直接写明图片中的物体是什么就好,比如图像主要内容是一个茶杯,那就打一个标签【茶杯】。
做完分类训练之后,模型就会对图片做出对应的预测。
但这样就够了吗?
我们人类所追求的高级智能显然不能局限如此,茶杯的后面还有很多其他意味。
比如茶杯是用来做什么的?它是一种工具吗?如何使用它?它的颜色是怎样的?
这些东西,全都是大部分人类看到图片后都有基本概念的。
换而言之,孟繁岐想要结合文本和语言,本质上是想要图像智能在判定内容之后,进一步结合语言智能的能力。
可以做到比较详尽地描述一张图片,用人类的语言,说人类会感兴趣的内容,甚至于介绍人类不懂的内容。
传统的图像分类任务,它的本质太过初级了,这些任务的具体设定与标签设置也非常不讲究。
比如孟繁岐13年的成名竞赛,IMAGE是千分类数据集,也就是说千万级别的图片当中,一共包含了一千个图片类别!
孟繁岐估摸着,如果让一个普通人现在马上说出两百个种类,恐怕都是相当费劲的一件事情。
那个IMAGE数据集的一千个分类,其实就有不少水分。比如一千类中就包括了上百种猫和狗,简直就是个宠物窝。
里面许多类其实根本就不是一个层级的,比如猫狗在人类的概念中应该和车辆的一些大类别平级。具体的猫狗种类,则应该与某种品牌的车辆平级。
可实际上,当时那个数据集一千类的层级分得非常混乱,也就不利于构建一个更加聪明的图像智能。
它对这些类别缺乏一个树状的结构和概念。
“这个时候问题就来了,在训练千分类模型的时候类别区分了百来种猫狗,做得是非常精细的分类。如果我现在改变主意了,只想要简单地分类猫狗两个类别了,图像模型还能够做到吗?”
答案是勉强能,但做得不大好。
直接拿模型去做,效果甚至可能会非常差。但是稍稍微调之后,性能则又会有很大的提升。
这对人类来说,并不大容易理解。
因为按理来说,模型都能精确分类这些具体的猫狗品种了,那应该属于非常大师级别的能力。
毕竟大多数人类其实也不认得几种品种的猫狗,现在如果简化任务只分猫狗,那一定可以做得更好。
但实则不然,模型的表现并不如大家预料的那么优秀。
这就说明了一件事,传统的图像分类训练形式不能够理解哈士奇和金毛其实都是狗。
在编码端,它们可能只是类别7和类别39,两者并无关系。
缺少文本上的能力,也就很难归纳不同类别之间的关联。
“这种现象说明视觉模型的归纳能力还不够,只得其形而未得其神。”韩辞其实是能想到办法来解决这个问题的,那就是多标签。
这也是视觉领域内流行的办法,我给一张哈士奇的照片同时打上【哈士奇】和【狗】两种标签,问题就解决了。
不过很显然这是治标不治本的。
这么套娃下去,还有动物,陆地生物,雪橇犬,笨狗等多种属性。
标签是打不完的,标签多了,图像模型的训练也非常难做。
况且,标签打多了...那不就成了详细的语言描述了吗?
似乎绕了一大圈,兜兜转转还是回到了文本加图像的相互对应上面。
在孟繁岐宣布了图像加文本的Clip思路后,CloseAI的其他人讨论了好几天,仍旧没法想到更好的办法。
众人不得不惊叹孟繁岐的这个思路简洁明了,就像是残差思想一样。
说穿了,就是一两句话可以说明白做法和思路的事情,可偏偏就没有其他人曾经这么做过。
而就在学界业界忙着研究视觉T方法,CloseAI偷偷开始做文本加图像特征对齐的时候。
一件许久之前的事情突然闯入了孟繁岐的生活,打了他一个措手不及。
2016年的新春时分,卡雷鲁出版了一本偏纪实性质的小说,标题为《智能与坏血:硅谷中的奇迹与谎言》。
由于时隔太久,孟繁岐看到这个作者名的时候还愣了两秒钟,随后才反应过来,卡雷鲁是一年多之前,那位揭露了霍尔姆斯惊天谎言的华尔街日报记者。
彼时,孟繁岐曾经给过他一些建议和帮助。
不过主要还是依靠他个人的意志和勇气,在霍尔姆斯未倒之前,顶住了极大的压力,坚持报道了真相。
“我依稀记得,他当时好像跟我说是想把这件事写成剧本来着,还问我愿不愿意出力在剧中扮演我自己。”孟繁岐对这件事情稍微有点印象,但着实不多了。
如果不是自己扮演自己的提议非常喜感,孟繁岐恐怕早就彻底忘记了这件事情。
仔细算算日期,这马上都快两年前的事情了。
两年的时间不算短,卡雷鲁的这番创作,过程也颇为波折。
最开始的确如他跟孟繁岐所说的那样,计划将这个故事拍成电影,事情起初也很顺利,很快就谈到一半了。
结果在钱的问题上搞崩了,先是拖了好几个月,接着又被放了鸽子不了了之。
之后投资方降了级,说现在改拍电视剧,结果推进两个月后,谈好的演员出了问题,又黄了,事情无限期的搁置。
等这两出闹完,半年多的时间都已经过去了。
电影的剧本和电视剧的剧本,内容长度和写作方式又是天差地别。
卡雷鲁被如此反复折腾,直接彻底炸毛了,再也不谈什么影视化的事情,谁来也不好使,直接改文字创作路线,先把书给出版了再说。
这本小说大部分内容是纪实,尽量还原的现实情况。
但为了戏剧冲突和销量,卡雷鲁也在其中稍微糅合了一点半真半假的虚构内容,并辅以小说的手法。