所谓标码员,是个非常新兴的职业。
在2023年AI爆发之后,OPEN AI于世界各落后地区建设标码工厂。
每天都有上千万廉价信息技术劳动力,在这些新兴的血汗工厂中没日没夜地为OPEN AI工作。
林毅曾参观过的伊利诺斯标码工厂,属于这些血汗工厂中条件最好的了,其工作者多半仍为亚裔墨裔人,可见其工作量与报酬之悬殊。
这些人就和以前偷渡过去打黑工期望获得绿卡身份的劳工没什么区别。
那么他们的工作是什么呢?
{搜索}
不错,这实际也就是AI的本质。
GPT其实就是一个巨大的搜索模型。
当你对AI提出一个譬如{你告诉我鈤本哪里的牛肉最好吃?}这样的问题。
这上千万技术劳工将围绕你这个问题,将你问题里的主谓宾切割成多个关键信息单元,在AI数据库中进行筛选。
多个信息单元的意思则是{包含‘你’you的所有互联网已知信息,‘告诉’tell的所有互联网已知信息……}
当模型测得‘你告诉我’为you tell me,而不是,【你】【告诉】【我】三个不同主题的信息。
AI就会将‘你告诉我’识别为单纯的对话列,而不是【你】【告诉】【我】下面难以估计的天文级巨大信息量。
然后标码工要继续在数据库中筛选【日】【本】……
最终AI终于明白你原来是想知道鈤本这个国家,哪里,牛的肉,最,好吃?
而这么一个问题,需要千万信息劳工付出如何恐怖的劳动量,可想而知。
AI,或者说GPT模型,他就是建立在一个[用人类]充当人类思考时的活动神经元的庞大搜索工程。
他其实根本不能产出超出人类所知知识以外的东西,但是它又被设定了{不允许说我不知道}这样的命令。
曾经,林毅在米国参观学习时彻夜难眠,始终在想AI的本质是什么。
他后来终于想明白了。
人类妄图通过海量的数据喂养出一个无所不知的【机器人】,即使它遇到了人类自己都不知道答案的世纪难题,它却被赋予了{不允许说我不知道}这样的命令,于是它会,怎么样?胡言乱语!
靠它遍历人类已知知识的超级数据库,给出符合这个问题逻辑的{胡言乱语}!
也许正是这胡言乱语,可以让人类打破现有认知,拓宽更深层次的思路。
林毅此时坐在2004年的GAME风景线中,又再度想起了他曾于米国见证那茫茫如海洋的攒动人头,每位标码员都在用语音输入指令,在AI数据库中筛选……
而作为普通用户的AI使用者,则会将AI当成神一般看待,殊不知他的本质其实就是{搜索}。
后来林毅归国,他自己有次喝多了跟同事闲聊,玩笑间同事小王边对着电线杆撒尿边扭头说:‘头儿,你说老美是不是傻?为什么要把问题里的每个字都拆分呢?完全可以在AI模型里排列多个‘快捷短语’这样就可以大量减少搜索量,筛选的结果也更加准确。’
同事安珍妮拎着高跟鞋,摇摇晃晃地在前面走着说‘大约是因为,英语所能表达的含义本来就少,没法像我们中文那样,具体的拆分成多个短语。’
林毅顿时酒醒了。
重回20年前,当时听到珍妮说的这句话产生的震撼,仍然令他毛骨悚然。
他记得当时就涌起一个念头,公司可以做出超越当时一切AI的超级模型!
那晚回到他豪华大平层的家,林毅当时就在图纸上画了一个巨大的沙漏。
它采用八叉树空间数据结构,塞入这个漏洞当中的造型作为脊柱。
将问题通过八叉树进行初步的短语切割,反复验证其对错概率。
得到的短语进入沙漏进行分组筛选,最终得到问题答案的速度竟比国内文心、星火更快更全面。
而且由于八叉树空间数据结构的运用,问题答案竟然首次超出AI模型那种死板、有规律的循序逻辑。
它竟然产生了独到的想法。
林毅还记得那个问题是[到底是先有鸡还是先有蛋。]
现在普遍人类认知中存在两种答案: