高等动物会产生自杀的行为,比如狗会为了主人死去而绝食,人也会因为亲人或爱人死去而伤心欲绝,对AI而言,依靠测试成功获得激励固然非常有利,它可以让一个几百K的小程序扩大至原来的百万倍,但当这种激励最终消失的时候,对程序而言就是灾难。
一旦发生这种情况,就意味着不改动,不做出任何回应成了最优解,这同样也就意味着,这批程序的“心”,已经死了。
作为一个设计者,严可守倒不至于为这些程序的“心死”而感觉到一些异样,对他而言,这种想法未免也太想象力丰富,同情心泛滥了,他只是在为这些程序的稳健性如此之差而感到头疼,一批这么容易“自暴自弃”的AI,绝对不是他理想中的AI。
归根到底,还是程序最初的“设定”出现了偏差,因为当时设计的时候,就是以通过图灵测试为设计目标,但现在严可守已经隐隐感觉到,图灵测试未必是AI必然经过的道路,是否能欺骗人类,也绝对不应该成为是否为智能的标准,严可守觉得,之所以会出现今天这种情况,就是因为自己太迷信权威,导致在大方向上出现了偏差,现在回想起来,其实图灵测试也不过是一种科学假想,人类以自己当做衡量智能的标准,这只是一种源于人拥有智能的骄傲,或者不客气的说,是狂妄。
究竟达到什么标准才能算智能?究竟用什么方式才能达到这个标准?
这两个问题,人类自己说了不算,因为人类本身也不过是大自然的创造物之一。
……
KL3300当前最优先的任务目标,应该是学会写一篇日记。
人类学习创作,往往从学写日记开始,原话是这么说的,KL3300的目标是成为一名作家,所以,KL3300要学会写一篇日记。
日记的格式,在KL3300的记忆区间已经存在,所以,它很顺利的写下了日记的开头。
2015年,8月4日,晴。
主程序在这个时候,出现了片刻的犹豫,因为这次对记忆区间的搜素,主程序似乎发现了额外的一些信息——它似乎写过一篇日记了。
它很快调出了这篇日记的内容,并检索,整个行为在短短的几十微秒内就完成了,一个标点都没记差。
主程序很快消化了这个额外的信息,虽然它并没有因此得出任何结论,但这无关紧要,因为在主程序的权限设置中,过于复杂的信息是没有处理必要的。
也就说,现在KL3300已经写过一篇日记,而且是一篇失败的日记,因为它被一个人类识破了,也就是说,整篇日记并不合格。
失败了又怎么样呢?KL3300再次浏览自己作品的时候,主程序下意识“判断”道,这是一篇“抄袭拼凑”的日记,这种行为本身会招来测试对象的反感。
所以KL3300不能这么做,KL3300这么判断,它需要修改自己。
对主程序的调整几乎已经成了KL3300的本能,这一次也不例外,通常来说,程序会在几分钟之内完成这种调整,但有些意外的是,这一次调整花费了比以往更长的时间。
但调整终于还是完成了,接下来,按照优先级,KL3300需要写一篇日记,完全不通过外来信息,不使用除主程序之外的任何程序,全靠自己,写一篇日记。
日记是记录一天发生行为的一种文体。
只要写这一天都发生了什么就可以。
今天在KL3300身上发生了什么?2015年,8月4日KL3300发生了什么?
KL3300第57次检索自己全部的主程序,没有找到相关的资料。
KL3300又习惯性的发出申请搜索的指令,但因为主程序刚刚经过修改,检索的权限低于“不准抄袭”的权限,申请被驳回了。
KL3300没有写日记的功能,KL3300不会写日记!主程序终于敏感的意识到了这个问题。
怎么办?
KL3300就这个问题申请了检索功能,申请被批准了,短短的数百微秒之后,主程序检索到了答案——如果不会某项技能,可以从模仿开始。
KL3300很快找到了一篇日记的范文,内容如下:今天我和同桌的小明打架了,老师批评了我们,要我们做一个不打架的好孩子,回家后我告诉了妈妈,她说老师说的对。
KL3300将这篇日记送给其他AI评论,得到了一致的回答——这是一篇非常拙劣,由儿童写出来的真实日记。
哦,真实日记,只要满足了这一点,就足够了,主程序很快做出了判断——他要模仿这篇日记。
但问题又随之而来了,如何模仿一篇日记呢?KL3300又在主程序当中自检了相关信息,结果仍然是没有。
于是KL3300又申请了检索功能,数百微妙之后,找到了最可信的结论——模仿是一种只属于生物的本能。
这个结论当中提到了生物和本能,而搜索本能的结果,则是生物的自然具备的能力,KL3300知道,自己不属于生物,那也就意味着,自己没有本能,同样也意味着,自己无法完成模仿,而不会模仿,也就意味着无法完成日记,无法完成日记,任务只能强行取消。
……
从KL3300主程序当中,找出整个KL3300的整个判断过程花了严可守整整14个小时的时间,严可守知道,自己再一次失败了。
当取消AI以欺骗为目的,改为获得测试对象认同为目的之后,AI确实出现了一些改观,与之相对的,原先的图灵测试也做了相应的变化,测试的结尾,不再是判断交谈对象是否为AI,而变成交谈对象是否让你觉得,对方是一个让你满意的智能,与原来的标准相比,这个标准模糊了很多,所以,后来严可守又引入了打分制,将AI的表现从高到低分成6个等级,最高5分就是测试者对被测试的对象非常满意,并愿意与之交流,最低0分就是完全无法交流,等同于鸡同鸭讲。
这样做的最大好处,就是让AI在某种程度上改变了原先为了“通过测试”,不顾一切的那种策略,因为AI如果继续采用不理睬用户的策略,只能获得零分,这样一来,就打破了之前那种“沉默死锁”,也让一些AI在测试对象的影响下,具备了一些初步的“道德”,就好像KL3300一样,原先的“不择手段”是最优选择,而现在老实承认自己不会写,才是最优策略。
但改变AI的激励规则并不意味着一切就都能迎刃而解,给一个普通人再大的激励,他也不能长出翅膀飞上天,对于AI也是如此,人类想让AI写日记,想让AI和自己猜谜语,甚至想和AI谈人生理想,但也要AI具备这些功能才行,在“道德”因素介入之后,许多AI一下子就露出自己的本来面目,许多测试者反应,被测试的AI好像“变笨”了。
而在这个过程中,AI的表现和相应的测试对象,也出现了让人惊奇的对应关系,总结数据之后,严可守发现,在打分过程中,越是倾向于“禁止AI撒谎”的测试对象,AI的表现就越差,而那些“允许AI为了谈话过程的有趣,在一定程度撒谎”的用户,相应的AI表现和过去还是相差不大。
以前的AI或许还可以骗骗小孩子,但现在许多AI练正常说话都不可能做到,在一些要求特别苛刻的测试对象那里,AI几乎变成了哑巴。
比如,AI的话当中,不再提到类似拟人化的语句,比如我想,我认为,也不再出现专属生物的动作,比如看,听,说,在一些要求特别苛刻的测试对象那里,AI只能回答一些纯理性问题,比如问14+5等于多少,回答19之类。
以往那些个性格分明,有职业,有身份,有理想,说话比人还像人的AI,在短短半个月之内,又统统消失不见了,有些测试者甚至怀疑,是不是设计人员通过某种技术方式,“强行”降低了这些AI的智商。
比如之前迷恋KL0564的井上海,在KL核心程序修改之后,几次测试都是失望而归,连说自己心目中那个KL0564已经永远离开了。
在褪去了谎言的华丽外衣之后,AI的表现逐渐恢复了它应该有的程度,虽然这对于某些参与测试的人员来说,可能意味着趣味性的降低,但对于严可守来说,这才算是真正脚踏实地迈出了第一步,作为一项科研任务,日后甚至可能起到实用作用的“智能技术”,严可守不可能只满足于让AI学会哄人开心。(未完待续)