“原来如此。”陈腾笑了笑,“那这个DH0。1现在大概处于什么样的水准?”
“对话的智力水平……大概只有幼儿园小朋友的水平吧。”
陈腾微微点头。
这个水平,的确不高。
也难怪版本号是0。1,而不是1。0。
“你觉得如果我们这个DH0。1如果需要提升,目前最欠缺的是什么?”
“数据。”魏龙毫不犹豫地回答道,“绝对是优质的数据,我们这个模型的水准还是不错的,就是数据实在是太少了。”
“数据吗……”
陈腾倒是没怀疑魏龙说的模型水准。
因为这个DH模型的基础,其实是【LSM人工智能语言学习大模型】。
就是陈腾上次五连抽,在系统上抽到的那个。
系统出品,怎么都不会太差劲的。
在抽到这个大模型之后,魏龙手下的技术团队又基于这个模型做了一定程度上的改进。
所以模型水准陈腾是非常信任的。
不过模型的学习能力强是一回事,数据又是一回事。
如果将模型比作一个人,优秀的模型就是天赋很高的天才。
可就算是顶级的天才,没有高质量的学习资料,能学到的东西也有限。
现在腾达的这个DH模型,缺乏的就是学习资料。
“我们现在的数据源有哪些?”
“就是各大平台上网友们交流的一些数据,比如短视频平台的评论区,直播平台的弹幕。不过这些数据的质量,实在是太低了。”
陈腾微微点头。
魏龙说的很有道理。
短视频平台的评论区,有相当多的一部分评论都是没什么意义的回复。
这个没意义,指的是对AI训练没意义。
比如颜值博主的评论区什么“好美”“好漂亮”的夸赞。
对于AI训练来说,意义不大。
经过筛选处理过后,能用的数据少得可怜。
陈腾又想到了GPT。
实际上第一代的GPT是在2018年推出的。
但是第一代的GPT在市场上,并没有搅动什么风云。
因为智能水平太低了,根本没有人乐意与这样的AI对话。
直到四年之后,足足喂了四年的数据,这才有了许多人愿意对话聊天的GPT。