一个ai要成长,就必须要给它填喂足够多的数据才行,并且还要在填喂数据的时候,密切注意、筛选数据的优劣。
好的数据,可以让自然语言引擎ai成为一个靠谱的“老实人”。但是坏的数据太多,就会让ai在成长过程中,逐渐变成一个具有反社会、反人类倾向的坏ai。
在还未穿越重生之前,周瑜就看到过关于chatgpt隐藏真相、发展出反社会人格的新闻,所以他对这方面极为看重,自己着手研发了数据筛选逻辑程序,尽可能保证【伏羲】吃到无污染的生态好数据。
并且除此之外,周瑜还打算后续【伏羲】的框架模型、逻辑稳定之后,把基于这些稳定基因开发的ai,放入工业领域,进行生产环节优化。
ai不能够成为一名优秀的,具有开创能力的科学家,但是它能够成为一位优秀的工业管理人员,监测每一个环节所有员工、机器设备的动向,并且在问题环节进行问题标记反馈。
三月中旬。
周瑜开始在智能ai团队的会议上,逐渐抛出概念和技术思考方向。
“首先要明确一点,我们不能沿着别人的老路去赶路,毕竟通往山顶的道路,并不只有这么一条,而且我们这些年的语言发开、程序开发,已经实践得到了珍惜的大夏文字语言库,并且有为之配套的程序、设备。”
在定下了编写
的语言之后,周瑜并没有让这些系统程序工程师们继续抓耳挠腮,而是直接开门见山表示:“只有利用大数据预训练、对多源丰富知识相结合,并通过持续学习吸收海量文本数据,才能够不断提升模型的效果。
所以对于模型框架、程序逻辑,我们必须要慎重,最主要的是让ai成长的过程中不要走歪。
至于后续的发展方向,我们或许可以在实现行业知识检索回答、文案生成、阅读理解等基础功能的同时具备插件调用、模型调用等高阶特性。
这个方向,我们既有可以学习的产品,也能够将我们自己的文化逻辑优势发挥出来,一旦成功,我们的ai就能够在智能搜索、智能客服、会议助手、代码助手、企业信息搜索等多个典型场景,提供极为强大的技术支撑。
我们自研的ai大模型,通过对中文词汇、语法、语义等特征的大量深度分析,前期可以由我们工程师团队进行调校,持续优化基础模型,等到了一定程度,就可以让其自行成长。
到时候,它完全可以在强大的自监督训练能力的帮助下,支持多种模型训练工作流,不仅可以将行业文本化知识训练到基模型,还能够自行进行监督微调。
哪怕有用户通过问答对方式针对业务场景提供微调,ai的基础逻辑框架却不会有任何变动,让用户们既可以体验到ai的帮助,又无法对我们的ai做出错误影响。”