首页 > 互联网 > > 正文

世界观焦点:黄铁军:ChatGPT训练只用了百分之几的中文数据

2023-06-17 13:49:07    来源:凤凰网


(资料图片)

凤凰网科技讯 6月16日消息,凤凰网科技《浪潮》对话智源研究院黄铁军,谈到对中英文大模型算法分析的看法,黄铁军表示,ChatGPT训练时用的英文数据多,中文数据只有百分之几,所以英文表现得比中文好。

凤凰网科技《浪潮》:我们刚才也提到了一个上下游,因为要进入到这个生态里边,要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解,它们的算法,都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易,或者是哪个更困难一些?

黄铁军: ChatGPT当初训练的时候用的确实是英文数据多,中文数据少,而且据我们了解,他们也用了智源中文的数据集,但他们用的中文数据只有百分之几,所以它英文表现得比中文好,这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据,那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设,确实对于未来大模型发展来说是特别重要的一项工作。

(责任编辑:王治强 HF013)

关键词:

上一篇:焦点速递!黄铁军:对于强人工智能 我们要剥离以人类为中心的想法
下一篇:最后一页

热点话题

热点推荐

头条