戴新宇作主旨发言

(2024-12-18 11:06) 6006662

　　南京大学人工智能学院副院长戴新宇

　　戴新宇：人工智能范畴很大，不仅有机器学习、计算机视觉，还有机器人有很大的范畴，但是因为今天是作家的论坛、文学的论坛。大家都是语言的大师，所以我想人工智能语言智能会更有代表性一点。

特别是最近大模型，也是语言智能的一个里程碑式的系统、产品。大家出来之后，对于各行各业带来了巨大的冲击，所以是一个变革的时代，包括人工智能本身，我们从事AI的人也觉得这是一个变革的时代。在这个变革的时代里面会有各种各样的机遇和挑战，所以我今天就起了这么一个题目。

我今天这个提纲大概分几个部分。

第一，什么是人工智能、人工智能是什么概念。

第二，语言智能是什么。特别是现在的大模型，以ChatGPT为代表的大模型到底是什么样的东西，到底是一个什么样的系统，它能做什么，我会用两三页PPT简单介绍一下。

第三，风险和挑战。对于文学创作领域到底有什么样的机遇，对于写的人来说，或者对于读者来说有什么机遇，这个机遇很多，我也是非常狭窄的列了一下。

什么是人工智能？各种概念市场上各种宣传很多，我觉得要从我的理解上来解读一下人工智能的概念。

马文·闵思基是人工智能的奠基者之一，他参加了1956年的人工智能元年的会议，他给了一个概念我觉得比较容易理解。人工智能就是让机器来完成那些由人来做的需要智能的科学，本来人做了一件事情现在机器来做了，这个机器做的事情就是人工智能。它本身就是模范人类的智能，我们看本质上人类智能是什么，人类智能本质上是跟外部世界做交互，人类会时时刻刻跟外部世界做交互，在交互过程当中有感知能力、认知决策能力、行动能力。

我今天开车过来，我看到前面有个个红灯，我感知到了那个是红灯，我脑子里就知道红灯车子应该停下来，这就是我的认知，再踏刹车就是我的行动。感知、认知、行动做每件事情都是这个过程。甚至世界上科学规律的发现也是这个感知、认知、行动的过程。比如说牛顿发现万有引力，他会思考为什么苹果会掉下来，就去做行动，去讨论、了解到底是什么东西，他就会改变这个世界，有了科学的认知，其实就是这个闭环。

当然人工智能我们希望跟人一样的，能够跟外部世界做交互，感知、认知、决策，感受这个世界、感知这个世界、改变这个世界。

智能它到底有哪些表现，我们把人类智能、人工智能分成四个级别。

第一能存会算，这个叫计算智能。

第二能看会认，叫感知智能。

第三能听会说。

第四能理解会思考。

这几个表现层次越来越高级的智能形式。能听会说和能理解会思考相对高级一点的人工智能形式就是语言的能力。我们人类之所以是高级的生物，比地球上面的其他的生物具有更高级的智能，就是我们人类有能听会说。语言能力是核心的人工智能的能力。人工智能就是模仿人类的这些能力。

对人工智能水平做测试，我们要衡量一个人工智能系统到底有什么水平，为什么会讲这个？我们通常说人工智能系统到底水平怎么样，有一个著名的测试叫做图灵测试，图灵科学家在1950年写了一篇文章，我怎么判断一个机器是不是有智能？他就涉及了一种测试方法。图灵测试另外一个名字叫做模仿游戏。

这个图灵测试的意思是，中间有一个人类的测试者，他的左右两边两个房间里面分别有一台是机器一个是人类，左右两个房间一个机器一个人类都在同时跟他聊天，如果中间这个人无法测试出来哪个是机器、哪个是人，我们就认为左边这个机器具有人工智能的水平，达到了一定的阶段。

图灵测试回答的问题是：机器能够思考吗？我们怎么回答这个问题，图灵测试设计的方法就是用语言能力来测试机器的智能水平。所以说我觉得从这个角度来讲，我不是恭维大家，作家具有强大的表达能力，他们应该是代表了最高的一种智能水平，因为它的这种创造力、表达力，而这个机器的智能测试我们也是用语言能力来测试的。所以这个又是语言智能。就看这个机器会不会说话，能不能听懂中间人的说话。

测试人工智能水平的一种测试方法，就是测试这个机器的语言智能水平。

语言智能方面，语言是人类交流的工具，是人类思维的载体，是推动文明进步的基石。我们几千年前的甲骨文都是历史上的知识的记载和传承，没有这些东西很难推动文明的进步。

语言智能也是人类智能的核心表现形式，地球上其他的生物是没有语言能力的，也是人工智能的重要的研究领域。

语言智能左边是一个人类，右边是一个机器。它在跟人类沟通用自然语言沟通的时候，能够懂人话，他也会说人话，我们这个就是叫语言智能，这个机器可以理解人类的语言，也可以生成人类的语言，也可以说人类的语言。2022年10月30号ChatGPT发布，就以ChatGPT为代表的大语言模型，发布之后机器就具有了强大的语言理解和语言生成能力，语言智能就进入了新的时代。

从这个为代表，我们觉得它真的可以懂人话、说人话。我们在ChatGPT发布之前，家里面就有小爱同学、小度，但是他们经常听不懂我们的话，稍微复杂一点就听不懂了，或者他说的时候有点语无伦次，那个还没有真正到这个阶段。大模型发布之后就进入这个阶段了。

我们简单用一页PPT来说一下大语言模型基本原理是什么。

大语言模型有好几类，ChatGPT只是其中一类，GPT三个字母是Generative pre-training Transformer，它就是一个词语接龙的游戏。

比如说Thudents opened their，让你去接龙，这个接龙用数学表达就是算一个概率，给你前面四个单词让你预测第五个单词的概率，概率最大的就是我的输出，大概是这么一个任务。跟我们人类大脑一样的，我感知到输入之后，人类大脑要对这些单词做编码，编码就会输入一个神经网络，我们人类大脑也有神经网络，这个模型结构就叫做Transformer，也就是后面那个T，当然那个参数量非常大，GPT3.5是1000亿的参数，所以这个也是到了一定积累之后，涌现出来的一种具有一定的能力。

解码就是要预测下一个单词的概率，模型怎么能够正确的预测出来？它跟我们人类一样的，需要读大量的书，所以需要训练。所以中间有这样一个训练的过程，要读海量学习数据，这个数据基本上是现在互联网上的数据都给它训练。

这么一个最简单的任务形式它怎么就能够理解，怎么就能够顺利的接下去？这是非常深奥的问题了。

今天因为时间关系，很难去解答这个问题，为什么这么一个简单的任务表达它就能够思考和生成了，我用两句话给大家换一种形式去解答刚才的问题。

第一，OpenAI科学家说，如果一个模型能够准确的预测出互联网上的所有文本片段的下一个单词，这个模型就了解了文字的本身。你这个模型什么都会写了，给它任何题目都会写了，你说它是不是了解了，当然也有其他的解读，比如把所有的数据喂给它之后，它可能就是人类知识的一个压缩，它就可以掌握了这些知识的压缩，就了解了人类的这种语言的压缩。

第二，语言的边界就是世界的边界就是知识的边界。这个话本来是说给人类的，语言能力特别强的人，说明他的知识面很广，说明他对世界的感知很强大，机器也是一样。如果这个机器什么都会说，什么都能理解，它是不是就一定程度上了解了这个世界，掌握了人类知识的范畴。

这是这个模型基本的原理和初步的解释，当然这个模型训练不仅仅是我刚才讲那一步的训练，它还有第二步、第三步、指令的训练、价值观的对齐，不能乱说话。所以还有一系列的训练，整个的模型从2017年就开始研究了，2022年才发布出来，中间还有很多训练的过程，今天没有时间展开去讲。

第三机遇方面。

这是我自己狭隘的认知，所以我觉得不一定完整。第一大语言模型怎么去赋能写者，当然这个写者是普通的创作者，跟你们大文豪、大作家不一定能够完全贴合上，我们作为普通的创作者，怎么用大模型来帮助我们做一些事情。

大语言模型如何生成文本，就是两句话。

第一理解上下文。就是把上下文输入进来，然后能够做正确的词语的预测。有两个基础的能力。首先会快速的阅读、快速的输出清洁脉络，现在读论文也有很多大模型的工具，读小说也有工具，比如现在有针对《红楼梦》的智能体，你可以问其关于《红楼梦》的问题，它都会告诉你。其次写，可以撰写段落、扩展情节，比如说创意生成。比如说你用知乎的风格去生成一个故事，可以快速生成情节、对话突破写作的瓶颈。

第二做内容扩展和润色。可以做改写、优化语言表达，写作风格适应调整，你可以说能不能用某一个鲁迅的风格给我重新写一下这段话，可以快速帮你去做这个事情。

第三技术型写作支持。可以面向不同的学术论文、科普的文章、新闻，可以做快速的初稿的生成。

第四个性化和个性表达，适应不同文体和作者风格。

AI的创作能力是依赖于创作者的高质量的指令。

这个模型能力是非常强大的，但是这个人说你并没有告诉我你知道的那些，你没有把我想表达的表达出来，这个模型会告诉它，这个模型说你没有很好的问我，你没有很好的去跟我交流。它的创作能力，AI的创作能力是非常强的，但是它依赖于你人类的创作者，要跟它做充分的交流。充分的交流也就是我们的提示工程。

比如说《红楼梦》的写作风格，怎去续写《红楼梦》的后40回，你要告诉AI你需要什么，要清晰的表达。我刚才了解了文坛里面有作家、批评家，所以我今天在AI时代，可能批评家更加重要，因为它可以去指导，不停的去改造AI写作的东西。

右边这个图是国外一个网站上给的对于写小说而言，ChatGPT最好的十个提示词，这个不详细讲了。

机遇方面，赋能读者。这个机遇很多，我现在读一篇论文，我可能也会扔给它的GPT，让它快速帮我读一遍，让我了解这个文章的大概的主意是什么，实验是怎么做的。

我们读者更多的是在AI的时代对于传播力而言，我们读者有哪些机遇，对于写者也是同样的机遇。

比如说莫言这个作家，以前我们很多读者想跟他做交流，但是没有机会。因为他一个人也没有办法，我们就把莫言的小说扔到原来的基座大模型里面去，这样可以训练莫言的个性化的模型，或者称之为叫做数字分身。

莫言的数字分身就是智能体了，他的一个替身了，就可以跟各个读者去进行交流。比如说莫老师你可以跟他聊他作品里面的哪些故事，也可以聊其他的事情，而且其他的事情那个莫言老师的回答就符合莫言的表达风格，好像真的在跟他对话。

最后讲一下不足和挑战。

挑战方面有很多，从技术层面来说，现在的大模型有很多的问题，可解释性比较低，有幻觉，经常会胡说八道，在各个行业里面落地的时候还会遇到一些困难，算法有偏见。在社会面可能有数据的隐私问题，比如莫言老师那样，可能涉及到大模型个人数据隐私的问题，还有伦理规范的问题，版权的问题。到底这个数据分身写出的东西版权归谁？责任追究问题等等。教育革新的问题，我们是不是还用传统的教育方式去指导同学们做写作，还是有新的方式可以去教大家写作的。

经济面，包括行业变革、岗位就业，政治面更多了，价值观、舆论引导、国际话语权等等。

对于读和写来说，比如说生成内容的合规性与责任分配，AI生成内容的偏见性、误导性、长篇结构、逻辑一致性，创意新颖性。AI创作谁来评价？

这是我自己一个小的观点，我作为一个门外汉，对于文学仅有的认知。文学艺术是生活的反映，有什么样的生活就有什么样的文学。为什么把这两个图也贴出来，不管是人类也好、AI也好，你的认知过程，你的写作也是一种行动和决策。它离不开你的感知，感受力。AI对于生活的无力感知，AI感知能力现在严重不足，虽然现在也在做多模态的大模型，可以感知文字和图像，但是AI对于生活的无力感知就注定在短期内无法超越人类。

短期内还是一个我们的助手，怎么用好它，怎么拥抱它？

最后用维特跟斯坦的话来说，人生的三个境界，从语言角度去描述混沌境界，清晰境界、创造境界，AI现在处在第二个境界，我希望AI将来可以往第三个境界去发展。