【AI】哈工大张民：ChatGPT 之后，NLP 还有 12 个待解决命题

2023-03-06 12:20#1 标记1

作者丨张民
演讲整理丨李梅
编辑丨岑峰
从语言模型角度看，ChatGPT 的天花板非常低，但在触及天花板之前，还有很多红利。
ChatGPT在产业界掀起商业化与资本狂潮的同时，也给自然语言处理（NLP）研究界抛出了许多问题，NLP正在重新成为最热的研究领域之一，但也在面临以ChatGPT为代表的大规模预训练语言模型带来的冲击，ChatGPT将如何重塑NLP技术？NLP的下一步要如何走？
在2月24日深圳人才研修院由鹏城实验室主办的第四届OpenI/O启智开发者大会上，张民教授做了题为《语言智能与机器翻译》的主题演讲，对这一问题展开了深刻的思考。
张民教授在1991年至1997年于哈尔滨工业大学先后获学士、硕士和博士学位，长期从事自然语言处理、机器翻译和人工智能研究。在这次演讲中他谈到ChatGPT背后的NLP技术，他认为ChatGPT是一个技术、数据、算力和工程架构相结合的复杂系统，它的能力来自于基础模型、指令学习和强化学习。NLP人要有复杂系统的观念。
在他看来，ChatGPT给NLP研究者带来的不是威胁，而是为NLP提供了新机会、新研究范式，可更好地解决NLP问题，同时扩大了NLP研究领域，为NLP领域提出了更多待解决的命题，如研究新一代语言大模型、保证模型的可信与安全、提高模型的复杂推理能力和可解释性、增强模型对人类意志的学习、发展多模态大模型等等。
以下是张民教授本次主题演讲的原文，AI科技评论做了不改变原意的编辑：
1
ChatGPT：NLP 技术的一大步
打开了通用AI的大门
在讲这次报告的内容之前，我先就ChatGPT谈几个观点。
第一，要高度认可、拥抱、跟踪而不是跟风跨时代的以ChatGPT为代表的新一代NLP/AI技术。
第二，跟踪之后，要在OpenAI的这个大模型基础上做创新性研究。很多人担心，在大模型的时代，NLP是不是不需要再做了，其实完全不是，我们要做的事情更多，而且极多。
大家想一下我们的人脑是怎么学习语言的，3岁小孩的语言能力已经很强了，但人脑只有5%的神经元被激活进行语言相关的活动，小孩是怎么做到举一反三的？我们人类学语言是真正去理解，自顶向下和自底向上相结合的学习方式，具有演绎、归纳、推理、联想、举一反三的能力。而ChatGPT是自底向上学习。所以未来的语言模型一定不是ChatGPT这个样子。
本次报告要讲的，是我觉得未来5至10年甚至20年以ChatGPT为代表的NLP要解决的问题。先讲什么是ChatGPT，再讲什么是语言模型、ChatGPT能给NLP什么启发。
首先来讲什么是ChatGPT。第一点，ChatGPT做的事就是使机器像人一样与人对话、交流。自然语言是人类交流最方便、最重要的媒介，语言是用来描述知识和传承文化的工具。因此，ChatGPT很快就被大众迅速接受，所以说ChatGPT是人投票投出来的，这也是ChatGPT能如此之火的一个很重要的原因。
ChatGPT的本质是大规模预训练语言模型，是一个统一的、极简的大模型，这是第二点。
第三个关键点，就是ChatGPT做的是一个NLP问题，但是大家一定要意识到它是一个技术+数据+算力+工程结构的复杂系统。
经常有人问我，ChatGPT带给我们的经验是什么？我通俗地讲，自然语言处理干三件事：让机器听懂人话（理解）、讲人话（生成）、干人事（应用）。相应地，ChatGPT的惊艳之处是什么？第一，非常强的语言理解能力和生成能力，理解人类的意图，然后侃侃而谈，娓娓道来；第二，它能把伦理、道德等方面的不当内容去掉，并可拒绝回答；第三，它使用了三项技术，包括表示学习、注意力机制和学习人类意志，没有这些技术就没有大模型，更没有ChatGPT。
非严格讲，“学习人类意志”是ChatGPT这类模型所独有的，这个说法听起来很高大上，其实就是通过算法调整模型参数，进而让机器知道人到底想要机器做什么、怎么能干好。
ChatGPT的理论基础是什么？就是从语料当中学东西。语料数据里面能蕴涵多少知识，ChatGPT最多就能拥有多少知识。从这个角度看，ChatGPT因此也是一个知识工程。所以语料库语言学、认知语言学和计算语言学是ChatGPT的语言学理论基础。如果你相信语言能够表达知识，那么ChatGPT就能学会其中的知识。
所以我们对ChatGPT的一个评价是：NLP技术的一大步，开启了AGI（通用人工智能）的一扇门。
2
ChatGPT 背后的语言模型
只要上过中学、学过中文或英文，大家就都知道，语言模型包括词、短语、句法结构、语义和篇章等不同层面。从另外一个角度讲，语言模型涵盖很多种表示方法，比如产生式、逻辑、谓词、框架等等。从知识表述的角度看，语言模型则包括规则、统计和神经网络的方法。
抽象讲，语言模型是计算机表示和处理自然语言的数学模型。语言模型是一个单纯的、统一的、抽象的形式化系统，自然语言经过语言模型的描述，就能被计算机处理了，因此语言模型对于自然语言处理极其重要。
那么ChatGPT所用的语言模型是什么？它的语言模型其实早在上世纪七八十年代就有了，即当时语音识别领域最常用的N-gram语言模型。ChatGPT是一种基于N-gram的生成式语言模型。比如，在一个句子中，第二个词的概率以第一个词为基础，第三个词的概率以前两个词为基础，如此类推。公式极其简单，ChatGPT所干的唯一一件事，就是学一堆神经网络参数，给定前N个词，预测下一个词是什么。比如“Where are we （going）”这个句子，ChatGPT会对所有可能的词的概率进行从低到高的排序，根据它的模型预测出第四个词是going的概率最大。
大家想一想，为什么只做这一件事就能够实现复杂对话？只是如此简单地预测下一个词，为何它就能这么惊艳，能够写文章、对话、编程序、制表等等？有一个经典的“猴子打字机悖论”，如果你给一个猴子无限长的时间，让它在键盘上敲打，它就能在某个时间点写出一部莎士比亚全集。这是没错的，从数学的角度讲一定能实现。
ChatGPT就相当于一只猴子，把词随意地组合起来，但ChatGPT的好处是什么？猴子需要无限长的时间，它也并不知道打出哪个字最好，而ChatGPT有非常强的预测下一个词的能力，只要给它上文，它就能对下一个词进行精准预测。ChatGPT写一篇论文的时候，给人感觉是一气呵成，实际上这时候它绝对不是简单地给定前一个N个词预测下一个词，而是已经隐含在语言模型中地编码了这篇文章的结构。写一篇学术论文一定要布局好结构，ChatGPT就是根据这个布局来工作的。ChatGPT最擅长的就是写作，侃侃而谈，“编故事”。
那么ChatGPT的原理到底是什么？有三个方面：基础模型，指令学习，强化学习。
基础模型使ChatGPT具备强大的能力。有了能力就是有了力气，但有了力气还不知道到底能干什么，指令学习就是让模型知道干什么，强化学习则是让模型干得更好。还有一个人类反馈，即奖励模型，是为了强化学习用的，用奖励模型去做强化学习，希望ChatGPT做到跟人类一样、符合人类的意志。就像高文老师讲的，ChatGPT太讨好人类，表面上看是这样，但其实我觉得问题在于训练数据、奖励模型和强化学习的导向以及伦理道德的因素，导致它太像人类。
ChatGPT的核心技术有两点，一个是基础模型，一个是对基础模型的人类意志对齐微调。至少从交互的角度看，微调是非常有效的。微调能做到什么效果？从交互的角度讲，它能使原本13B的模型性能达到175B模型的水平，提高10倍。而从知识的角度讲，13B的模型知识贫瘠，讲得再花言巧语也没有用。
3
大模型时代，NLP 怎么做？
目前来看，ChatGPT不能干的、干错的，比它能干的要多得多。但是大家要坚信一点，ChatGPT技术刚刚出现，那些不能干的很多问题可以很快解决。
同时，我们也应该看到ChatGPT有它的天花板，它确实是有很多问题，说一千道一万，ChatGPT本身模型能力有限，比如会出现张冠李戴的问题。像对于“1+1=2”，ChatGPT不是用计算器去算的，而是利用模型去预测1+1等于几，2出现的概率大，所以它认为是2。如果你赋予ChatGPT计算能力，那么所有数字四则运算问题它都会。
我们应该看到，ChatGPT的天花板非常低，但是在到达天花板之前，我们有很多红利。科学的进步毕竟是波浪式的。
再来谈一谈ChatGPT与语言智能和机器翻译。这个方向我已经做了几十年了，但是我觉得机器翻译是最容易被ChatGPT颠覆的，一定是。人类做翻译的时候经过语言理解和生成的过程，ChatGPT恰恰具有很强的语言理解和生成能力。目前机器翻译模型严格依赖双语数据，把机器翻译看做是一个映射过程，而不是理解和生成过程。目前机器翻译模型面临很多难以解决的问题，首先是双语数据少，还有准确性、篇章、指代、低资源领域和语种、噪声等等问题。这些问题理论和技术上都可以被大模型很好解决。
再回答一下学术界普遍关心的问题，在大模型的时代怎么去做NLP？我总结了12个问题，任何一个问题解决了我认为都具有跨时代的意义。
一、新一代语言模型。Masked LM and GLM建模能力强，但模型的描述能力非常有限，理论上几乎是所有LM中描述能力最弱的模型（除了BOW模型）。下一代可计算性更强、描述能力更强的语言模型是什么？至少不仅仅具有强大生成能力。
二、大模型时代的自然语言的深度理解（NLU）。至少从现在开始，所有的自然语言处理任务都很难绕开大模型。基于连接主义的符号主义方法应该是一个趋势。
三、可信NLP。模型输出结果可信、可验真。
四、安全可靠NLP。价值观、道德、政治、隐私、伦理等。
五、具有复杂推理能力和可解释NLP。连接主义和符号主义相结合的方法。
六、知识建模、获取和使用。模型直接融入结构化知识，或者作为功能插件。
七、具有增量学习、持续学习、人在回路能力的NLP。
八、小模型、模型编辑、领域适应、领域模型、面向特定应用和任务的模型、人类快速可干预。
九、人类意志的学习和对齐（物理、人类系统和信息智能社会的对齐）。
十、NLP引领的多模态大模型。自然语言模态偏向认知，而其他模态偏向感知。除了NLP大模型，多模态大模型更应该以NLP为引领或者基础。
十一、NLP大工程和复杂系统的理念和认知：算法模型、算力、数据、系统工程。
十二、开源、开放、共享、产业、人才、资本、政府、社会……
最后总结一下，一是非常感谢表示学习，有了它之后NLP从离散数学模型进入连续数学模型时代，得到强大的数学工具的支持，比如可导、可微、神经网络等任意连续数学函数；二是注意力和人机对齐机制，注意力拟合NLP的上下文。三是大，模型大、参数多、数据量大，由量变产生质变，涌现出各种能力。但这些才刚刚开始，成绩多，问题更多，我们可做的事情极多。下一代模型的突破将加速发展，真正迈向通用人工智能。我们也期待下一代计算机能够解决算力问题。学、产、研、用、资、政，大家要一起来做。
版权声明
转自AI科技评论，版权属于原作者，仅用于学术分享
相关阅读
【碳中和】珍藏版！22个国内外“碳中和”相关报告合集！
【工业机器人】全球工业机器人详细产业链梳理！
【智能制造】智能制造50大产业链全景图
【智能工厂】智能工厂如何快速落地
【工业技术】航空制造推动新概念机器人发展（上）
【工业技术】航空制造推动新概念机器人发展（下）
【新基建+人工智能生态】全网最火“新基建”生态图谱—人工智能篇（含40个细分领域厂商）
【AI】一文读懂人脸识别技术
【AI】解析 | 人工智能发展及技术架构
【报告】中国人工智能厂商全景报告（附PDF下载）
【AI】（收藏）从 A-Z 全面盘点人工智能专业术语梳理！
【AI】计算机视觉入门大全：基础概念、运行原理、应用案例详解
【AI】一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
【智能仓储】一文带你彻底搞懂智能仓储！
【深度学习】12张高清思维导图，总结深度学习
【神经网络】给初学者们讲解人工神经网络（ANN）
人工智能的基础--知识分类
【AI产业链】120图勾勒全球AI产业完整图谱!
【AI】一文读懂人工智能产业链
【AI】中国人脸识别产业链全景图！
【AI】史上最全的人工智能（AI）产业链地图！
【芯片】国产芯片大全：70个细分领域代表企业
人工智能产业链深度透析—基础层
人工智能产业链深度透析-技术层
人工智能全产业链深度透析--（综合）
人工智能产业链深度透析—产业应用医疗篇
朱松纯 | 人工智能的现状、任务、构架与统一（上）
朱松纯 | 人工智能的现状、任务、构架与统一（中）
朱松纯 | 人工智能的现状、任务、构架与统一（下）
【AI】美国国家人工智能研发战略规划2019
【智慧农业】2018中国农牧家禽行业智慧养殖白皮书
【智慧农业】2019年智慧农业市场调研及前景研究报告（附PDF下载）
【智能家居】我国智能锁产业现状及未来发展趋势分析
【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”
荐：
【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕
【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！
【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明
免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）
编辑：Zero

推荐关注↓↓↓