由于其令人惊叹的功能,Transformer 作为自然语言处理 (NLP) 的辅助技术现在正经历着巨大的流行。最近,OpenAI 和 AlphaStar 也对 AI Transformer 模型进行了改造,并将其用于他们的语言模型中。与响应输入的传统方法相比, 采用 Transformer 模型开发模型彻底改变了聊天机器人的翻译、理解情感、生成文本等能力。
Transformers 的最大潜力可以在OpenAI、LaMDA 的 ChatGPT 模型,甚至流行的开源模型 BigScience 大型开放科学开放多语言模型(BLOOM)中体验到。
接下来,在这篇博客中,我们将分解 AI Transformer 模型开发,以更好地理解其运作方式。但首先,我们将从了解自然语言处理 (NLP) 模型开始,以弄清楚 AI Transformer 模型在使 NLP 和 AI 聊天机器人更加高效和强大方面的作用是什么。让我们开始!
在 Transformer 模型之前解码自然语言处理 (NLP) 在将任何文本输入神经网络之前,输入都会转换为一组数字。这种将输入转换为数字的过程称为嵌入。然而,输入的转换版本并没有失去其原始特征,例如文本的情感、单词之间的关系等。要回答什么是自然语言处理(NLP),简单来说,它是可以被称为人工智能或计算机科学的一个分支。 该模型旨在赋予计算机理解、说话和记住口头或书面单词的能力。NLP 是深度学习、机器学习、统计模型和人类语言之间的融合。该技术可以帮助任何计算机理解文本的情感,甚至可以帮助计算机将多个对话片段相互连接起来,以更加人性化的方式做出回应。目前,NLP已在全球AI聊天机器人行业流行起来,品牌商也期待尽快采用该技术。
AI Transformer 模型的前身:RNN、LSTM 网络和 CNN 现在,在 Transformer 神经网络成为现实之前,已经有循环神经网络 (RNN)、长短期记忆网络 (LSTM 网络) 和卷积神经网络 (CNN) 为 NLP 模型提供支持。 循环神经网络 (RNN) RNN 被设计为人工神经网络的一部分,用于处理顺序数据。RNN 每次处理任何输入时都会保留信息,这有助于它们更好地回答新输入。每次网络接收到新输入时,这些信息都会用新数据进行更新以保留,这就是使用 RNN 的模型如何随着时间的推移不断改进,因为它更好地理解用户。RNN 能够利用单词之间的模式和关系来捕获长期序列。 长短期记忆 (LSTM) 网络 LSTM 网络是 RNN 的变体,它与记忆单元和门控机制相结合。使用记忆单元,LSTM 网络能够记住长序列中的信息,从而能够跟上连续的对话。 上图由走向数据科学的图片详细解释了这一点。输入信息在处理输出之前会经过存储单元,在存储单元中进行转换和记忆。如果单词之间存在关系,记忆细胞会选择值得记住的信息并使用它来操作下一组输入。 为了正确分解,LSTM 模型包括三个门: