什么是大语言模型？

Published 2023年 9月 26日 •

大语言模型（LLM）是一种利用机器学习技术来理解和生成人类语言的人工智能模型。对于希望从各个方面增强通信和数据处理并实现自动化的企业和机构而言，LLM 具有极高的价值。

LLM 使用基于神经网络的模型，通常运用自然语言处理（NLP）技术来处理和计算其输出。NLP 是人工智能（AI）的一个分支领域，专注于使计算机能够理解、解释和生成文本，从而让 LLM 能够执行文本分析、情绪分析、语言翻译和语音识别等任务。

LLM 使用一种被称为无监督学习的方法来理解语言。这个过程要向机器学习模型提供大规模的数据集，其中包含数百亿个单词和短语，供模型学习和模仿。这种无监督的预训练学习阶段是开发 LLM（如 GPT-3（Generative Pre-trained Transformer ）和 BERT（Bidirectional Encoder Representations from Transformers）的基本步骤。

换言之，即使没有明确的人类指令，计算机也能从数据中提取信息，建立联系并“学习”语言。模型通过学习语言中单词如何组合在一起的模式来理解语法和结构，之后，它就可以根据概率预测句子应采用的结构。最终就能形成一个能够捕捉单词和句子之间复杂关系的模型。

LMM 需要许多资源

由于 LLM 会不断计算来找到不同语言元素之间的联系，因此需要大量计算资源。它们获取计算能力的一大来源是图形处理单元（GPU）。GPU 是一种专门用于处理复杂并行处理任务的硬件，非常适合需要大量计算的 ML 和深度学习模型，如 LLM。

LLM 和 Transformer

GPU 也有助于加速 Transformer 的训练和运行，Transformer 是一种专门为大多数 LLM 所实施的 NLP 任务设计的软件架构。Transformer 是流行的 LLM 基础模型（如 ChatGPT 和 BERT）的基本构建块。

Transformer 架构通过有效捕捉数据序列中元素（如句子中的单词）之间的上下文关系和依赖关系，增强机器学习模型的能力。它通过使用自注意力机制（也称为参数）来实现这一点，使模型能够权衡序列中不同元素的重要性，从而加强其理解和性能。各个参数定义了边界（即自注意机制中的权重和关注程度），而边界对于理解深度学习算法必须处理的大量数据至关重要。

Transformer 架构涉及数百万或数十亿个参数，这些参数使它能够捕捉复杂的语言模式和细微差别。事实上，“大语言模型”中的“大”字指的就是运行 LLM 所需的大量参数。

LLM 和深度学习

引导 LLM 无监督学习过程的 Transformer 和参数都是一个更宽泛的结构——深度学习——的组成部分。深度学习是用来训练计算机以模拟人脑的算法来处理数据的人工智能技术。深度学习技术也称为深度神经学习或深度神经网络，旨在让计算机通过观察来学习、模仿人类获取知识的方式。

人脑中有很多相互连接的神经元，当大脑处理信息（或数据）时，这些神经元就负责传递信息。神经元之间通过电信号和化学物质相互作用，并在大脑的不同区域之间传递信息。

人工神经网络（ANN）是模仿这种生物学现象而构成的，是深度学习所依托的底层架构，然而，ANN 使用的是人工神经元而不是生物神经元，这些人工神经元是由称为节点的软件模块构成的。这些节点使用数学计算（而不是大脑中的化学信号），在模型内进行通信和传递信息。

了解大型语言模型（LLMs）的运作方式

最新的 LLM 可以理解和使用语言，这在过去是个人电脑所无法企及的。这类机器学习模型可以生成文本，归纳内容，以及进行翻译、重写、归类、分类和分析等。所有这些能力都为人类提供了一个强大的工具集，增强了我们的创造力，并且提高了解决难题的效率。

LLM 在业务环境中的一些常见用途包括：

自动化和效率

LLM 可以帮助补充或完全承担与语言相关的任务，如客户支持、数据分析和内容生成。这种自动化可以降低运维成本，同时为更具战略性的任务腾出人力资源。

生成见解

LLM 可以快速扫描大量文本数据，使企业能够通过抓取社交媒体、评论和研究论文等来源，更好地了解市场趋势和客户反馈，这反过来又有助于为业务决策提供信息。

创造更出色的客户体验

LLM 可帮助企业向客户提供高度个性化的内容，加强客户互动并改善用户体验。这可以表现为实施一个聊天机器人来提供全天候客户支持，根据特定用户角色定制营销信息，或者促进语言翻译和跨文化交流。

大语言模型的挑战和局限

虽然在业务环境中使用 LLM 有许多潜在优势，但也有潜在的局限性需要考虑：

成本
LLM 需要大量资源来开发、训练和部署。这就是为什么许多 LLM 都是从基础模型构建而来，后者已经预先训练了 NLP 能力并可提供对语言的基准理解，因此从中可以构建更复杂的 LLM。
隐私和安全
LLM 需要访问大量信息，有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问，那就必须特别谨慎小心。
准确性和偏见
如果深度学习模型使用的训练数据存在统计学上的偏差，或者不能准确表示总体，则输出就可能存在缺陷。不幸的是，现有的人类偏见通常会传导到人工智能上，从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用人工智能来提高生产力和性能，至关重要的是制定相关策略，来尽量减少偏见。这要一开始就有包容性的设计，并且要更深远地考虑对所收集的数据是否代表足够的多样性。

从医疗卫生到金融服务，从电信通讯到汽车制造，各行各业都涌现了具有颠覆性的 AI/ML 用例。我们的开源平台和强大的合作伙伴生态系统可为面向 AI 驱动的智能应用创建、部署和管理 ML 及深度学习模型提供完整的解决方案。

作为混合云和多云容器开发平台的领导者，红帽® OpenShift® 支持数据科学家和软件开发人员之间开展协作。它可加速跨混合云环境（从数据中心到网络边缘再到多个云）推出智能应用。

借助红帽 OpenShift AI，企业可以访问所需的资源，来快速开发、训练、测试和部署容器化机器学习模型，不必费心去设计和部署 Kubernetes 基础架构。用户可以在本地或通过云服务使用 OpenShift 的原生 GPU 加速功能，更可靠地进行扩展以训练基础模型。

红帽 Ansible® Lightspeed 加 IBM watsonx Code Assistant 是一种生成式 AI 服务，可协助开发人员更加高效地创建 Ansible 内容。它可读取用户输入的简单英语，再通过与 IBM watsonx 基础模型交互，为自动化任务生成代码建议，然后用于创建 Ansible Playbook。在红帽 OpenShift 上部署 Ansible Lightspeed，可通过智能自动化和编排来缓解 Kubernetes 中的艰巨任务。

电子书：利用红帽 OpenShift 发展 AI/ML

扩展阅读

文章

什么是生成式 AI？

生成式 AI 依赖基于大型数据集训练的深度学习模型来创建新内容。

文章

什么是机器学习？

机器学习是一项训练计算机找到模式、做出预测并从经验中学习且无需明确编程的技术。

文章

什么是基础模型？

基础模型是一种经过预训练的机器学习（ML）模型，能够执行一系列的任务。

AI/ML 的更多信息

产品

围绕 AI 打造的产品组合可提供工具来训练、调优、提供、监控和管理红帽 OpenShift 上的 AI/ML 实验和模型。

一个企业级应用平台，包含一系列统一经过测试的服务，可基于您选择的基础架构将应用推向市场。

搭载 IBM watsonx Code Assistant 的红帽 Ansible Lightspeed 是一项生成式 AI 服务，由 Ansible 自动化构工作者、运维人员和开发人员专为自动化同行们设计而成。

资源

构建生产就绪型 AI/ML 环境的首要考虑因素

适用于 MLOps 的红帽混合云平台的总体经济影响™

借助开源和 Kubernetes 充分挖掘 AI 的价值

产品组合

红帽赋能 AI

电子书

利用 AI 和 ML 推动业务发展

博客文章

什么是 AI/ML？它为什么对业务至关重要？

合作伙伴

探索红帽的 AI 合作伙伴生态系统

成功案例

加利西亚银行加速客户入驻

平台产品

试用与购买

精选云服务

类别

机构类型

客户案例

服务

培训 & 认证

特色产品

主题

文章

了解更多

面向客户

面向合作伙伴

关于红帽

开源

公司信息

社区

建议

选择语言

选择语言

借助红帽 OpenShift AI 在任何环境中更快地启动 AI

LMM 需要许多资源

LLM 和 Transformer

LLM 和深度学习

自动化和效率

生成见解

创造更出色的客户体验

大语言模型的挑战和局限

扩展阅读

什么是生成式 AI？

什么是机器学习？

什么是基础模型？

产品

相关文章

资源

产品

工具

试用购买与出售

沟通

关于红帽

选择语言

Red Hat legal and privacy links

Red Hat legal and privacy links