Replica Watches: 跨境电商资讯：一键解锁ChatGPT原理

一键解锁ChatGPT原理与应用

"如何充分发挥ChatGPT潜能，成为了众多企业关注的焦点。但是，这种变化对员工来说未必是好事情。IBM计划用AI替代7800个工作岗位，游戏公司使用MidJourney削减原画师人数……此类新闻屡见不鲜。理解并应用这项新技术，对于职场人来说重要性与日俱增。"

一、GPT模型原理

理解原理是有效应用的第一步。ChatGPT是基于GPT模型的AI聊天产品，后文均简称为GPT。

从技术上看，GPT是一种基于Transformer架构的大语言模型（LLM）。GPT这个名字，实际上是"Generative Pre-trained Transformer"的缩写，中文意为"生成式预训练变换器"。

1. 大模型和传统AI的区别是什么？

传统AI模型针对特定目标训练，因此只能处理特定问题。例如，很会下棋的AlphaGO。

而自然语言处理（NLP）试图更进一步，解决用户更为通用的问题。可以分为两个关键步骤：自然语言理解（NLU）和自然语言生成（NLG）。

从原理到应用，人人都懂的ChatGPT指南

以SIRI为代表的人工智能助手统一了NLU层，用一个模型理解用户的需求，然后将需求分配给特定的AI模型进行处理，实现NLG并向用户反馈。然而，这种模式存在显著缺点。如微软官方图例所示，和传统AI一样，用户每遇到一个新的场景，都需要训练一个相应的模型，费用高昂且发展缓慢，NLG层亟需改变。

一键解锁ChatGPT原理与应用

大型语言模型（如GPT）采用了一种截然不同的策略，实现了NLG层的统一。秉持着"大力出奇迹"的理念，将海量知识融入到一个统一的模型中，而不针对每个特定任务分别训练模型，使AI解决多类型问题的能力大大加强。

从原理到应用，人人都懂的ChatGPT指南

2. ChatGPT如何实现NLG？

AI本质上就是个逆概率问题。GPT的自然语言生成实际上是一个基于概率的"文字接龙"游戏。我们可以将GPT模型简化为一个拥有千亿参数的"函数"。当用户输入"提示词（prompt）"时，模型按照以下步骤执行：

将用户的"提示词"转换为token（准确地说是"符号"，近似为"词汇"，下同）+token的位置。
将以上信息"向量化"，作为大模型"函数"的输入参数。
大模型根据处理好的参数进行概率猜测，预测最适合回复用户的词汇，并进行回复。
将回复的词汇（token）加入到输入参数中，重复上述步骤，直到最高概率的词汇是【END】，从而实现一次完整的回答。

这种方法使得GPT模型能够根据用户的提示，生成连贯、合理的回复，从而实现自然语言处理任务。

从原理到应用，人人都懂的ChatGPT指南

3. 上下文理解的关键技术

GPT不仅能理解用户当前的问题，还能基于前文理解问题背景。这得益于Transformer架构中的"自注意力机制（Self-attention）"。该机制使得GPT能够捕捉长文本中的依赖关系。

通俗地说，GPT在进行文字接龙判断时，不仅基于用户刚输入的"提示"，还会将之前多轮对话中的"提示"和"回复"作为输入参数。然而，这个距离长度是有限的。对于GPT-3.5来说，其距离限制为4096个词汇（tokens）；而对于GPT-4，这个距离已经大幅扩展至3.2万个tokens。

4. 大模型为何惊艳？

我们已经介绍了GPT的原理，那么他是如何达成这种神奇效果的呢？主要分三步：

自监督学习：利用海量的文本进行自学，让GPT具备预测上下文概率的基本能力。
监督学习：人类参与，帮助GPT理解人类喜好和期望的答案，本质为微调（fine-tune）。
强化学习：根据用户使用时的反馈，持续优化和改进回答质量。

其中，自监督学习最关键。因为，大模型的魅力在于其"大"——大在两个方面：：

训练数据量大：即训练大模型的数据规模，以GPT-3为例，其训练数据源为互联网的各种精选信息以及经典书籍，规模达到了45TB，相当于阅读了一亿本书。
模型参数量大：参数是神经网络中的一个术语，用于捕捉数据中的规律和特征。通常，宣称拥有百亿、千亿级别参数的大型模型，指的都是其参数量。

追求大型模型的参数量是为了利用其神奇的"涌现能力"，实现所谓的"量变引起质变"。

举例来说，如果要求大模型根据emoji猜电影名称，如👧🐟🐠🐡代表《海底总动员》。可以看到，当模型参数达到千亿级别时，匹配准确度大幅度提升。这表明模型参数量的增加对提高模型表现具有重要意义。

从原理到应用，人人都懂的ChatGPT指南

处理其他多类型任务时，也有类似的效果：

从原理到应用，人人都懂的ChatGPT指南

如实验所揭示的，只有当模型参数达到千亿级别，大模型的优势才得以凸显。GPT之外的其他大模型，也有类似的表现。

为什么？

目前主流观点认为，要完整完成一个任务，实际上需要经过很多子步骤。当模型大小不足时，大语言模型无法理解或执行所有步骤，导致最终结果不正确，达到千亿级参数时，其解决问题的全链路能力已经足够。人们以最终结果的正误作为评判标准，导致认为是一种"涌现"。

在"涌现"问题上，人与猩猩的比喻很有趣。人类的大脑容量比猩猩大3倍，这种差异使得人类能够进行更复杂的思考、沟通和创造。两者的结构没有显著差异，这不也是"涌现"吗？

GPT-3.5正是千亿模型，参数达到了1750亿。相较于GPT-3，GPT-3.5主要针对模型参数进行了微调，使其在问答时更符合人类的习惯。据悉，GPT-4的模型参数量甚至达到了GPT-3.5的五倍之多，这也解释了为何GPT-4表现得如此聪明（体验过的人应该都能理解）。下面是GPT模型演进历史：

从原理到应用，人人都懂的ChatGPT指南

二、GPT的局限性

综上，GPT模型具有明显的、突破性的优势。典型的优势包括：①强大的语言理解能力；②极为广泛的知识储备；③学习能力与推理能力等等。这些能力让人们感觉人工智能真正拥有了"脑子"，想象着使用GPT解决一切问题。

然而，若真的要深入应用该技术，有必要了解其局限性，以便在实际应用中取长补短。主要总结六大局限：

1. 逻辑不透明

GPT模型的回答本质上是概率。传统的软件开发中，接口的输入和输出参数都是确定的，而在给定输入参数（即提示词）的情况下，GPT的回复却有一定随机性。

当大家将ChatGPT作为聊天工具使用时，这种不精确可以是用户的谈资；当涉及到商业化软件应用时，设计时就需要特别注意降低不确定性，在大部分产品场景下，用户都很重视确定性。

2. 短期记忆差

得益于自注意力机制，ChatGPT具备了多轮对话能力。然而，它的记忆长度相当有限，GPT-3.5模型仅支持向前追溯4096个tokens用于回复的参考。

更糟糕的是，这4096个tokens还包括ChatGPT之前回复用户的部分！这使得其捉襟见肘的记忆更加难堪，堪称电子金鱼。好在GPT-4已经将上下文token上限扩展至3.2万个，一定程度上缓解了这个问题。

从原理到应用，人人都懂的ChatGPT指南

3. 资源消耗多

ChatGPT的智能需要消耗大量算力，而运行大规模高端显卡需要消耗大量电力。在五年之内，依靠半导体制程的进一步升级和大模型的广泛应用，算力与电力的边际成本将逐渐转变为固定成本，也就解决了本问题。

4. 响应速度慢

由于模型极大，GPT在回复时也� �法做到瞬时响应，正如用户实际体验，ChatGPT是逐词回复的。企业在设计相关产品时需要特别关注应用场景：

需要避免将GPT用于高并发的场景，本服务依赖的接口调用并发上限非常低。
产品设计上避免用户急切需要结果的应用场景，确保用户能够"等得起"。

5. 行业认知浅

诚然，ChatGPT拥有来自互联网和经典书籍的丰富知识。然而，真正的企业级专业知识往往源于特定领域的深入研究和实践，这些真知灼见无法仅凭互联网上的知识获取。因此，若希望GPT充当企业参谋，只能帮助梳理战略框架，但难以为企业提供颇具洞察的策略建议。

6. 价值未对齐

在自监督学习阶段，GPT训练数据英文占比高达92%。
在监督学习阶段，传授道德观的工程师主要来自英语世界。
在强化学习环节，也可能受到恶意用户输入错误价值观的影响。

因此，GPT的"精神内核"是以西方价值观为基石的，这可能导致生成的文字难以符合我国的文化背景和价值观。

三、GPT的多层应用指南

在深入了解GPT模型的原理、及局限性之后，终于可以看看怎么用好这项技术了。我按照感知其能力的直观性，由浅入深将其分为五层，逐层进行介绍。

从原理到应用，人人都懂的ChatGPT指南

第一层：聊天能力

在此类用法中，GPT的回答就是给客户的交.........

"如何充分发挥ChatGPT潜能，成为了众多企业关注的焦点。但是，这种变化对员工来说未必是好事情。IBM计划用AI替代7800个工作岗位，游戏公司使用MidJourn…

原文转载：https://www.kjdsnews.com/a/1431061.html

新手卖家需知，亚马逊FBA是什么？有哪些好处？：https://www.ikjzd.com/articles/147722
让亚马逊产品获得更多的曝光的关键词写法：https://www.ikjzd.com/articles/147727
夏日暑季选品排雷，这两款有风险：https://www.ikjzd.com/articles/147729
拿号排队！全美最火科技类博主，开箱即爆款：https://www.ikjzd.com/articles/147734
宠物赛道持续火热，宠物电商再获融资：https://www.ikjzd.com/articles/147738
再也不浪费广告费第二弹，设置Facebook广告预算那些事儿：https://www.ikjzd.com/articles/147739
万色：https://m.ikjzd.com/w/2382
巴克莱银行：https://m.ikjzd.com/w/3313
亚马逊：https://www.ikjzd.com/search?keyword=亚马逊
3步让你快速找到小红书蓝海词：https://www.kjdsnews.com/a/1431060.html
一键解锁ChatGPT原理与应用：https://www.kjdsnews.com/a/1431061.html

Replica Watches

2023-05-10

跨境电商资讯：一键解锁ChatGPT原理

一、GPT模型原理

1. 大模型和传统AI的区别是什么？

2. ChatGPT如何实现NLG？

3. 上下文理解的关键技术

4. 大模型为何惊艳？

二、GPT的局限性

1. 逻辑不透明

2. 短期记忆差

3. 资源消耗多

4. 响应速度慢

5. 行业认知浅

6. 价值未对齐

三、GPT的多层应用指南

第一层：聊天能力

No comments:

Post a Comment