关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » 算法设计 »Llama 2基于UCloud UK8S的创新应用

    Llama 2基于UCloud UK8S的创新应用

    2023-08-24 13:38:34 出处:IT技术网
    分享

    在上期文章中,我们简要回顾了Llama模型的概况,本期文章我们将详细探讨【关于Llama 2】,你需要知道的那些事儿。

    1、Llama 2的性能有多好?

    作为Meta新发布的SOTA开源大型语言模型,Llama 2是Llama模型的延续和升级。Llama 2家族模型包括了Llama 2预训练模型和Llama 2-chat微调模型,分别有7B、13B和70B参数量的版本,覆盖了不同的应用场景需求。

    1.1 训练数据

    Llama 2在预训练语料上比Llama增加了40%,增至2万亿个token,且训练数据中的文本来源更加的多样化。此外,Llama 2对应的微调模型是在超过100万条人工标注的数据下训练而成。

    图1: Llama 2模型概览 [1]

    1.2 模型评估

    从模型评估上看,Llama 2在众多的基准测试中,如推理、编程、对话能力和知识测验上,都优于一代Llama和现有的开源大模型。

    图2: Llama 2在不同基准测试上的得分

    虽然Llama 2-70B在推理任务上表现接近GPT-3.5,但是在综合性能上还是无法与OpenAI的GPT-4和Google的PaLM-2-L等闭源大模型相媲美,尤其在编程基准上远落后于两者。

    图3: Llama 2,GPT和PaLM三者在不同基准测试上的得分

    2、解锁Llama 2的模型结构

    2.1 Llama 2模型架构

    Llama 2在预训练设置和模型架构上和一代模型非常相似。

    如图4和图5所示,Llama系列模型都使用了自回归Transformer架构,即Transformer's decoder-only架构。两代模型的一致性体现在:

    a. 预归一化(Pre-normalization):对每一个transformer的子层输入都进行归一化,使用RMSNorm归一化函数

    b. SwiGLU激活函数:在前馈神经网络(FFN)使用SwiGLU 激活函数替换了Transformer中的 ReLU 激活函数来提升性能

    c. 旋转嵌入编码(Rotary Positional Embeddings,RoPE):RoPE可以兼顾相对位置和绝对位置的信息以提高模型的泛化能力

    2.2 Llama 2训练亮点

    除了上文提到的训练数据的增加,Llama 2在训练过程方面也有两个亮点值得我们关注。第一,上下文长度的扩大提升了模型的理解能力;第二,分组查询注意力机制提高了模型的推理速度。

    2.2.1 上下文窗口扩大

    Llama 2的上下文长度比Llama扩大了一倍,从2048个token拓展至4096个token。更长的上下文窗口意味着更多的聊天用例可被采用,进而模型的理解能力得以提升。

    2.2.2 Grouped-Query注意力

    在Attention的实现上,Llama 2 30B以上的模型采用了分组查询注意力机制(Grouped-Query Attention,GQA),见图5和图6。

    图6: Llama 2使用GQA [2]

    自回归模型的解码通过缓存序列先前标记的键(K)值(V)对来加速注意力的计算。然而随着Batch Size和上下文窗口的增大,多头注意力模型(Multi-head Attenrion,MHA)的内存成本会随之显著增大。

    图7: "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints" [3]

    GQA的优势在于其将Query进行分组,组内共享KV,这样使得K和V的预测可以跨多个头共享,从而显著降低计算和内存需求,提升推理速度 。

    2.3 Llama 2-chat微调流程

    Meta致力于在偏好数据上训练奖励模型,然后采用强化学习进行优化,从而提高生成的质量。

    2.3.1 SFT + RLHF by RS and PPO

    和InstructGPT类似,在Llama 2-chat对话模型微调流程分为:

    a. 自监督训练后获得Llama 2基座模型

    b. 监督微调(Supervised fine-tuning,SFT)

    c. 人类反馈强化学习(Reinforcement learning with human feedback,RLHF):拒绝采样 + 近端策略优化

    RLHF使用了拒绝采样(Rejection Sampling fine-tuning,RS)和近端策略优化(Proximal Policy Optimization,PPO)两个优化算法。拒绝采样的原理为模型输出时采样K个结果,用当前时刻最好的奖励模型打分,选择奖励值最高的一个。在强化学习阶段进行梯度更新,并结合PPO进行RS加PPO的优化处理。

    图8: Llama 2-chat的微调过程[1]

    Meta一共迭代了5个RLHF版本,分别从V1-V5,但仅公布了最新的V5版本。V5版本迭代的步骤下图所示。

    图9: RLHF-V5迭代流程

    2.3.2 Quality Is All You Need

    Meta使用用户偏好数据训练的两个独立的奖励模型Helpfulness RM和Safty RM,分别对有用性和安全性进行了优化。在SFT的过程中,Llama 2的官方论文[2]着重强调了只需少量高质量的SFT偏好数据就能显著提升结果质量(Quality Is All You Need)。此外,这篇论文也是第一篇指出“RLHF从根本上提高了大模型性能的上限”的论文。

    图10:Llama 2论文中强调的“Quality Is All You Need"[2]

    综上,Llama 2训练流程给我们最重要的一个启示是:

    奖励模型不仅是RLHF的关键,也是整个大模型效果的关键;数据质量又是奖励模型的关键。[4]

    03、Llama 2在UCloud UK8S上的实践

    3.1 下载模型

    3.1.1 下载模型

    从HuggingFace上克隆Llama 2的模型 [5]:https://huggingface.co/meta-llama。本文使用的是Llama 2-chat-7b模型。

    3.1.2 安装WebUI工具

    oobabooga开源的text-generation-webui [6] 一个大模型的可视化工具包,安装方法如下:

    a. 进入Text Generation的github

    (https://github.com/oobabooga/text-generation-webui)

    b. 选择一键安装包安装或者手动安装

    c. 我们将Llama 2模型文件放入text-generation-webui/models目录下,文件结构如下图:

    3.2 构建镜像

    根据Uhub容器镜像库的说明:

    (https://docs.ucloud.cn/uhub/guide)

    1. 首先,在Uhub上创建镜像库

    2. 其次,在云主机创建镜像,并打标

    3. 最后,将云主机镜像推到Uhub中

    3.3 配置UK8S集群

    1. 创建UFS文件系统并挂载。(https://docs.ucloud.cn/ufs/ufs_guide/create)

    2. 创建UK8S容器云。参考文档(https://docs.ucloud.cn/uk8s/),创建集群时,Node的配置可参照下图:

    集群创建之后,点击“详情”按钮,将“外网凭证”拷贝到~/.kube/config文件中。同时,需要安装和配置Kubectl命令行工具。

    (https://docs.ucloud.cn/uk8s/manageviakubectl/connectviakubectl?id=安装及配置kubectl)

    3. 在UK8S中使用UFS

    用创建好的UFS作为UK8S集群的共享存储。

    根据在UK8S中使用UFS文档,创建PV和PVC。

    (https://docs.ucloud.cn/uk8s/volume/ufs?id=在uk8s中使用ufs)

    a. 创建Pod:编写配置文件ufspod.yml

    执行配置文件

    b. 进入Pod

    查询Pod Name:

    在Pod内部启动一个Bash Shell:

    c. 在线推理

    运行server.py文件

    至此,我们就可以在Web端和Llama 2进行对话了。

    本期我们介绍了【关于Llama 2】你需要知道的那些事儿。Llama系列模型由于其体积小且开源的特性,在AI社区的热度和口碑都居于高位,可以预见短期内将有更多基于Llama 2定制化的微调模型和相关服务涌现。

    下期文章我们将聚焦“LangChain+大模型+向量数据库”在云端的部署和推理,敬请期待~

    4、参考文献

    [1] Llama 2 官方公告:https://ai.meta.com/llama/

    [2] Llama 2 官方论文:https://huggingface.co/papers/2307.09288

    [3] "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints " by Google Research:https://arxiv.org/pdf/2305.13245.pdf

    [4] "Llama 2: an incredible open LLM" by Nathan Lambert: https://www.interconnects.ai/p/llama-2-from-meta

    [5] Llama 2 models: https://huggingface.co/meta-llama

    [6] Text generation web UI github: https://github.com/oobabooga/text-generation-webui

    上一篇返回首页 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    抖音安全与信任开放日:揭秘推荐算法,告别单一标签依赖

    ultraedit编辑器打开文件时,总是提示是否转换为DOS格式,如何关闭?

    Cornell大神Kleinberg的经典教材《算法设计》是最好入门的算法教材

    从 Microsoft 下载中心安装 Windows 7 SP1 和 Windows Server 2008 R2 SP1 之前要执行的步骤

    Llama 2基于UCloud UK8S的创新应用

    火山引擎DataTester:如何使用A/B测试优化全域营销效果

    腾讯云、移动云继阿里云降价后宣布大幅度降价

    字节跳动数据平台论文被ICDE2023国际顶会收录,将通过火山引擎开放相关成果

    这个话题被围观超10000次,火山引擎VeDI如此解答

    误删库怎么办?火山引擎DataLeap“3招”守护数据安全

    IT头条

    平替CUDA!摩尔线程发布MUSA 4性能分析工具

    00:43

    三起案件揭开侵犯个人信息犯罪的黑灰产业链

    13:59

    百度三年开放2.1万实习岗,全力培育AI领域未来领袖

    00:36

    工信部:一季度,电信业务总量同比增长7.7%,业务收入累计完成4469亿元

    23:42

    Gartner:2024年全球半导体营收6559亿美元,AI助力英伟达首登榜首

    18:04

    技术热点

    iOS 8 中如何集成 Touch ID 功能

    windows7系统中鼠标滑轮键(中键)的快捷应用

    MySQL数据库的23个特别注意的安全事项

    Kruskal 最小生成树算法

    Ubuntu 14.10上安装新的字体图文教程

    Ubuntu14更新后无法进入系统卡在光标界面解怎么办?

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。