简介
项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca-3
该项目基于Meta最新发布的新一代开源大模型Llama-3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。
这里我们需要下载的是GGUF格式的模型文件
GGUF是一种二进制格式文件的规范,原始的大模型预训练结果经过转换后变成GGUF格式可以更快地被载入使用,也会消耗更低的资源。原因在于GGUF采用了多种技术来保存大模型预训练结果,包括采用紧凑的二进制编码格式、优化的数据结构、内存映射等。因此采用相应的工具将原始模型预训练结果转换成GGUF之后可以更加高效的使用。
环境配置
Ollama
Ollama是一个轻量级且可扩展的框架,通过提供命令行界面,可以帮助用户在本地电脑上运行、创建和管理大语言模型(LLMs),整体感觉和Docker很像。
项目地址:https://ollama.com/download
Ollama-webui
对应的前端界面,github下载安装即可
git clone https://github.com/ollama-webui/ollama-webui-lite.git
cd ollama-webui-lite
npm install
npm run dev
启动之后如下
模型部署
进入模型文件夹,创建Modelfile文件,用于配置ollama模型,定义了模型路径,聊天模板等信息。文件内容为
FROM ./ggml-model-q8_0.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>"""
SYSTEM """You are a helpful assistant. 你是一个乐于助人的助手。"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"
之后进行模型转换
ollama create llama3-chinese-inst-v3 -f Modelfile
当然,你也可以直接使用ollama上已经制作好的模型:
https://ollama.com/scomper/llama3-zh-inst
ollama pull scomper/llama3-zh-inst
之后直接启动webui或者命令行执行run即可
ollama run scomper/llama3-zh-inst
运行效果如下
同样的,我们也可以用这种方式去部署qwen2等模型
qwen2地址:https://ollama.com/library/qwen2
小结
最终经过对比测试,目前在本机部署qwen-1.5-14b-chat效果最优,根据排行榜能够与gpt3.5效果持平
部署同样直接拉取镜像即可
ollama pull qwen:14b-chat