网络安全类任务大模型微调个人推荐

大模型哲学：能prompt就prompt，能few shot就few shot，实在不行在微调。

先看榜单，Open LLM 排行榜是 Hugging Face 设立的一个用于评测开放大语言模型的公开榜单。

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard，在这个榜单上目前排名第一的是基于qwen72B微调出来的。

网络安全类任务大模型微调个人推荐

#常见任务

中文RAG

做RAG用通用模型就可以，在中英文方面用qwen72B效果是不错的，上下文长度32k，command-r-plus也支持中文，模型大小104B，⇲https://huggingface.co/CohereForAI/c4ai-command-r-plus，上下文长度：128K

Agent/Function Call

主要是意图指令识别，推荐qwen1.5系列14B和70B，qwen系列对json的支持比较好，llama3也可以试试

网络安全垂直领域对话大模型

主要基于安全社区文章，安全问答，漏洞等数据做网络安全垂直领域大模型

小参数可以4xA100全量微调和lora微调，大参数4xA100可以lora微调

小参数推荐：Mistral 7B，qwen1.5 2B，7B，14B，Mistral模型微调效果非常惊艳，但是词表中文少，中文回答可能字会不够。qwen模型参数大小选择很多，小模型可以在一些没有gpu的机器上运行，模型效果稍弱mistral。

大参数推荐：Mixtral-8x22B 和 qwen72B 和 c4ai-command-r-plus，还有新出的llama3 70B，这类开源的参数级可选择就这么多，llama3还没试，主要推荐c4ai-command-r-plus，效果堪比GPT3.5，再lora预训练和sft一下安全知识，推理能力非常强。也可以基于yi-33B 200k微调对话模型，但是准备的数据需要很多，用33B主要是int4量化后可以在一个4090/3090上跑。

代码类任务模型

用的比较多的是codegen和deepseek-coder，中英文支持都不错，codegen是比较老的模型，但是few shot效果就很不错，few shot效果不错的模型微调起来效果都很好。deepseek-coder是比较新的模型，支持的参数量级最高到33B，应该是开源代码模型里面参数级别最高的，codellama也有30B和70B，效果不太好。

•代码审计类任务：deepseek-coder 7B，33B，codegen 7B
•代码解释任务：deepseek-coder 7B，33B，codegen 7B
•代码修复：deepseek-coder 7B，33B，codegen 7B

参数量级越高效果越好。

日志分析

把日志做成sft数据，类型要多，每类大概500+就有很不错的效果

推荐：c4ai-command-r-plus和llama3 70B

流量分析

可以预训练一些流量数据，然后把流量做成sft数据，类型要多，每类大概200+就有很不错的效果

推荐：c4ai-command-r-plus和llama3 70B

#微调手段

看资源，GPU够能全量就全量，不够就lora，Qlora。

网络安全类任务大模型微调个人推荐

#量化效果

fp32=fp16>bf16>ggml w8>ggml w4>=gptq w4>gptq w3

#量化与显卡占用

基于vllm，2块4090就能跑量化后的72B模型，接近3.5的能力，实现token自由。

网络安全类任务大模型微调个人推荐

#其他

•部署：vllm
•本地环境：ollama，lmstudio

xxx

xxx站点

网络安全类任务大模型微调个人推荐

#微调手段

#量化效果

#量化与显卡占用

#其他