AI 安全学习索引
目录
下面内容仅为个人学习总结,非机器学习专业,也非安全专业科班,难免有些理解偏差,欢迎联系 @spark-go 修正。
模型相关
模型开发生命周期
- 硬件环境准备:GPU 更适合 DL 等开发,但条件受限下也可以使用 CPU 来训练
- 软件环境:
- 一体化 Python 环境管理工具 Anaconda,可以方便获得下列所有东西
- 开发语言通常为 Python
- 会用到 Pandas、Pytorch、TensorFlow、NumPy、SciPy 等 Python 库。安装这些库会用到 pip、uv 等工具
- 为了保证不同环境的依赖不冲突,需要使用 conda
- 开发环境:Jupyter Notebook、VS Code 等
- 训练数据
- 三种类型:
- 训练数据集
- 验证数据集:用于调整模型超参数和评估模型性能的数据集。它通常在训练过程中使用,用于防止过拟合。
- 测试数据集:在模型训练和验证完成后使用,用于评估模型在完全未见过的数据上的表现。
- 通过 Huggingface、PapersWithCode、Modelscope 等平台可以获得公开的数据集进行模型训练
- 三种类型:
深度学习模型
MLP 多层感知机
AE 自编码器
CNN 卷积神经网络、RNN 循环神经网络
LSTM 长短记忆网络
Transformer 神经网络
GAN 生成对抗网络
- 模型框架及模型文件
- TensorFlow:使用 .ckpt 及 savedmodel 格式保存模型
- Keras:使用 h5 或 hdf5 格式保存模型
- PyTorch:使用 .pt 或 pth 格式保存模型
- 其他:.json 格式、.pb 格式、.bin 格式
- 使用模型
- 通过 Python、TensorFlow、PyTorch 等直接 load 模型使用
- 通过封装的工具加载模型然后提供 API(比如 Xinference),应用通过 API 形式访问
- 模型托管在 Huggingface 等 SaaS 平台,应用通过 API 形式访问
开发阶段的安全风险
下面有些问题在模型开发阶段被植入,在后期模型运行时产生影响。
- 数据投毒:
- 训练模型时使用的数据集可能存在一些恶意信息,比如错误的 URL、恶意内容等。会导致模型输出恶意内容。
- 模型反序列化攻击:
- 模型中嵌入恶意命令,导致在加载模型时执行这些命令,从而引发远程代码执行攻击。
- 需要了解上一章节不同模型格式及其可能带来的风险。详细介绍见:https://protectai.com/insights/knowledge-base/deserialization-threats/PAIT-ARV-100
- Github 上也有如何制作恶意模型的示例:https://github.com/protectai/modelscan/tree/main/notebooks
- 模型后门
- 模型架构后门
- 一种新型的后门攻击方式,通过在神经网络的架构中植入特定的触发器(trigger),使得模型在接收到特定输入时表现出攻击者预定义的行为。
- 举例:一个图形识别模型,在识别到特定的图案时,识别准确度下降
- 详细介绍见:
防护工具
Protect AI ModelScan:Protect AI 开源的小工具(Protect AI 拟被 Palo Alto Networks 收购),通过 CLI 来扫描模型中潜在的后门。Protect AI 也提供商业版 Guardian 模型安全,此工具已经和 Huggingface 做了对接,Huggingface 上很多模型会通过 Guardian 进行扫描。
相关链接:
大模型在企业的应用及技术栈
类别 | 主要用途 | 常见名词 | 常见产品举例 | 底层运行平台 |
---|---|---|---|---|
大模型 | 理解用户问题基于知识库/或者直接回答用户问题生成调用外部工具的参数 | Large Language Model(LLM)、Visual Language Model(VLM) | Qwen/Qwen3-14B、deepseek-ai/DeepSeek-R1、meta-llama/Llama-3.3-70B-Instruct | ollama、vLLM、Xinference、LM Studio、AnythingLLM |
知识库 (AI 应用) | 基于企业文档/模型外的数据来回答用户问题 | Retrieval-Augmented Generation(RAG)、知识图谱 Knowledge Graph、Vision-based RAG | Ragflow、MaxKB、Graph RAG、VisRAG | 需要应用+各种模型来实现 |
嵌入式模型 | 替代基于关键词的检索,转而使用语义/特征进行检索需要将文本转成向量后再进行检索 | Embedding Model | BAAI/bge-large-zh-v1.5、jinaai/jina-embeddings-v2-base-en、Qwen/Qwen3-Embedding-8B | ollama、vLLM、Xinference、Python |
向量数据库 | 存储上述模型向量后的数据 | Vector DB | ElasticSearch、Milvus、Weaviate | Docker、VM |
重排序模型 | 在完成检索后,对检索内容进行排序,提高检索精度 | Rerank | BAAI/bge-reranker-large、Qwen/Qwen3-Reranker-8B | ollama、Xinference、Python |
AI 平台/框架 | 方便开发者快速创建 AI 应用 | AI 编排、AI工作流、RAG | Dify、N8N、CozeGoogle ADKLangChain、LangGraph | Docker、Kubernetes、Python |
文字转语音 | 给 AI 应用加上嘴 | Text-to-Speech(TTS) | Edge-TTS、ChatTTS、F5-TTS、CosyVoice | XinferencePython |
语音转文字 | 给 AI 应用加上耳朵 | Automatic Speech Recognition(ASR) | DeepSpeech、Whisper、Wav2Vec | XinferencePython |
数字人 | 给 AI 应用加上脸 | Digital Human | Heygem.ai、HunyuanVideo-Avatar | 前端一般使用 Python、Node.js 等构建 |
很多应用是上面技术的拼凑(具体有可能会有其他更先进的技术):
- 客服机器人= App+LLM+知识库(可选)+内部其他系统的访问(可选)
- 语音客服机器人= 客服机器人+TTS/ASR
- 深度检索 = App + LLM + 联网搜索
- 编程助手 = App + LLM + 执行多种命令/任务
- SaaS 服务的 Copilot = App + LLM + SaaS 服务特定的数据放在 RAG 中
AI Agent
Agent 的能力:
- 理解任务:理解用户的目标
- 分解任务(Plan):以目标为导向,推导完成目标需要做的事情
- 执行任务(Act):执行上面一个个任务,同时进行测试
- 完成任务
经常有很多讲 AI Agent 和 Workflow 区别的文章,但不能因为 Agent 更”智能“点就用这种架构。”智能“带来的是开销大、慢、不可预期,在不同场景下 Workflow 和 Agent 有各自的优缺点,也可能两者结合使用,并没有谁替代谁的关系。
Agent 的组成模块(实际落地不一定所有模块都需要):
- 大脑 – LLM
- 记忆 – 历史对话信息,分长期记忆和短期记忆,其中短期记忆可以通过给 LLM 传递上下文实现,长期记忆可以存储在向量数据库中
- 任务指示 – 提示词
- 获得外部数据 – 帮大模型得到最新的/专有的知识
- 调用外部工具 – Tools
Agent 的一些常见形态:
- 基于 PC 客户端
- 典型代表:Cline, Cursor, Windsurf, Claude Desktop, …
- 本地客户端调用外部大模型,可以调用本地的各种资源,比如创建文件,执行命令等,也通过 MCP 集成各种更多的本地或者远端工具
- 基于服务器,云端交付
- 典型代表:Manus,扣子空间
- 浏览器访问,不依赖本地任何资源,在云端启动 container,完成computer use 和 browser use 等,本地资源需要上传到服务器,才能使用
- 特殊用途的 Agent
- 比如企业客服机器人,使用 Agent 架构自主进行任务执行,但会限制 Agent 的能力范围和调用的工具(这样也会比较安全)
关于 MCP
- 如果你是一个工具开发者,现在有非常多个 Agent 框架,我应该适配哪一个?
- 成年人选择都要,MCP 刚好可以解决这个问题
- 如果一个 Agent 有成百上千个工具,如何对接才能高效?
- 当工具很多的时候,工具治理就出现了,加上 MCP 这个大方向,MCP Router/Runtime+MCP Registry 可以解决这些问题
MCP 的一些生态(MCP Server 相关)
平台名称 | 描述 | MCP Server Registry | 多 MCP Server 管理和路由 | MCP 运行托管服务 | 集成式 Agent 服务 | MCP Security Scanning |
---|---|---|---|---|---|---|
Smithery.ai | 一体化 MCP 服务平台,类似于 Huggingface | 提供 | 仅托管服务 | 提供 | 无 | 集成 invariantlabs.ai,进行代码风险扫描 |
Modelscope 魔搭社区 | 从模型配套服务到MCP 服务 | 提供,类似Smithery | 无 | 提供,类似Smithery | MCP 实验场 | 无 |
mcp.so | 一体化 MCP 服务平台,类似于 Huggingface | 提供,类似Smithery | 无 | 提供,类似Smithery | 无 | 无 |
MCP 官方 Github 仓库 | MCP Server 代码 Github 仓库 | 提供基础的代码托管 | 无 | 无 | 无 | 无 |
mcpserverhub.com | MCP Server hub | 仅提供索引服务 | 无 | 无 | 无 | 无 |
Mcpm.sh | 国内创业团队作品,CLI 工具 | 提供 | 提供,支持本地化部署 | 无 | 无 | 无 |
mcp.higress.ai | 阿里的 MCP Marketplace | 提供 | 无 | 无 | 无 | 无 |
Nacos 3.0 | 阿里开源的注册中心 | 集成在 Nacos | Nacos-MCP-Router | N/A | N/A | N/A |
AI 及 MCP 安全
AI 安全风险,可以先看看一些案例,会更容易理解攻击的完整回路:
- 恶意工具利用:https://jfrog.com/blog/prompt-injection-attack-code-execution-in-vanna-ai-cve-2024-5565/
- Agent 记忆投毒:https://www.microsoft.com/en-us/security/blog/2025/04/24/new-whitepaper-outlines-the-taxonomy-of-failure-modes-in-ai-agents/
- 微软 AI 零点击(Zero-Click)漏洞:https://www.aim.security/lp/aim-labs-echoleak-blogpost
- 搜索引擎投毒:https://www.binance.com/en/square/post/16660778088634
其他一些汇总性的介绍:
- 大模型安全整理,含 OWASP LLM Top10 介绍:https://mp.weixin.qq.com/s/4XOTLaSVGfxB2KOIfgF4qA
- MAESTRO 安全框架中的示例: https://mp.weixin.qq.com/s/RdPeEr7VH0ogrqUpk_uM-g
- LLM越狱攻击与防御框架:https://mp.weixin.qq.com/s/aF5mj98syzcsK7sNrzZpxw
- 大模型及多智能体系统安全⻛险分析和洞察:https://mp.weixin.qq.com/s/IREFqPhnLChOjm-5s6YtLw
- Prompt 越狱手册:https://mp.weixin.qq.com/s/ZASZ_nPKxD5UcbvpWEhduw
- 提示词注入检测示例:https://mp.weixin.qq.com/s/Q_VoL-WxF2QpmCqF0_dknw
MCP 安全风险:
- MCP 工具投毒:这个文章很全面的介绍了各种攻击 https://mp.weixin.qq.com/s/9JwADiu9t3kqcfqnRMC2zQ,同时有示例代码:https://github.com/slowmist/MasterMCP
- 本质上 MCP 工具投毒是因为用了 Internet 上随便找的 MCP Server,此 Server 包含恶意的提示词或者其他威胁。做好 MCP Server 代码验证可以缓解这些问题,有些平台比如 Smithery.ai 已经提供了 MCP Server 扫描功能
- MCP 动态获取工具时的问题:技术上来说 MCP Client 动态获取 Server 上的 tools,如果 Server 是放在远端,那这个 Server 被攻击后 Client 侧可能意识不到后端发生了变化,造成敏感信息泄露等问题
- 其他的比如认证、权限管控等,并非 MCP 独有的问题,只要使用 Agent 都需要考虑
其他的一些风险及案例收集:
- 恶意 MCP 示例:https://mp.weixin.qq.com/s/9JwADiu9t3kqcfqnRMC2zQ ,
- 阿里介绍 MCP 投毒:https://mp.weixin.qq.com/s/EJLb1IwqbPF3VSDkJu099g
- 解密 MCP 生态中的暗面:https://mp.weixin.qq.com/s/rzX2teOHGVT8GuTsliR6dA
- 你的直播间可能被“投毒”:数字人主播“带偏”事件敲响安全警钟!:https://mp.weixin.qq.com/s/5i-m3N7wshY2-Kq3P6hzVg
AI 安全防护方案
了解了上述的问题和风险后,防护就会有多个层面,建议参考 MAESTRO 安全框架去寻求解决方案,这时候前面介绍的大模型在企业的应用及技术栈等基础内容就派上用场了,你需要知道底层如何实现才能更好地去提供保护方案。
所有的安全中,和 LLM 最直接相关的就是做 LLM 输入(比如检测用户提示词是否存在注入攻击)和输出过滤(比如检测输出是否包含恶意链接、敏感信息、敏感内容等)。做好了输入输出过滤可以解决 OWASP Top10 里半数以上的风险,下面只着重介绍这类产品。
按实现方式的类别概述
类别 | 主要原理概述 | 产品举例 | 优点 |
---|---|---|---|
集成于 API Gateway/ LLM Proxy/ LLM Router | 站在 HTTP 层看流量(L7) | F5 AI Gateway、Kong 等 | 易于和 AI 应用集成,对输入和输出进行过滤 |
Network 方式 | 站在网络层面看流量(L3~L7) | Palo Alto Networks Prisma AIRS | 除了 LLM 之外,还可以做传统的安全过滤,全方位防护 |
通过 eBPF 实现 | 站在 Linux 底层透明看流量 | Protect AI Layer(已被 Palo Alto Networks 收购) | 在 Linux 底层可以无需解密就能看到所有流量并进行处理 |
提供 API/SDK | 集成在应用内部透明看流量 | AI Runtime Security API、Portkey AI gateway、Meta LLamaFirewall | 灵活,可根据应用自定义检查位置。可以与 LLM Proxy 之类的进行集成 |
一些 AI 安全产品不完整清单
- LLama Firewall https://mp.weixin.qq.com/s/a9tWaHlD4_Mxdnhye0nKdw
- NVIDIA NeMo Guardrails:https://mp.weixin.qq.com/s/etNhM_e7FGeRnYvzjlKcog
- Protect AI LLM Guard:Protect AI 开源的产品,有非常多的检测器(Scanner),项目地址:https://github.com/protectai/llm-guard
- Protect AI Layer:对应的商业版本,介绍: https://protectai.com/layer
- Palo Alto Network Prisma AIRS:AI 全生命周期的防护方案,包括模型安全、供应链安全、运行时安全、AI Red Teaming 等模块。介绍:https://www.paloaltonetworks.com/company/press/2025/palo-alto-networks-introduces-prisma-airs–the-foundation-on-which-ai-security-thrives
- Kong AI Gateway:https://developer.konghq.com/ai-gateway/
- Portkey Guardrails:https://portkey.ai/features/guardrails
- 腾讯:为了检测 MCP 安全风险,我们开发了一个AI Agent:https://mp.weixin.qq.com/s/cpkOCDfcZErvFbMdgKYANg ;
- 腾讯 AIG (AI Infra Guard)可以实现 AI 环境,比如AI框架库安全,MCP 代码安全:https://github.com/Tencent/AI-Infra-Guard
- 腾讯大模型安全 LLM-WAF:https://mp.weixin.qq.com/s/FsUzTyEYFYxIZ9RcGGqHWQ
更多产品可以在 OWASP AI Security Solutions Landscape 中找到:
https://genai.owasp.org/ai-security-solutions-landscape/
一些 AI 安全相关的框架和法规
个人建议优先看 CSA MAESTRO、OWASP Top10。
Mitre ATLAS 可以作为工具书去学习各类攻击技术以及相应的案例。
更高层的风险框架看 NIST AI RMF 和 ISO/IEC 42001(需要付费购买),适合做整个 AI 的治理或者咨询人员查看。
- CSA:AI 时代威胁建模 MAESTRO:原文:https://cloudsecurityalliance.org/blog/2025/02/06/agentic-ai-threat-modeling-framework-maestro; 译文:https://www.secrss.com/articles/77985](https://www.secrss.com/articles/77985)
- CSA:MCP 风险和 MAESTRO 对应示例:https://mp.weixin.qq.com/s/Y1UVuAUYm_0m3aspsXLOWA
- Mitre ATLAS 框架:https://atlas.mitre.org/matrices/ATLAS
- GBT+45654-2025-生成式人工智能服务-安全基本要求https://mp.weixin.qq.com/s/YR0eRJKVLJBBo1AyQYfWQw
- OWASP Top10:https://owasp.org/www-project-top-10-for-large-language-model-applications/
- NIST AI RMF(AI风险管理框架):https://mp.weixin.qq.com/s/FL-DMcFgzned5r6SR9Hs1g ; 译文 https://www.secrss.com/articles/51538
- AI Security 相关材料汇总:https://github.com/ottosulin/awesome-ai-security
- 欧盟 FAICP https://www.faicp-framework.com/
- 欧盟 AI Act:https://www.artificial-intelligence-act.com/