May14, 2026

向量数据库

向量数据库是专为处理和搜索表示复杂数据（如文本、图像或音频）的数值嵌入而构建的数据存储系统。

定义

向量数据库是一种专门的数据库系统，旨在存储、索引和检索高维向量嵌入——这些数值表示能够捕捉非结构化数据的语义含义。与依赖精确匹配的传统关系型或键值数据库不同，向量数据库通过测量多维空间中向量之间的距离来进行相似性搜索。这使其成为现代AI驱动工作流的关键工具，如语义搜索、检索增强生成（RAG）、推荐系统以及其他需要基于语义而非精确关键词查找内容的应用。它们利用先进的索引和近似最近邻（ANN）算法，在大规模数据集上也能实现快速搜索性能。向量数据库通过支持高效语义检索，成为许多AI和机器学习系统的核心。

优点

通过语义而非精确匹配，实现跨非结构化数据的语义相似性搜索。
专为大规模AI应用（如RAG、推荐系统和语义搜索）优化。
通过嵌入支持多模态数据（文本、图像、音频）。
提供快速的近似最近邻搜索，并支持可扩展的索引。
与机器学习和大语言模型（LLM）工作流无缝集成。

缺点

不适用于传统的结构化查询（如SQL）。
需要嵌入生成模型和预处理步骤。
针对特定工作负载进行性能和索引调优较为复杂。
本身不提供关系或时间推理功能。
相比更简单的数据库，可能引入额外的基础设施开销。

使用场景

通过语义而非关键词查找相关结果的语义搜索引擎。
通过检索增强生成（RAG）为大语言模型提供上下文。
通过匹配相似内容为用户推荐内容的推荐系统。
在文本、图像或音频之间进行多模态相似性搜索。
在AI应用中进行异常检测和模式识别。