arXiv-2023/10-Survey of Vector Database Management Systems #369

BrambleXu · 2024-01-27T08:05:06Z

Summary:

对向量数据库的调查比较

Resource:

Paper information:

Notes:

向量数据库面临的挑战

模糊的搜索标准：结构化查询使用精确的布尔谓词，但向量查询依赖于难以准确捕捉的语义相似性的模糊概念。
昂贵的比较操作：属性谓词（如<、>、=和∈）大多可以在O(1)时间内评估，但相似性比较通常需要O(D)时间，其中D是向量的维度。
大尺寸问题：结构化查询通常只访问少量属性，使得可以设计读取效率高的存储结构如列存储，但向量搜索需要完整的特征向量，有时甚至跨越多个数据页，使得磁盘检索更加昂贵，同时也给内存带来压力。
缺乏结构：结构化属性主要是可排序或序数的，通过数值范围或类别进行分区，可以用来设计搜索索引。但向量没有明显的排序顺序，也不是序数，设计既准确又高效的索引难度较大。
与属性的不兼容性：结构化查询可以通过简单的集合操作（如并集或交集）将多个属性索引的中间结果汇集到最终结果集中。但向量索引通常在找到k个最相似的向量后就停止，将这些结果与属性索引扫描的结果结合起来可能导致少于预期的结果。另一方面，修改索引扫描操作以考虑属性谓词可能会降低索引性能。目前尚不清楚如何以既高效又准确的方式支持同时涉及属性和向量的“混合”查询。

优秀的向量数据库及其优势

Vearch、Milvus和Manu：这些是专门围绕向量管理设计的原生系统。它们倾向于支持高性能技术，针对特定功能。
AnalyticDB-V和PASE：这些是在现有数据管理系统之上增加向量功能的扩展系统。它们倾向于支持更适应不同工作负载的技术，但不一定是最快的。
Apache Lucene、Elasticsearch和Meta Faiss：这些旨在仅提供搜索能力的搜索引擎和库。原生系统通常更注重针对特定功能的高性能技术，而扩展系统则更注重适应不同工作负载的技术，但速度可能不是最快的。

Model Graph:

Result:：

Thoughts:

Next Reading:

BrambleXu self-assigned this Jan 27, 2024

BrambleXu added the LLM(M) Large language models label Jan 27, 2024

Provide feedback