摘要:向量数据库实际上是为了人工智能而生的。一方面,向量数据库的数据完全源自于人工智能技术。另一方面,对于 AI 应用而言,向量数据库也是至关重要的基础设施。
向量数据库实际上是为了人工智能而生的。一方面,向量数据库的数据完全源自于人工智能技术。另一方面,对于 AI 应用而言,向量数据库也是至关重要的基础设施。
传统数据库主要处理数值和字符类型的数据,通常是高质量的关系型表。现在也有许多处理半结构化数据(如 JSON 数据)的数据库,例如 MongoDB、Elasticsearch 等。然而,这些数据的语义通常只表现在表面,没有深层次的含义。
向量数据库则与众不同,它处理的是非结构化数据,如图片、视频、长文本和音频等。这些数据的意义不在于其物理表示,并不仅仅是一堆字节,真正有意义的地方在于隐藏的语义。
与传统数据库不同,我们无法通过数据库直接处理语义问题。
那么,数据库如何解决这个问题呢?我们采用了 AI 技术,例如典型的神经网络,来识别、提取和编码非结构化数据背后的语义特征。最终,我们将这种数据的语义映射或嵌入到高维的向量空间中。这样做有什么好处呢?这实际上将数据库无法直接处理的语义问题,转化为向量空间中的一个搜索问题。简而言之,我们利用 AI 技术将数据库无法直接处理的数据背后的语义转化为一个结构化的过程。
在处理非结构化数据时,我们通常不仅提取特征向量这一个维度,还会提取一些结构化的属性标签。举个例子,我们正在开发的金融大模型,从财经新闻中通过实体识别算法提取企业法人等信息。这些信息并不仅仅是向量,它们更像是一些属性标签。类似地,在以前的电商中,对于商品图片,除了特征向量外,还可能提取价格、颜色等结构化标签。
因此,可以说没有 AI 技术,就不会有向量数据库这样细分的数据库品类。另一方面,为什么向量数据库如此重要呢?您之前也提到了近期向量数据库的火爆。实际上,向量数据库能够很好地解决 AI 技术落地的问题。
大模型近来非常受关注,但 大模型的能力是有限的。它无法回答它从未见过的问题,即无法回答训练语料库中没有的知识。例如,一些私密数据或专业领域的数据,通常不会存在于通用语料库中。因此,当面对需要回答专业问题的情况时,大模型可能会提供错误答案。
在以前的小模型时代,我们通常会进行精细调整,但如今的模型参数可能达到数千亿、万亿级别。在这种情况下,精细调整的成本非常高,并且无法解决大模型无法获取最新数据的问题。因此,OpenAI 提出了一个解决方案:将知识从大模型中分离出来,引入向量数据库,实际上为大模型添加了一个记忆单元,这就是所谓的大模型 + 向量数据库 +Prompt(MVP)架构。在这种架构下,整个大模型的技术实现更加容易。
通过使用向量数据库,我们可以处理私密数据或更新数据,并且可以更好地控制数据的安全性。因此,向量数据库作为一种基础的 AI 设施,可以有效地解决 AI 技术在实际应用中的问题。综上,可以看出向量数据库与 AI 的关系非常密切。它源自 AI,同时又为解决 AI 技术应用问题提供了有效的解决方案。
友情链接: