微信网站制作企业,柳州公司,开发直播app赚钱吗,官方网站的资料做证据Milvus 已支持 Upsert、 Kafka Connector、Airbyte#xff01; 在上周的文章中《登陆 Azure、发布新版本……Zilliz 昨夜今晨发生了什么#xff1f;》#xff0c;我们已经透露过 Milvus#xff08;Zilliz Cloud#xff09;为提高数据流处理效率#xff0c; 先后支持了 Up… Milvus 已支持 Upsert、 Kafka Connector、Airbyte 在上周的文章中《登陆 Azure、发布新版本……Zilliz 昨夜今晨发生了什么》我们已经透露过 MilvusZilliz Cloud为提高数据流处理效率 先后支持了 Upsert、 Kafka Connector、Airbyte而这些功能的作用都是简化数据处理和集成流程为开发人员提供更高效的工具来管理复杂的数据今天我们将向大家一一介绍。 01.Upsert简化数据更新流程 Upsert 功能上线以前在 Milvus 中的更新数据需要两个步骤删除数据然后再插入新数据。虽然这种方法也可行但无法确保数据原子性且操作过于繁琐。Milvus 2.3 版本发布了全新的 Upsert 功能。Zilliz Cloud 海外版也已上线 Upsert 功能 Beta版。 可以说Upsert 功能重新定义了数据更新和管理方式。使用 Upsert 时Milvus 会判断数据是否已经存在。如果数据不存在则插入数据如果已存在则更新数据。这种具有原子性的方法对 Milvus 这样单独管理插入和删除数据的系统中尤为重要。 Upsert 具体的顺序为先插入数据然后删除重复数据。这样可以确保了操作期间的数据仍然可见。 此外Upsert 功能还特别考虑了修改主键的场景。在数据更新过程中无法更改主键列。这与 Milvus 根据主键哈希跨分片shard管理数据的原则一致。这种限制避免了跨 Shard 操作带来的复杂性和潜在的数据不一致性。 Upsert 使用方法简单类似于插入操作。用户可以轻松将 Upsert 集成到现有的工作流程中无需对原有流程进行大改。在 Pymilvus 等 SDK 中Upsert 命令调用和插入命令完全一致。熟悉 Milvus 的用户使用起来没有任何难度可以获得一致和丝滑的用户体验。 执行命令时Upsert 会提供关于操作成功与否以及受影响的数据的反馈进一步增加了开发者的使用便利性。这种易于使用且稳定的功能能够助力数据管理。更多详情请查看 Upsert 文档。 但是使用 Upsert 功能时还需要考虑以下两点 AutoID 限制使用 Upsert 功能的前提条件是将 AutoID 设置为 false。如果 Collection Schema 中将 AutoID 设置为 true则无法执行 Upsert 操作。我们设置了这个限制的主要考量是Upsert 也包含数据更新操作更新的数据需要有新的主键值。如果用户提供的主键值与 AutoID 自动生成的主键值发生冲突那可能会导致数据被覆盖。所以已经开启了 AutoID 的 Collection 不可使用 Upsert 功能。后续新版本中我们可能会取消这一限制。 性能开销Upsert 可能会导致性能成本。Milvus 使用 WAL 架构过多删除操作可能会导致性能下滑。Milvus 中的删除操作不会立即清除数据而是为数据打上删除标记。随后在数据压缩过程中才会根据这些标记真正清除数据。因此频繁的删除操作可能会导致数据膨胀影响性能。我们建议不要太过于频繁地使用 Upsert 功能以确保最佳性能。 02.Kafka Connector赋能实时数据处理 近期Milvus 和 Zilliz Cloud 接入了 Kafka Sink Connector向量数据可以无缝丝滑地通过 Confluent/Kafka 实时导入 Milvus 或 Zilliz Cloud 向量数据库中。本次集成能够进一步释放向量数据库潜能助力实时生成式 AI 应用尤其是使用 OpenAI GPT-4 这种大模型的场景。 如今我们所获取的信息中非结构化数据已占据 80% 以上且这类数据还在呈爆炸式增长。Zilliz 与 Confluent 的合作标志着非结构化数据管理和分析的重大进步我们能够更高效存储、处理实时向量数据流将其转化为易于搜索的数据。 Kafka Connector Milvus / Zilliz Cloud 的常见用例包括 增强生成式 AI为 GenAI 应用提供最新的向量数据从而确保生成的准确性和及时性。这两点对于金融和媒体等领域尤为重要因为都需要实时处理各种来源的流式数据。 优化电商推荐系统电商平台需要实时根据库存和客户行为动态调整其推荐商品或内容以提升用户体验。 在 Zilliz Cloud 中使用 Kafka Connector 的步骤也十分简单 从 GitHub 或 Confluent Hub 下载 Kafka Sink Connector。 配置 Confluent 和 Zilliz Cloud 账号。 阅读在 GitHub 仓库中提供的指南并配置 Kafka Connector。 运行 Kafka Connector将实时流数据导入 Zilliz Cloud。 如需更深入了解如何设置 Kafka Connector 和相关用例请前往 GitHub 仓库或访问此网页。 03.集成 Airbyte数据处理更高效 近期Milvus 与 Airbyte 团队合作在 Milvus 中集成 Airbyte增强了大语言模型LLM和向量数据库中的数据获取和使用流程。本次集成能增强开发者存储、索引和搜索高维向量数据的能力大大简化生成式聊天机器人和产品推荐等应用搭建流程。 本次集成的主要亮点包括 数据传输更高效Airbyte 能够无缝将数据从各种来源传输到 Milvus 或 Zilliz Cloud即时将数据转化为 Embedding 向量简化了数据处理流程。 搜索功能更强大此次集成增强了向量数据库的语义搜索能力。基于 Embedding 向量系统可以自动识别并搜索出语义相似性高的相关内容能够为需要高效检索非结构化数据的应用赋能。 设置过程更简单设置 Milvus 集群和配置 Airbyte 同步数据的步骤十分简单。如果需要使用 Streamlit 和 OpenAI Embedding API 构建应用也是同样的设置步骤。 此次集成简化了数据传输和处理释放实时 AI 应用的无限可能性。例如在客户支持系统中使用 Milvus 或 Zilliz Cloud 集成 Airbyte 可以创建基于语义搜索的智能技术支持工单系统从而为用户提供即时、有用的信息减少人工干预提升用户体验。 Zilliz 始终致力于提升非结构化数据管理和处理能力和技术本次推出的 Upsert、Kafka Connector、Airbyte 等工具的集成都展现了这一点。后续我们将进一步优化数据获取和数据 Pipeline 功能敬请期待 本文由 mdnice 多平台发布