网站后台登陆不了,wordpress登录页面创建,济宁网站建设公司公司,网站快照引言
在使用 Easysearch 时#xff0c;如何在存储和查询性能之间找到平衡是一个常见的挑战。Easysearch 具备多种压缩模式#xff0c;各有千秋。本文将重点探讨一种特别的压缩模式#xff1a;zstd source_reuse#xff0c;我们最近重新优化了 source_reuse,使得它在吞吐量…引言
在使用 Easysearch 时如何在存储和查询性能之间找到平衡是一个常见的挑战。Easysearch 具备多种压缩模式各有千秋。本文将重点探讨一种特别的压缩模式zstd source_reuse我们最近重新优化了 source_reuse,使得它在吞吐量和存储效率方面都表现出色。
测试概览
测试条件选用了 esrally 工具和 geonames 数据集来进行压力测试。数据集包含了 11396503 条记录往单个 shard 写入对以下几种压缩模式进行压测对比 default best_compression zstd zstd source_reuse
下图是对 CPU 的监控可以看到各个模式对 CPU 的使用是基本相近的。
default best_compression zstd zstdreuse
关键数据点
测试结果主要围绕两个指标
中位吞吐量单位为“每秒操作数”数值越大表示性能越好。存储大小单位为 “GB”数值越小表示存储更加高效。
测试数据如下
压缩模式中位吞吐量 (docs/s)存储大小 (GB)default378342.7best_compression374042.2zstd388782.1zstd source_reuse389421.6
zstd source_reuse压缩原理
该模式采用了 source_reuse 压缩算法该算法通过对 keyword、long、int、short、boolean 等类型的字段值进行复用并结合 zstd 压缩算法大大提高了存储效率。
压缩效率
zstd source_reuse 在存储大小上的表现尤为出色针对 geonames 数据集只需 1.6 GB 的存储空间相比于 best_compression 模式的 2.2 GB压缩效率显著提高。
吞吐量表现
高压缩率并没有让 zstd source_reuse 在吞吐量上做出妥协因为高压缩率使得其需要持久化的数据大大减小其中位吞吐量为 38942 docs/s在 4 种模式中表现最好。
结论
zstd source_reuse 压缩模式在存储效率和查询性能之间找到了一种极佳的平衡强烈推荐各位在使用 Easysearch 时当存储成本比较敏感时考虑使用 zstd source_reuse 压缩模式。无论是在存储成本还是写入性能方面它都能为你带来显著的优势。
关于 Easysearch INFINI Easysearch 是一个分布式的近实时搜索与分析引擎核心引擎基于开源的 Apache Lucene。Easysearch 的目标是提供一个轻量级的 Elasticsearch 可替代版本并继续完善和支持更多的企业级功能。 与 Elasticsearch 相比Easysearch 更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。
官网文档https://www.infinilabs.com/docs/latest/easysearch
下载地址https://www.infinilabs.com/download