当前位置: 首页 > news >正文

网站编辑注意问题百度热度榜搜索趋势

网站编辑注意问题,百度热度榜搜索趋势,iis 网站拒绝显示此网页,登陆网站密码不保存怎么做什么是 BloomFilter(布隆过滤器)布隆过滤器(英语#xff1a;Bloom Filter)是 1970 年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。主要用于判断一个元素是否在一个集合中。通常我们会遇到很多要判断一个元素是否在某个集合中的业务场景#xff0c;这…什么是 BloomFilter(布隆过滤器)布隆过滤器(英语Bloom Filter)是 1970 年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。主要用于判断一个元素是否在一个集合中。通常我们会遇到很多要判断一个元素是否在某个集合中的业务场景这个时候往往我们都是采用 HashmapSet 或者其他集合将数据保存起来然后进行对比判断但是如果元素很多的情况我们如果采用这种方式就会非常浪费空间。这个时候我们就需要 BloomFilter 来帮助我们了。BloomFilter 原理BloomFilter 是由一个固定大小的二进制向量或者位图(bitmap)和一系列(通常好几个)映射函数组成的。布隆过滤器的原理是当一个变量被加入集合时通过 K 个映射函数将这个变量映射成位图中的 K 个点把它们置为 1。查询某个变量的时候我们只要看看这些点是不是都是 1 就可以大概率知道集合中有没有它了如果这些点有任何一个 0则被查询变量一定不在如果都是 1则被查询变量很可能在。注意这里是可能存在不一定一定存在这就是布隆过滤器的基本思想。如下图所示字符串 “ziyou” 在经过四个映射函数操作后在位图上有四个点被设置成了 1。当我们需要判断 “ziyou” 字符串是否存在的时候只要在一次对字符串进行映射函数的操作得到四个 1 就说明 “ziyou” 是可能存在的。为什么说是可能存在而不是一定存在呢那是因为映射函数本身就是散列函数散列函数是会有碰撞的意思也就是说会存在一个字符串可能是 “ziyou01” 经过相同的四个映射函数运算得到的四个点跟 “ziyou” 是一样的这种情况下我们就说出现了误算。另外还有可能这四个点位上的 1 是四个不同的变量经过运算后得到的这也不能证明字符串 “ziyou” 是一定存在的如下图框出来的 1 也可能是字符串“张三”计算得到同理其他几个位置的 1 也可以是其他字符串计算得到。1.2 特性所以通过上面的例子我们就可以明确一个元素如果判断结果为存在的时候元素不一定存在但是判断结果为不存在的时候则一定不存在。布隆过滤器可以添加元素但是不能删除元素。因为删掉元素会导致误判率增加。02、使用场景2.1、网页 URL 去重我们在使用网页爬虫的时候(爬虫需谨慎)往往需要记录哪些 URL 是已经爬取过的哪些还是没有爬取过这个时候我们就可以采用 BloomFilter 来对已经爬取过的 URL 进行存储这样在进行下一次爬取的时候就可以判断出这个 URL 是否爬取过。2.2、黑白名单存储工作中经常会有一个特性针对不同的设备或者用户有不同的处理方式这个时候可能会有白名单或者黑名单存在所以根据 BloomFilter 过滤器的特性我们也可以用它来存在这些数据虽然有一定的误算率但是在一定程度上还是可以很好的解决这个问题的。2.3、小结除了上面说的两种场景其实还有很多场景比如热点数据访问垃圾邮件过滤等等其实这些场景的统一特性就是要判断某个元素是否在某个集合中原理都是一样的。03、代码实践3.1、自己实现package com.test.pkg;import java.util.BitSet;/*** * Function* Authorauthor ziyou* Date2019-10-23 23:21* Desc无*/public class BloomFilterTest {/*** 初始化布隆过滤器的 bitmap 大小*/private static final int DEFAULT_SIZE 2 24;/*** 为了降低错误率这里选取一些数字作为基准数*/private static final int[] seeds {3, 5, 7, 11, 13, 31, 37, 61};/*** 设置 bitmap*/private static BitSet bitset new BitSet(DEFAULT_SIZE);/*** 设置 hash 函数数量*/private static HashFunction[] functions new HashFunction[seeds.length];/*** 添加数据** param value 需求加入的值*/public static void put(String value) {if (value ! null) {for (HashFunction f : functions) {//计算 hash 值并修改 bitmap 中相应位置为 truebitset.set(f.hash(value), true);}}}/*** 判断相应元素是否存在** param value 需要判断的元素* return 结果*/public static boolean check(String value) {if (value null) {return false;}boolean ret true;for (HashFunction f : functions) {ret bitset.get(f.hash(value));//一个 hash 函数返回 false 则跳出循环if (!ret) {break;}}return ret;}public static void main(String[] args) {String value test;for (int i 0; i seeds.length; i) {functions[i] new HashFunction(DEFAULT_SIZE, seeds[i]);}put(value);System.out.println(check(value));}}class HashFunction {private int size;private int seed;public HashFunction(int size, int seed) {this.size size;this.seed seed;}public int hash(String value) {int result 0;int len value.length();for (int i 0; i len; i) {result seed * result value.charAt(i);}int r (size - 1) result;return (size - 1) result;}}上面我们自己写了一个简单的 BloomFilter 通过 put 方法录入数据通过 check 方法判断元素是否存在基本能实现功能代码中注释也写的很清楚但是自己实现必定效率不高所以下面我们看下业内大佬帮我们已经实现好的 BloomFilter。2.4、Guava 中的 BloomFilterpackage com.test.pkg;import com.google.common.hash.BloomFilter;import com.google.common.hash.Funnels;/*** * Function* Authorauthor ziyou* Date2019-10-24 00:17* Desc无*/public class BloomFilterTest02 {public static void main(String[] args) {BloomFilter bloomFilter BloomFilter.create(Funnels.integerFunnel(), 100000, 0.01);for (int i 0; i 100000; i) {bloomFilter.put(i);}System.out.println(bloomFilter.mightContain(1));System.out.println(bloomFilter.mightContain(2));System.out.println(bloomFilter.mightContain(3));System.out.println(bloomFilter.mightContain(100001));}}Guava 中已经帮我们实现好了 BloomFilter 的代码我们只需要在使用的地方调用就好。这里我们简单解释一下构造方法中的后面两个参数一个是预计包含的数据量一个是允许的误差值。代码中会根据我们填入的这两个值自动帮我们计算出数组的大小以及需要的散列函数个数如下图。更多详细的内容读者可以自行去查看源码我们这里就不介绍了。04、总结这篇文章给大家介绍了 BloomFilter一个用来判断元素是否存在与某个集合的高效方法可以在我们日常的工作中运用起来结合日常工作的场景可以进行选择。原文发于《Java极客技术》公众号作者ziyou关注公众号程序新视界一个让你软实力、硬技术同步提升的平台除非注明否则均为程序新视界原创文章转载必须以链接形式标明本文链接
http://www.yutouwan.com/news/129575/

相关文章:

  • 网站建设找盖亚科技网站开发过程中遇到的问题
  • asp网站 会员注册网站 建设 语言
  • 郑州市东区建设环保局官方网站怎么做网站效果图
  • 服装公司网站定位部门网站管理建设工作汇报
  • 项目管理网站开发wordpress 敏感词
  • 网站自己优化网站突然没收录了
  • 青海建设兵团网站小院福田小货车
  • 阜宁网站制作服务商景泰县做网站
  • 网站建设捌金手指花总十八深圳网站维护优化
  • 个人网站学生作业企业融资的目的和意义
  • 松江营销型网站建设公司国外免费网站服务器链接
  • 网页制作模板的网站代码最新手机发布会
  • 澄海建网站德州市平原县建设局网站
  • 书画网站的建设目标新乡宣传片制作公司
  • 门户网站的建设要求线上推广员
  • 大兴快速网站建设公司线上教学网站
  • 苏晋建设集团网站永久免费企业建站官网大全
  • frontpage2007网站建设网站的建站流程
  • 杭州网站制作公司网站海南省海口市网站建设
  • 交易网站模板福州帮人建网站公司
  • 网站改版提升总结免费ai写作网站
  • 西安做网站魔盒门店销售管理系统
  • 飞猪旅游的网站建设亿创电力建设集团有限公司网站
  • 药监局网站建设方案静态网站有什么用
  • 手机网站布局教程上海网站建设门户
  • 网上自己建网站app开发技术
  • 最新自助建站源码外网下载
  • wordpress站点字体修改京东自营入驻流程及费用
  • 连接器天津有公司做吗做新的网站seo
  • 免费的源代码分享有哪些网站图像放大网站