关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » JAVA »如何使用bloomfilter构建大型Java缓存系统

    如何使用bloomfilter构建大型Java缓存系统

    2014-09-13 00:00:00 出处:ITJS
    分享

    背景

    在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。

    与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如,考虑下面这种情况,你需要确认一个URL是否指向一个恶意网站,这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来,那么会占用很大的空间。或者另一种情况,需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中,华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗?那样的话缓存会有多大?是否能在不使用数据库的前提下来高效地完成?

    这就是为什么我们要跨越基本的数据结构map,在更高级的数据结构像布隆过滤器(bloomfilter)中来寻找答案。你可以把布隆过滤器看做Java中的集合(collection),你可以往它里面添加元素,查询某个元素是否存在(就像一个HashSet)。如果布隆过滤器说没有这个元素,这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心,我们可以把这种出错的概率控制在可接受范围内。

    解释

    布隆过滤器被设计为一个具有N的元素的位数组A(bit array),初始时所有的位都置为0.

    添加元素

    要添加一个元素,我们需要提供k个哈希函数。每个函数都能返回一个值,这个值必须能够作为位数组的索引(可以通过对数组长度进行取模得到)。然后,我们把位数组在这个索引处的值设为1。例如,第一个哈希函数作用于元素I上,返回x。类似的,第二个第三个哈希函数返回y与z,那么:

    A[x]=A[y]=A[z] = 1

    查找元素

    查找的过程与上面的过程类似,元素将会被会被不同的哈希函数处理三次,每个哈希函数都返回一个作为位数组索引值的整数,然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1,那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1,就说明这个元素在布隆过滤器里面。当然,会有一定误判的概率。

    算法优化

    通过上面的解释我们可以知道,如果想设计出一个好的布隆过滤器,我们必须遵循以下准则:

    好的哈希函数能够尽可能的返回宽范围的哈希值。 位数组的大小(用m表示)非常重要:如果太小,那么所有的位很快就都会被赋值为1,这样就增加了误判的几率。 哈希函数的个数(用k表示)对索引值的均匀分配也很重要。

    计算m的公式如下:

    m = – nlog p / (log2)^2;

    这里p为可接受的误判率。

    计算k的公式如下:

    k = m/n log(2) ;

    这里k=哈希函数个数,m=位数组个数,n=待检测元素的个数(后面会用到这几个字母)。

    哈希算法

    哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数,在论文《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先,我们需要计算两个哈希函数h1(x)与h2(x)。然后,我们可以用这两个哈希函数来模仿产生k个哈希函数的效果:

    gi(x) = h1(x) + ih2(x);

    这里i的取值范围是1到k的整数。

    Google guava类库使用这个技巧实现了一个布隆过滤器,哈希算法的主要逻辑如下:

    long hash64 = …; //calculate a 64 bit hash function
    //split it in two halves of 32 bit hash values
    int hash1 = (int) hash64;
    int hash2 = (int) (hash64 >>> 32);
    //Generate k different hash functions with a simple loop
    for (int i = 1; i <= numHashFunctions; i++) {
    int nextHash = hash1 + i * hash2;
    }

    应用

    从数学公式中,我们可以很明显的知道使用布隆过滤器来解决问题。但是,我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市,因为城市的数量是可以大概确定的,所以我们可以确定n(待检测元素的个数)的值。根据需求来修改p(误判概率)的值,在这种情况下,我们能够设计出一个查询耗时少,内存使用率高的缓存机制。

    实现

    Google Guava类库有一个实现,查看这个类的构造函数,在这里面需要设置待检测元素的个数与误判率。

    import com.google.common.hash.BloomFilter;
    import com.google.common.hash.Funnels;

    //Create Bloomfilter
    int expectedInsertions = ….;
    double fpp = 0.03; // desired false positive probability
    BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName(“UTF-8″)), expectedInsertions,fpp)

    更多资料

    Bloom Filter Implementation in Java on GitHub Google Guava BloomFilter See Your Solr Cache Sizes: Eclipse Memory Analyzer
    上一篇返回首页 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    正版 Windows 11产品密钥怎么查找/查看?

    还有3个月,微软将停止 Windows 10 的更新

    Windows 10 终止支持后,企业为何要立即升级?

    Windows 10 将于 2025年10 月终止技术支持,建议迁移到 Windows 11

    Windows 12 发布推迟,微软正全力筹备Windows 11 25H2更新

    Linux 退出 mail的命令是什么

    Linux 提醒 No space left on device,但我的空间看起来还有不少空余呢

    hiberfil.sys文件可以删除吗?了解该文件并手把手教你删除C盘的hiberfil.sys文件

    Window 10和 Windows 11哪个好?答案是:看你自己的需求

    盗版软件成公司里的“隐形炸弹”?老板们的“法务噩梦” 有救了!

    IT头条

    液冷服务器概念股走强,博汇、润泽等液冷概念股票大涨

    01:17

    亚太地区的 AI 驱动型医疗保健:2025 年及以后的下一步是什么?

    16:30

    智能手机市场风云:iPhone领跑销量榜,华为缺席引争议

    15:43

    大数据算法和“老师傅”经验叠加 智慧化收储粮食尽显“科技范”

    15:17

    严重缩水!NVIDIA将推中国特供RTX 5090 DD:只剩24GB显存

    00:17

    技术热点

    在windows 7桌面右键菜单上添加直接卸载USB设备的快捷菜单选项

    12个Java长久占居主要地位的原因

    SQL Server创建数据库的命令

    SQL Server 带列名导出到excel的实际操作

    MySQL字符串连接函数repeat()

    使用SQL Server日志转移实现高可用性

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。