Hadoop DistributedCache分布式缓存的使用-大数据-IT技术网

做项目的时候遇到一个问题，在Mapper和Reducer方法中处理目标数据时，先要去检索和匹配一个已存在的标签库，再对所处理的字段打标签。因为标签库不是很大，没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件，用分布式缓存存储，这样让每个slave都能读取到这个文件。

main方法中的配置：

//分布式缓存要存储的文件路径
String cachePath[] = {
                "hdfs://10.105.32.57:8020/user/ad-data/tag/tag-set.csv",
                "hdfs://10.105.32.57:8020/user/ad-data/tag/TagedUrl.csv"
        };
//向分布式缓存中添加文件
        job.addCacheFile(new Path(cachePath[0]).toUri());
        job.addCacheFile(new Path(cachePath[1]).toUri());

参考上面代码即可向分布式缓存中添加文件。

在Mapper和Reducer方法中读取分布式缓存文件：

/*
 * 重写Mapper的setup方法，获取分布式缓存中的文件
 */
    @Override
    protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
                   throws IOException, InterruptedException {
        // TODO Auto-generated method stub
        super.setup(context);
        URI[] cacheFile = context.getCacheFiles();
        Path tagSetPath = new Path(cacheFile[0]);
        Path tagedUrlPath = new Path(cacheFile[1]);
        文件操作(如把内容读到set或map中);
    }

@Override
public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
            在map()中使用读取出的数据;
      }

同样，假如在Reducer中也要读取分布式缓存文件，示例如下：

/*
 * 重写Reducer的setup方法，获取分布式缓存中的文件
 */
    @Override
    protected void setup(Context context) 
                   throws IOException, InterruptedException {
        super.setup(context);
        mos = new MultipleOutputs<Text, Text>(context);

        URI[] cacheFile = context.getCacheFiles();
        Path tagSetPath = new Path(cacheFile[0]);
        Path tagSetPath = new Path(cacheFile[1]);
        文件读取操作;
    }

 @Override
  public void reduce(Text key, Iterable<Text> values, Context context)
              throws IOException, InterruptedException {
      while(values.iterator().hasNext()){
          使用读取出的数据;
      }
       context.write(key, new Text(sb.toString()));
      }

Hadoop DistributedCache分布式缓存的使用

Cloudflare 收购了 Human Native，推动AI 数据市场发展

数据泄露？半导体光刻设备巨头ASML官方否认被黑客攻击

2025年全球半导体市场排名揭晓，英伟达遥遥领先

全球最大资管贝莱德展望2026：看衰美国经济，看好加密货币，认为AI继续主导市场

每位求职者面试时都应准备好回答的AI问题

曾经风靡全球的扫地机器人“鼻祖” iRobot 倒闭

摩根大通第四季度展望背景：驾驭人工智能驱动的增长、监管风险与市场分歧预测

SIOS 发布 LifeKeeper v10 ，引入网页版统一控制台

2026年1月1日起，这些新法新规正式施行，对我们的生活和工作有直接影响

云存储公司 Wasabi 推出 Covert Copy隐蔽复制功能，防勒索软件储存解决方案

马斯克2026最新采访总结：2040年，全球机器人数量将突破100亿台

专家解读｜规范人工智能前沿业态健康发展的新探索：解读《人工智能拟人化互动服务管理暂行办法》

用至强 6高存力搞定MoE卸载！

美国将允许英伟达向中国“经批准的客户”出售H200 GPU

苹果与微信就15%手续费达成一致？腾讯未置可否

技术分享

PHP 和 Node.js 的10项对比挑战

Javascript闭包深入解析及实现方法

windows 7、windows 8.1手动增加右键菜单功能技巧

MYSQL出错代码大汇总

windows 7假死机怎么办 windows 7系统假死机的原因以及解决方法

Ubuntu(Linux)下配置IP地址的方法

Hadoop DistributedCache分布式缓存的使用

别人在看