关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » 大数据 »Hadoop DistributedCache分布式缓存的使用

    Hadoop DistributedCache分布式缓存的使用

    2014-10-29 00:00:00 出处:LEE的博客
    分享

    做项目的时候遇到一个问题,在Mapper和Reducer方法中处理目标数据时,先要去检索和匹配一个已存在的标签库,再对所处理的字段打标签。因为标签库不是很大,没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件,用分布式缓存存储,这样让每个slave都能读取到这个文件。

    main方法中的配置:

    //分布式缓存要存储的文件路径
    String cachePath[] = {
                    "hdfs://10.105.32.57:8020/user/ad-data/tag/tag-set.csv",
                    "hdfs://10.105.32.57:8020/user/ad-data/tag/TagedUrl.csv"
            };
    //向分布式缓存中添加文件
            job.addCacheFile(new Path(cachePath[0]).toUri());
            job.addCacheFile(new Path(cachePath[1]).toUri());

    参考上面代码即可向分布式缓存中添加文件。

    在Mapper和Reducer方法中读取分布式缓存文件:

    /*
     * 重写Mapper的setup方法,获取分布式缓存中的文件
     */
        @Override
        protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
                       throws IOException, InterruptedException {
            // TODO Auto-generated method stub
            super.setup(context);
            URI[] cacheFile = context.getCacheFiles();
            Path tagSetPath = new Path(cacheFile[0]);
            Path tagedUrlPath = new Path(cacheFile[1]);
            文件操作(如把内容读到set或map中);
        }
    
    @Override
    public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
                在map()中使用读取出的数据;
          }

    同样,假如在Reducer中也要读取分布式缓存文件,示例如下:

    /*
     * 重写Reducer的setup方法,获取分布式缓存中的文件
     */
        @Override
        protected void setup(Context context) 
                       throws IOException, InterruptedException {
            super.setup(context);
            mos = new MultipleOutputs<Text, Text>(context);
    
            URI[] cacheFile = context.getCacheFiles();
            Path tagSetPath = new Path(cacheFile[0]);
            Path tagSetPath = new Path(cacheFile[1]);
            文件读取操作;
        }
    
     @Override
      public void reduce(Text key, Iterable<Text> values, Context context)
                  throws IOException, InterruptedException {
          while(values.iterator().hasNext()){
              使用读取出的数据;
          }
           context.write(key, new Text(sb.toString()));
          }
    上一篇返回首页 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    PNY 推出 CS3250 M.2 NVMe PCIe Gen5 x4 SSD,高端计算新标杆

    富士康承诺在泰米尔纳德邦投资 1500 亿卢比,创造 14,000 个就业机会

    NetApp Insight 2025:NetApp 和 Red Hat 加强协作,利用 Red Hat OpenShift 虚拟化推动 IT 现代化

    2025 年 OCP 全球峰会:Credo 推出 ZeroFlap 光收发器——人工智能网络光学器件的可靠性革命

    Kong 发布 Volcano,一个用于构建 AI 代理的 MCP 原生 SDK

    昂瑞微科创版IPO成功,上峰水泥跨界投资

    AI赋能,场景智变:第16届深圳国际移动电子展引领场景化消费新浪潮

    OpenAI估值5000亿美元,成全球初创公司中的“估值之王”

    战略突破:三菱电机以匠人心态引领功率半导体技术革新

    英伟达5亿美元投资英国自动驾驶初创公司Wayve

    IT头条

    Synology 更新 ActiveProtect Manager 1.1 以增强企业网络弹性和合规性

    00:43

    新的 Rubrik Agent Cloud 加速了可信的企业 AI 代理部署

    00:34

    宇树科技 G1人形机器人,拉动一辆重达1.4吨的汽车

    00:21

    Cloudera 调查发现,96% 的企业已将 AI 集成到核心业务流程中,这表明 AI 已从竞争优势转变为强制性实践

    02:05

    投资者反对马斯克 1 万亿美元薪酬方案,要求重组特斯拉董事会

    01:18

    技术分享

    大型网站的 HTTPS 实践(三):基于协议和配置的优化

    ubuntu下右键菜单添加新建word、excel文档等快捷方式

    Sublime Text 简明教程

    用户定义SQL Server函数的描述

    怎么在windows 7开始菜单中添加下载选项?

    SQL Server 2016将有哪些功能改进?

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。