当前位置:首页 > Windows程序 > 正文

Windows下Hadoop编程环境配置指南

2021-03-24 Windows程序

刘勇    Email: lyssym@sina.com

        本博客记录作者在工作与研究中所经历的点滴,一方面给自己的工作与生活留下印记,另一方面若是能对大家有所帮助,则幸甚至哉矣!

  简介

       鉴于最近在研究Hadoop编程时,为考虑编程的方便,在Windows本地编译源程序,然后直接访问Hadoop集群,这样给广大编程人员提供了极大的便利。在这个过程中积累了一些实际经验,并针对在该过程中(初级阶段)可能会遇到的问题,提供一些解决方案,希望对大家有所帮助。

环境介绍

       Hadoop 集群:hadoop 2.7.1, Cent OS 6.5,jdk 1.7

       eclipse 环境:Windows 7, eclipse LUNA,jdk 1.8

环境搭建

       1) 安装eclipse hadoop 插件

       从网络上下载与hadoop 版本相同的插件,如hadoop-eclipse-plugin-2.7.1.jar, 并将其拷贝至eclipse 安装目录中plugins,如D:\Program\eclipse\plugins,然后重启eclipse。

       2) 配置mapreduce插件

       Windows—>Preference—>Hadoop Map/Reduce,本文配置Hadoop处理目录在D:\hadoop。需要指出,该目录指出后续编译源程序所需的相关jar包以及所需的库文件(Windows编译所需)。

       3) 切换视角

       Windows—>Open Perspective—>Other。

       4) 配置Map/Reduce Locations

       该部分配置在Windows下访问hadoop 集群的位置及相关信息。点击Map/Reduce Locations—>New Hadoop Locations—>General。参数配置过程中,需要关心方框中的HostPort,必须与Hadoop集群中Master与DFS配置保持一致。至于User name一般建议采用hadoop 集群安装的用户名hadoop,并在Windows用户与组中将administrator修改为hadoop能省掉很多不必要的麻烦。本文采用Windows下用户名root,后续将针对问题介绍(见FAQ 5)。

        Map/Reduce Locations—>New Hadoop Locations—>Advanced parameters。配置过程中,只需关心方框中hadoop.tmp.dir 必须与hadoop集群core-site.xml配置一致。至此,eclipse Hadoop 插件已安装完毕。

       5) 测试与验证

       在工程导航栏,展开DFS Locations,若能看到用户通过hadoop fs 操作命令在hadoop集群上对文件做出的操作,则该插件安装完成。

编程异常与解决方案

        经本文作者在编程过程中实际经验,写好的程序在hadoop 集群下(Linux环境中集群本地)能够访问,但是为编程的方便,将其编写于Windows下时可能会出现问题,下面结合作者的实际经验,给出相应解决方案。

       1) FAQ:java.lang.NullPointerException

       出现该异常是因为,在Windows下编译时会有hdfs临时文件存在,因此造成无法辨识该文件系统类型。

       解决方案:从网络上下载与hadoop 版本号相同的hadoop.libwinutils.exe等文件,并将其拷贝至hadoop 目录bin,如D:\hadoop\bin,以及Windows系统中,如C:\Windows\System32,同时需要注意下载的文件需要与CPU位数对应,即32位或64位。本文作者曾因CPU位数的问题折腾了许久。此外,本文作者给出一个最为保险的建议,采用Windows SDK将Hadoop 源码在Windows 本地编译一下,然后提取上述lib、exe文件,则该问题迎刃而解。

       2) FAQ:java.lang.UnsatisfiedLinkError:

温馨提示: 本文由Jm博客推荐,转载请保留链接: https://www.jmwww.net/file/66945.html