hadoop API学习
作者:互联网
hadoop API就是在windows上进行环境配置,远程操作linux的hdfs,今天学习的是将在终端上的命令转换为代码,通过代码对hadoop上面的数据远程操作,练习的命令有文件上传、下载、创建目录、删除、更名和移动、获取文件信息、查看文件类型
代码的操作使用Java编写,用到maven、单元测试,在测试之前需要进行依赖的导入,还需要在windows进行环境配置
Hadoop的windows环境依赖配置和hadoop的windows依赖包
将以上环境配置好之后,创建maven工程
1、在pom.xml导入依赖
<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.2.3</version> </dependency> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.13</version> <scope>test</scope> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.30 </version> </dependency>
2、在resource中创建log4j.properties文件
log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
下面是我进行测试的一些代码
/**
*author:Jzz
*time:2022-8-01
*/
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.After; import org.junit.Before; import org.junit.Test; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.Arrays; public class HdfsClient { private FileSystem fs; @Before public void init(){ // 连接集群namenode地址 URI uri = null; try { uri = new URI("hdfs://hadoop102:8020"); // 创建配置文件 Configuration configuration = new Configuration(); configuration.set("dfs.replication","2"); // 获取到客户端对象 fs = FileSystem.get(uri, configuration,"jzz"); } catch (Exception e) { e.printStackTrace(); } } @After public void destory(){ try { fs.close(); } catch (IOException e) { e.printStackTrace(); } } //创建目录 @Test public void testmkdir(){ try { // 创建文件夹 fs.mkdirs(new Path("/xiyou/huaguo")); } catch (Exception e) { e.printStackTrace(); } } // 上传文件 /** * 参数优先级 * hdfs-default.xml=>hdfs-site.xml=>resource配置里面hdfs-site.xml=>init中的configuration设置 */ @Test public void testup(){ // 参数一:删除源数据,参数二:是否覆盖,参数三:源路径,参数四:目的路径 try { fs.copyFromLocalFile(false,true,new Path("D:\\text.txt"),new Path("/xiyou/huaguo")); } catch (IOException e) { e.printStackTrace(); } } /** * 第四个参数:开启数据检验,会生成.crc文件 */ @Test public void testdownload(){ try { fs.copyToLocalFile(false,new Path("/xiyou/huaguo"),new Path("D:\\"),true); } catch (IOException e) { e.printStackTrace(); } } /** * 删除 * 参数解读:1:删除路径 2:是否递归删除 */ @Test public void testRm() throws IOException { // 删除文件 // fs.delete(new Path("/xiyou/huaguo/text.txt"),false); // 删除空目录 fs.delete(new Path("/xiyou"),false); // 删除非空目录,必须递归删除 fs.delete(new Path("/jinguo"),true); } /** * 文件的更名和移动 * 参数一:文件源路径,参数二:文件目的路径 */ @Test public void testrm() throws IOException { // 文件的改名 // fs.rename(new Path("/input/word.txt"),new Path("/input/ss.txt")); // 文件的移动 fs.rename(new Path("/input/ss.txt"),new Path("/cls.txt")); } /** * 获取文件信息 * 参数一:文件目录,参数二:递归获取 */ @Test public void testGetFile() throws IOException { // 获取文件信息 RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true); // 遍历文件 while (listFiles.hasNext()){ LocatedFileStatus fileStatus = listFiles.next(); System.out.println("====" + fileStatus.getPath() + "===="); System.out.println(fileStatus.getPermission()); System.out.println(fileStatus.getOwner()); System.out.println(fileStatus.getGroup()); System.out.println(fileStatus.getLen()); System.out.println(fileStatus.getModificationTime()); System.out.println(fileStatus.getReplication()); System.out.println(fileStatus.getBlockSize()); System.out.println(fileStatus.getPath().getName()); // 获取快信息 BlockLocation[] locations = fileStatus.getBlockLocations(); System.out.println(Arrays.toString(locations)); } } /** * 判断是文件还是文件夹 */ @Test public void testFile() throws IOException { FileStatus[] status = fs.listStatus(new Path("/")); for(FileStatus fileStatus : status){ if (fileStatus.isFile()) { System.out.println("文件:" + fileStatus.getPath().getName()); }else { System.out.println("目录:" + fileStatus.getPath().getName()); } } } }
标签:fs,hadoop,学习,fileStatus,API,Path,println,new,log4j 来源: https://www.cnblogs.com/jzz-111jy/p/16542011.html