Java的HadoopFileInputFormat切片机制怎么理解

本篇内容主要讲解“Java的Hadoop FileInputFormat切片机制怎么理解”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Java的Hadoop FileInputFormat切片机制怎么理解”吧!

专注于为中小企业提供成都网站建设、成都网站制作服务,电脑端+手机端+微信端的三站合一,更高效的管理,为中小企业宾川免费做网站提供优质的服务。我们立足成都，凝聚了一批互联网行业人才，有力地推动了数千家企业的稳健成长，帮助中小企业通过网站建设实现规模扩充和转变。

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？

切片与MapTask并行度决定机制

数据块：Block是HDFS物理上把数据分成一块一块，默认大小是128M。

数据切片：数据切片只是在逻辑上对输入数据进行分片，并不会在磁盘上将其切分成片进行存储。

Java的Hadoop FileInputFormat切片机制怎么理解

Job提交流程源码和切片源码详解

waitForCompletion() ## 这是调用的方法 
submit();
// 1建立连接  connect();      // 1）创建提交Job的代理    new Cluster(getConfiguration());      // （1）判断是本地yarn还是远程      initialize(jobTrackAddr, conf);
// 2 提交jobsubmitter.submitJobInternal(Job.this, cluster)  // 1）创建给集群提交数据的Stag路径  Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
  // 2）获取jobid ，并创建Job路径  JobID jobId = submitClient.getNewJobID();
  // 3）拷贝jar包到集群copyAndConfigureFiles(job, submitJobDir);    rUploader.uploadFiles(job, jobSubmitDir);
// 4）计算切片，生成切片规划文件writeSplits(job, submitJobDir);    maps = writeNewSplits(job, jobSubmitDir);    input.getSplits(job);
// 5）向Stag路径写XML配置文件writeConf(conf, submitJobFile);  conf.writeXml(out);
// 6）提交Job,返回提交状态status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());