其他分享
首页 > 其他分享> > nutch核心代码分析——crawl.link.db

nutch核心代码分析——crawl.link.db

作者:互联网

2021SC@SDUSC

 分析新输入的segment目录,主要代码如下:

 新建立一个MP任务
	JobConf job = LinkDb.createJob(getConf(), linkDb, normalize, filter);
	// 添加目录到输入路径,这里可能有多个输入路径, parse_data
    for (int i = 0; i < segments.length; i++) {
      if (LOG.isInfoEnabled()) {
        LOG.info("LinkDb: adding segment: " + segments[i]);
      }
      FileInputFormat.addInputPath(job, new Path(segments[i], ParseData.DIR_NAME));    
    }
	// 提交MP任务
    try {
      JobClient.runJob(job);
    } catch (IOException e) {
      LockUtil.removeLockFile(fs, lock);
      throw e;

这是linkdb的job任务,下面是源代码分析 

private static JobConf createJob(Configuration config, Path linkDb, boolean normalize, boolean filter) {
		// 新成一个临时的目录
    Path newLinkDb =
      new Path("linkdb-" +
               Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));
 
 
    JobConf job = new NutchJob(config);
    job.setJobName("linkdb " + linkDb);
 
 
	// 设置输出格式
    job.setInputFormat(SequenceFileInputFormat.class);
 
 
	// 配置Map,Combiner,Reducer方法
    job.setMapperClass(LinkDb.class);
    job.setCombinerClass(LinkDbMerger.class);
	
	// 如果配置了过滤或者规格化,并且没有找到老的linkdb目录,好就以filter和normalize进行配置
    // if we don't run the mergeJob, perform normalization/filtering now
    if (normalize || filter) {
      try {
        FileSystem fs = FileSystem.get(config);
        if (!fs.exists(linkDb)) {
          job.setBoolean(LinkDbFilter.URL_FILTERING, filter);
          job.setBoolean(LinkDbFilter.URL_NORMALIZING, normalize);
        }
      } catch (Exception e) {
        LOG.warn("LinkDb createJob: " + e);
      }
    }
    job.setReducerClass(LinkDbMerger.class);
 
 
	// 配置MP输出路径
    FileOutputFormat.setOutputPath(job, newLinkDb);
	// 配置输出格式
    job.setOutputFormat(MapFileOutputFormat.class);
	// 对map输出使用压缩,以减少Reducer的输入压力
    job.setBoolean("mapred.output.compress", true);
	// 配置<key,value>的输出类型
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(Inlinks.class);
 
 
    return job;
  }

 这是merger新旧库合并的操作

if (fs.exists(currentLinkDb)) {   // 如果存在老的反向链接库,就进行合并
      if (LOG.isInfoEnabled()) {
        LOG.info("LinkDb: merging with existing linkdb: " + linkDb);
      }
      // try to merge
	  // 
      Path newLinkDb = FileOutputFormat.getOutputPath(job);
      job = LinkDbMerger.createMergeJob(getConf(), linkDb, normalize, filter);
	  // 加入输入路径
      FileInputFormat.addInputPath(job, currentLinkDb);
      FileInputFormat.addInputPath(job, newLinkDb);
      try {
        JobClient.runJob(job);
      } catch (IOException e) {
        LockUtil.removeLockFile(fs, lock);
        fs.delete(newLinkDb, true);
        throw e;
      }
      fs.delete(newLinkDb, true);
    }
    LinkDb.install(job, linkDb); // 安装新生成的反向链接库

 这是createmergerjob的原码


 public static JobConf createMergeJob(Configuration config, Path linkDb, boolean normalize, boolean filter) {
		 // 生成一个临时目录
    Path newLinkDb =
      new Path("linkdb-merge-" + 
               Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));
 
 
    JobConf job = new NutchJob(config);
    job.setJobName("linkdb merge " + linkDb);
	// 配置个输出格式
    job.setInputFormat(SequenceFileInputFormat.class);
 
 
	// 配置Map与Reducer方法,这里的Reducer方法与上面的一样,用于对相同key(toUrl)的values进行聚合
	// 然后输出指定个数的value,而这里的LinkDbFilter应该是对key与value所对应的url进行过滤与正规化
    job.setMapperClass(LinkDbFilter.class);
    job.setBoolean(LinkDbFilter.URL_NORMALIZING, normalize);
    job.setBoolean(LinkDbFilter.URL_FILTERING, filter);
    job.setReducerClass(LinkDbMerger.class);
 
 
	// 配置输出路径
    FileOutputFormat.setOutputPath(job, newLinkDb);
    job.setOutputFormat(MapFileOutputFormat.class);
    job.setBoolean("mapred.output.compress", true);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(Inlinks.class);
 
 
    return job;
  }

总结:  

这个类的作用是管理新转化进来的链接映射,并列出每个url的外部链接(incoming links)。
    1,先是对每一个url取出它的outLinks,作map操作把这个url作为每个outLinks的incoming link,
    2,在reduce里把根据每个key来把一个url的所有incoming link都加到inlinks里。
    3,这样就把每个url的外部链接统计出来了,注意,系统对只对外部链接进行统计,什么叫外部链接呢,就是只对不同host进行统计,
        记住iteye.com和biaowen.iteye.com是两个不同的host哦。 --> boolean ignoreInternalLinks = true;
    4,然后一步是对这些新加进来的链接进行合并。
 

标签:nutch,db,newLinkDb,filter,job,link,linkDb,Path,class
来源: https://blog.csdn.net/weixin_47876869/article/details/121525088