Obeying robots.txt seems to work only for some links #71

danrg · 2020-02-12T05:01:51Z

There seems to be a bug in Rcrawlerp.R, line 429:
domain<-strsplit(gsub("http://|https://|www\\.", "", Website), "/")[[c(1, 1)]] if (Obeyrobots) { rules<-RobotParser(Website,Useragent) urlbotfiler<-rules[[2]] urlbotfiler<-gsub("^\\/", paste("http://www.",domain,"/", sep = ""), urlbotfiler , perl=TRUE) urlbotfiler<-gsub("\\*", ".*", urlbotfiler , perl=TRUE) } else {urlbotfiler=" "}

This suggests only links starting with 'http://www' are going to obey robots.txt.

Are PRs accepted?

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Obeying robots.txt seems to work only for some links #71

Obeying robots.txt seems to work only for some links #71

danrg commented Feb 12, 2020 •

edited

Obeying robots.txt seems to work only for some links #71

Obeying robots.txt seems to work only for some links #71

Comments

danrg commented Feb 12, 2020 • edited

danrg commented Feb 12, 2020 •

edited