google-crawlers

首页 > TAG信息列表 > google-crawlers

java-使用孔径爬网打开Web浏览器数据的任何可能性

我知道使用Aperture抓取网站.如果我在Mozila Web浏览器中打开http://demo.crawljax.com/.如何使用Aperture抓取打开的浏览器内容. 脚步： 1.在您的mozila firefox上打开http://demo.crawljax.com/.2.执行Java程序以抓取打开mozila firefox选项卡.解决方法:看来您需要抓取JavaScript /

java – Crawler4j,一些网址被抓取没有问题,而其他网址根本没有被抓取

我一直在玩Crawler4j并成功地抓取了一些页面但没有成功抓取其他页面.例如,我已经使用此代码成功抓取Reddi： public class Controller { public static void main(String[] args) throws Exception { String crawlStorageFolder = "//home/user/Documents/Misc/Crawler/

php – 秘密查询字符串是否是限制访问和隐藏内容到非安全站点的合理方法？

所以我会在前面说,显然我知道这实际上并不安全,不要打扰我.我只是从懒惰的角度对这个问题感兴趣. 我有一个网站,其中包含一些我想“隐藏”给公众的信息.没有什么重要或脆弱的;我真的不想让人们找到它并弄乱它.我已经有一个robots.txt文件,不允许所有抓取.页面上没有链接(或者没有其