javascript – 节点Jsdom Scrape谷歌的反向图像搜索
作者:互联网
我想以编程方式查找给定图像URL的类似图像的URL列表.我找不到任何免费的图片搜索API,所以我试图通过刮掉Google的Search by Image来做到这一点.
如果我有图像URL,例如http://i.imgur.com/oLmwq.png,则导航到https://www.google.com/searchbyimage?&image_url=http://i.imgur.com/oLmwq.png会提供相关的图像和信息.
如何让jsdom.env
生成浏览器从上述URL获取的HTML?
这是我尝试过的(CoffeeScript):
jsdom = require 'jsdom'
url = 'https://www.google.com/searchbyimage?&image_url=http://i.imgur.com/oLmwq.png'
jsdom.env
html: url
scripts: [ "http://code.jquery.com/jquery.js" ]
features:
FetchExternalResources: ['script']
ProcessExternalResources: ['script']
done: (errors, window) ->
console.log window.$('body').html()
您可以看到HTML与我们想要的不匹配.这是Jsdom的HTTP标头的问题吗?
解决方法:
对于像这样的任务,我发现request cheerio比jsdom更容易.我看到你已经找到了答案,但我想我会把它作为替代解决方案.
例:
var request = require('request'),
cheerio = require('cheerio');
var google = 'https://www.google.com/searchbyimage';
var image = 'http://i.imgur.com/oLmwq.png';
var options = {
url: google,
qs: { image_url: image },
headers: { 'user-agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11' }
};
request(options, function (err, res, body) {
var $= cheerio.load(body);
…
});
标签:scrape,javascript,node-js,httprequest,jsdom 来源: https://codeday.me/bug/20190826/1724784.html