python-在Scrapy中使用nth-child
作者:互联网
我正在尝试使用Python工具Scrapy提取一些html.
我的选择器如下:
#navigation > nav > div.js-accordion-menu-wrapper > ul li:nth-child(n+5):nth-child(-n+10) > a::attr(href)
由于某种原因,这根本不起作用.具体来说,似乎’nth-child(-n x)只是行不通.就像Scrapy可能不使用它或不允许它.
有人可以确认吗?
解决方法:
使用cssselect 1.0.0的Scrapy 1.2.1似乎按预期工作.
这是一个示例scrapy shell会话:
In [1]: selector = scrapy.Selector(text="""<ul>
...: <li>1</li>
...: <li>2</li>
...: <li>3</li>
...: <li>4</li>
...: <li>5</li>
...: <li>6</li>
...: <li>7</li>
...: <li>8</li>
...: <li>9</li>
...: <li>10</li>
...: <li>11</li>
...: <li>12</li>
...: </ul>""")
In [2]: selector.css('ul li:nth-child(n+5)').extract()
Out[2]:
['<li>5</li>',
'<li>6</li>',
'<li>7</li>',
'<li>8</li>',
'<li>9</li>',
'<li>10</li>',
'<li>11</li>',
'<li>12</li>']
In [3]: selector.css('ul li:nth-child(n+5):nth-child(-n+10)').extract()
Out[3]:
['<li>5</li>',
'<li>6</li>',
'<li>7</li>',
'<li>8</li>',
'<li>9</li>',
'<li>10</li>']
我正在使用:
$scrapy version -v
Scrapy : 1.2.1
lxml : 3.6.4.0
libxml2 : 2.9.4
Twisted : 16.5.0
Python : 3.5.0+ (default, Oct 11 2015, 09:05:38) - [GCC 5.2.1 20151010]
pyOpenSSL : 16.2.0 (OpenSSL 1.0.2g 1 Mar 2016)
Platform : Linux-4.4.0-47-generic-x86_64-with-Ubuntu-16.04-xenial
$pip freeze | grep cssselect
cssselect==1.0.0
标签:scrapy,python,css-selectors 来源: https://codeday.me/bug/20191026/1937054.html