如何使用python从Intranet站点抓取URL数据?
作者:互联网
我需要一个Python战士来帮助我(我是菜鸟)!我正在尝试使用Module urllib从Intranet网站中抓取某些数据.但是,由于这是我公司的网站,仅供员工查看而不向公众公开,因此我认为这是获得以下代码的原因:
IOError :(“ http错误”,401,“未经授权”,)
我该怎么办?它甚至不会使用htmlfile.read()读取站点.
获取公共站点的示例代码:
import urllib
import re
htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")
htmltext = htmlfile.read()
regex = '<span id="yfs_l84_aapl">(.+?)</span>'
pattern = re.compile(regex)
price = re.findall(pattern,htmltext)
print price
解决方法:
import requests
from requests_ntlm import HttpNtlmAuth
r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))
print r.text
如果您需要有关此库的任何详细信息的帮助,而在文档中找不到它,请发表评论.
标签:intranet,urllib,web-scraping,python 来源: https://codeday.me/bug/20191121/2052154.html