首页 > 编程语言> > 如何使用python从Intranet站点抓取URL数据？

如何使用python从Intranet站点抓取URL数据？

2019-11-21 13:06:40 作者：互联网

我需要一个Python战士来帮助我(我是菜鸟)！我正在尝试使用Module urllib从Intranet网站中抓取某些数据.但是,由于这是我公司的网站,仅供员工查看而不向公众公开,因此我认为这是获得以下代码的原因：

IOError ：(“ http错误”,401,“未经授权”,)

我该怎么办？它甚至不会使用htmlfile.read()读取站点.

获取公共站点的示例代码：

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

解决方法:

用requests_ntlm尝试requests：

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text

如果您需要有关此库的任何详细信息的帮助,而在文档中找不到它,请发表评论.

标签：intranet,urllib,web-scraping,python
来源： https://codeday.me/bug/20191121/2052154.html