编程语言
首页 > 编程语言> > 如何使用python从Intranet站点抓取URL数据?

如何使用python从Intranet站点抓取URL数据?

作者:互联网

我需要一个Python战士来帮助我(我是菜鸟)!我正在尝试使用Module urllib从Intranet网站中抓取某些数据.但是,由于这是我公司的网站,仅供员工查看而不向公众公开,因此我认为这是获得以下代码的原因:

IOError :(“ http错误”,401,“未经授权”,)

我该怎么办?它甚至不会使用htmlfile.read()读取站点.

获取公共站点的示例代码:

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

解决方法:

requests_ntlm尝试requests

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text

如果您需要有关此库的任何详细信息的帮助,而在文档中找不到它,请发表评论.

标签:intranet,urllib,web-scraping,python
来源: https://codeday.me/bug/20191121/2052154.html