使用boto3和回调跟踪S3文件的下载进度
作者:互联网
我正在尝试使用boto3从S3下载文本文件.
这是我写的.
class ProgressPercentage(object):
def __init__(self, filename):
self._filename = filename
self._size = float(os.path.getsize(filename))
self._seen_so_far = 0
self._lock = threading.Lock()
def __call__(self, bytes_amount):
# To simplify we'll assume this is hooked up
# to a single filename.
with self._lock:
self._seen_so_far += bytes_amount
percentage = round((self._seen_so_far / self._size) * 100,2)
LoggingFile('{} is the file name. {} out of {} done. The percentage completed is {} %'.format(str(self._filename), str(self._seen_so_far), str(self._size),str(percentage)))
sys.stdout.flush()
而我正在使用它
transfer.download_file(BUCKET_NAME,FILE_NAME,'{}{}'.format(LOCAL_PATH_TEMP , FILE_NAME),callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))
这给了我一个错误,该文件夹中没有该文件.显然,当我已经在同一文件夹中有一个具有此名称的文件时,它可以工作,但是当我下载一个新文件时,它会出错.
我需要做出哪些更正?
解决方法:
callback = ProgressPercentage(LOCAL_PATH_TEMP FILE_NAME))创建一个ProgressPercentage对象,运行其__init__方法,并将该对象作为回调传递给download_file方法.这意味着__init__方法在download_file开始之前运行.
在__init__方法中,您尝试读取正在下载的本地文件的大小,由于文件不存在而引发异常,因为下载尚未开始.如果您已经下载了该文件,那么就没有问题,因为存在本地副本并且可以读取其大小.
当然,这只是你所看到的例外的原因.您正在使用_size属性作为下载进度的最大值.但是,您尝试使用本地文件的大小.在文件完全下载之前,本地文件系统不知道文件有多大,它只知道它现在占用了多少空间.这意味着当您下载文件时,它将逐渐变大,直到达到其完整大小.因此,将本地文件的大小视为下载的最大大小并不合理.它可能适用于您已经下载文件的情况,但这不是很有用.
您的问题的解决方案是检查您要下载的文件的大小,而不是本地副本的大小.这可以确保您获得正在下载的任何内容的实际大小,并且该文件存在(如果没有,则无法下载).您可以通过使用head_object获取远程文件的大小来执行此操作,如下所示
class ProgressPercentage(object):
def __init__(self, client, bucket, filename):
# ... everything else the same
self._size = client.head_object(Bucket=bucket, Key=filename).ContentLength
# ...
# If you still have the client object you could pass that directly
# instead of transfer._manager._client
progress = ProgressPercentage(transfer._manager._client, BUCKET_NAME, FILE_NAME)
transfer.download_file(..., callback=progress)
最后一点,尽管你从Boto3 documentation获得了代码,但它没有用,因为它是用于文件上传的.在这种情况下,本地文件是源,并保证其存在.
标签:python,amazon-s3,callback,boto3 来源: https://codeday.me/bug/20190930/1836989.html