编程语言
首页 > 编程语言> > python – heapq.nlargest如何工作?

python – heapq.nlargest如何工作?

作者:互联网

我在看this pycon talk, 34:30并且发言者说获得n个元素列表中的t个最大元素可以在O(t n)中完成.

怎么可能?我的理解是创建堆将是O(n),但是nlargest本身的复杂性是什么,是O(n t)还是O(t)(以及实际算法是什么)?

解决方法:

在这种情况下,发言者是错误的.实际成本是O(n * log(t)).仅在可迭代的前t个元素上调用Heapify.那是O(t),但如果t远小于n,则无关紧要.然后通过heappushpop将所有剩余的元素添加到这个“小堆”中,一次一个.每次调用heappushpop需要O(log(t))时间.堆的长度始终保持不变.在最后,堆被排序,其成本为O(t * log(t)),但如果t远小于n,那么这也是无关紧要的.

有趣的理论;-)

在预期的O(n)时间内找到第t个最大元素有相当简单的方法;例如,see here.在最坏情况下O(n)时间有更难的方法.然后,在输入的另一个传递中,您可以输出t元素> =第t个最大(在重复的情况下具有繁琐的复杂性).所以整个工作可以在O(n)时间内完成.

但这些方式也需要O(n)内存. Python不使用它们.实际实现的优点是最坏情况的“额外”存储器负担是O(t),并且当输入是例如产生大量值的发生器时,这可能是非常重要的.

标签:python,algorithm,time-complexity,heap
来源: https://codeday.me/bug/20190927/1822404.html