随时找到数据流中的中位数——Python实现方法

阅读: 评论:0

随时找到数据流中的中位数——Python实现方法

随时找到数据流中的中位数——Python实现方法

题目:有一个源源不断地吐出整数的数据流,假设你有足够的空间来保存吐出的数。请设计一个名叫MedianHolder的结构,MedianHolder可以随时取得之前吐出所有数的中位数。

解析:关于此问题的主要解题思路为建立大根堆和小根堆,大根堆用来存储较小的数,小根堆用来存储较大的数,在读入数据的过程中要进行大根堆和小根堆的调整,使两者所保存的数据量的差值不大于2,主要的步骤如下:

  1. 建立大根堆和小根堆;
  2. 读入第一个数据,将其放入大根堆中并建堆;
  3. 读入数据,比较该数据与大根堆堆顶元素的大小,如果该值小于大根堆的堆顶,将该值加入大根堆中并进行hepify操作,否则进行下一步操作;
  4. 如果小根堆为空,将该值放入小根堆中并建堆,并返回,否则比较该数据与小根堆堆顶元素的大小,如果该值小于小根堆的堆顶元素,则将该值加入到大根堆中,否则将其加入小根堆中,随后对该数据加入的堆进行heapify操作;
  5. 加入数据后对,大根堆和小根堆进行相应的调整: 如果大根堆的size比小根堆的size大2,那么从大根堆里将堆顶弹出,并放入小根堆中;如果小根堆的size比大根堆的size大2,那么从小根堆里将堆顶弹出,并放入大根堆中。

建堆完成后,如果大根堆和小根堆的size相等,那么取两个堆得堆顶元素的平均数即可,如果不相等,那么取size较大的堆的堆顶元素即可。

首先,我们利用Python自带的heapq模块分别建立大根堆和小根堆。

import heapqclass BigHeap():def __init__(self):self.arr = list()def heap_insert(self, val):heapq.heappush(self.arr, -val)def heapify(self):heapq.heapify(self.arr)def heap_pop(self):return -heapq.heappop(self.arr)def get_top(self):if not self.arr:returnreturn -self.arr[0]
import heapqclass SmallHeap():def __init__(self):self.arr = list()def heap_insert(self, val):heapq.heappush(self.arr, val)def heapify(self):heapq.heapify(self.arr)def heap_pop(self):return heapq.heappop(self.arr)def get_top(self):if not self.arr:returnreturn self.arr[0]

接下来我们设计MedianHolder结构来获取数据流中的中位数。

class MedianHolder():def __init__(self):self.bigHeap = BigHeap()self.smallHeap = SmallHeap()def addNum(self, num):if len(self.bigHeap.arr) == 0:self.bigHeap.heap_insert(num)returnif _top() >= num:self.bigHeap.heap_insert(num)else:if len(self.smallHeap.arr) == 0:self.smallHeap.heap_insert(num)returnif _top() > num:self.bigHeap.heap_insert(num)else:self.smallHeap.heap_insert(difyTwoHeapSize()def getMedian(self):smallHeapSize = len(self.smallHeap.arr)bigHeapSize = len(self.bigHeap.arr)if smallHeapSize + bigHeapSize == 0:return NonesmallHeapHead = _top()bigHeapHead = _top()if (smallHeapSize + bigHeapSize) %2 == 0:return (smallHeapHead+bigHeapHead)/2else:return smallHeapHead if smallHeapSize > bigHeapSize else bigHeapHeaddef modifyTwoHeapSize(self):smallHeapSize = len(self.smallHeap.arr)bigHeapSize = len(self.bigHeap.arr)if smallHeapSize == bigHeapSize + 2:self.bigHeap.heap_insert(self.smallHeap.heap_pop())if bigHeapSize == smallHeapSize + 2:self.smallHeap.heap_insert(self.bigHeap.heap_pop())

测试用例如下:

if __name__ == '__main__':arr = [68,51,42,92,13,46,24,58,62,72,32]medianHold = MedianHolder()for i in range(len(arr)):medianHold.addNum(arr[i])Median())

    

本文发布于:2024-01-30 17:25:36,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170660674221641.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:中位数   数据流   方法   Python
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23