在统计学中,中位数是指将一组数据按照从小到大(或从大到小)的顺序排列,处于中间位置的那个数。如果数据的个数是奇数,则中位数是这组数据中间那个数;如果数据的个数是偶数,则中位数是中间两个数的平均数。
一、计算中位数的算法
计算中位数的算法有多种。以下是两种常用方法:
方法一:排序法
def median(numbers): numbers.sort() # 将列表从小到大排序 n = len(numbers) mid = n // 2 # 求中间位置下标 if n % 2 == 0: # 如果数据的个数是偶数 return (numbers[mid-1] + numbers[mid]) / 2 else: # 如果数据的个数是奇数 return numbers[mid]
这种方法的时间复杂度为O(nlogn),因为它需要先对列表进行排序。
方法二:计数法
def median(numbers): freq_dict = {} # 创建一个字典 for x in numbers: freq_dict[x] = freq_dict.get(x, 0) + 1 # 统计每个数出现的次数 sorted_freq = sorted(freq_dict.items()) # 将字典按照键(即数值)排序 n = len(numbers) mid = n // 2 # 求中间位置下标 count = 0 if n % 2 == 0: # 如果数据的个数是偶数 for num, freq in sorted_freq: count += freq if count == mid: return (num + prev_num) / 2 elif count > mid: return num prev_num = num else: # 如果数据的个数是奇数 for num, freq in sorted_freq: count += freq if count > mid: return num
这种方法的时间复杂度为O(n),因为它只需要统计每个数出现的次数,并按照数值排序。
二、计算中位数的代码示例
以下是一个计算中位数的完整代码示例:
def median(numbers): freq_dict = {} # 创建一个字典 for x in numbers: freq_dict[x] = freq_dict.get(x, 0) + 1 # 统计每个数出现的次数 sorted_freq = sorted(freq_dict.items()) # 将字典按照键(即数值)排序 n = len(numbers) mid = n // 2 # 求中间位置下标 count = 0 if n % 2 == 0: # 如果数据的个数是偶数 for num, freq in sorted_freq: count += freq if count == mid: return (num + prev_num) / 2 elif count > mid: return num prev_num = num else: # 如果数据的个数是奇数 for num, freq in sorted_freq: count += freq if count > mid: return num } # 调用函数计算中位数 numbers = [1, 2, 3, 4, 5, 5, 7, 8, 9] print(median(numbers))
输出结果为5。
三、总结
计算中位数在统计学和数据处理中是一个非常常见的操作。本文介绍了两种计算中位数的方法:排序法和计数法。排序法的时间复杂度为O(nlogn),计数法的时间复杂度为O(n)。在实际的应用中,应该根据数据的大小、数据分布和性能要求等不同的因素来选择合适的方法。