AI 术语通俗词典:中位数

张开发
2026/4/12 12:23:17 15 分钟阅读

分享文章

AI 术语通俗词典:中位数
中位数是统计学、数据分析、机器学习和人工智能中非常基础的一个术语。它用来描述一组数据按大小规律排序后位于中间位置的数值。换句话说中位数是在回答如果把这组数据从小到大排好最中间的那个位置在哪里。如果说平均数回答的是“整体大致处于什么水平”众数回答的是“最常见的是哪一个值”那么中位数回答的就是“中间位置的代表值是什么”。因此中位数常用于描述数据的中心位置、减弱极端值影响、理解分布偏态和分析收入、房价、成绩等数据在人工智能与数据分析中具有重要基础意义。一、基本概念什么是中位数中位数Median是把一组数据按大小规律排序后位于中间位置的数。它强调的不是“平均”也不是“出现次数最多”而是“位置上的正中间”。例如数据1, 3, 5已经从小到大排列好其中中间那个数是3因此这组数据的中位数是 3。再例如数据2, 4, 6, 8, 10排序后中间位置是第三个数因此中位数是6。从通俗角度看中位数可以理解为把一组数据排成一列后正中间那个位置上的值。不过要注意一件事中位数的计算方式会根据数据个数是奇数还是偶数而有所不同。1、数据个数为奇数时如果一组数据有奇数个值那么中位数就是排序后正中间的那个值。例如1, 2, 3, 4, 5共有 5 个数排序后中间是第 3 个数因此中位数是3。2、数据个数为偶数时如果一组数据有偶数个值那么中间会落在两个数之间。这时通常把中间两个数取平均作为中位数。例如1, 2, 3, 4共有 4 个数中间是第 2 个和第 3 个数也就是 2 和 3因此中位数是所以这组数据的中位数是 2.5。也就是说奇数个数据中位数就是中间那个数偶数个数据中位数是中间两个数的平均值。从位置意义上说中位数把数据分成了两半一半数据不大于它一半数据不小于它。因此中位数本质上描述的是位置中心而不是数值上的平均平衡。例如数据1, 2, 3, 100, 200中位数是 3。这个结果并不等于“整体平均水平”而是表示排序之后3 正好位于中间位置。这也是中位数与平均数一个非常重要的区别。二、中位数的重要性与常见应用场景1、中位数的重要性中位数之所以重要是因为现实中的很多数据并不总是分布得很均匀。有时少量极端大值或极端小值会明显拉动平均数使平均数不能很好代表“典型水平”。而中位数由于只看排序位置不直接受极端值大小影响因此往往更稳健。首先中位数能较好地反映“典型位置”。当我们想知道“一组数据大致位于哪里”时中位数常常比平均数更能代表“多数数据所处的位置”。其次中位数对极端值不太敏感。例如一组收入数据中如果有少数极高收入者平均收入可能会被拉得很高但中位数收入通常仍然能较好地反映普通人的典型水平。再次中位数特别适合偏态分布数据。如果数据明显偏斜例如房价、收入、订单金额、浏览时长等中位数常常是比平均数更稳妥的中心指标。可以概括地说平均数更强调“整体平均平衡”中位数更强调“排序后的中间位置”。2、常见应用场景1在收入、房价等偏态数据中中位数常用于描述典型水平这类数据往往存在少量非常大的值。如果直接看平均数结果容易被这些极端值拉高而中位数更能代表“一般水平”。例如中位数收入中位数房价中位数订单金额这些表述在实际分析中都非常常见。2在成绩分析中中位数可用于描述班级中间水平如果某次考试中存在极端高分或极端低分中位数可以较稳定地反映班级整体的中间位置而不容易被少数异常成绩影响。3在数据清洗与统计概括中中位数常用于稳健描述在探索性数据分析Exploratory Data AnalysisEDA中中位数常与四分位数Quartile、箱线图Boxplot等一起使用用来理解数据分布位置与异常情况。4在缺失值填补中中位数可用于数值型变量若某个数值型变量存在缺失值并且数据中有明显极端值那么用中位数填补往往比用平均数填补更稳健。5在机器学习中中位数可用于稳健预处理与统计特征构造在特征工程中中位数有时会被用来作为稳健统计特征尤其是在数据波动较大、异常值较多的场景中。可以概括地说原始数据说明“每个值分别是多少”中位数说明“排序后的中间位置在哪里”。三、中位数与平均数、众数的区别中位数常与平均数Mean、众数Mode一起出现因此有必要顺便区分。1、中位数与平均数平均数是把所有数据加起来再除以个数因此它会受到每个数值大小的影响。中位数则只看排序后的位置不直接关心极端值有多大。例如数据1, 2, 3, 4, 100其中平均数而中位数是3。可以看到平均数被 100 明显拉高了而中位数仍然稳定地落在多数数据附近。这说明平均数对极端值敏感中位数对极端值更稳健。2、中位数与众数众数看的是“谁出现次数最多”中位数看的是“排序后谁在中间”。例如数据1, 1, 2, 3, 4其中众数是 1中位数是 2。再例如数据1, 2, 2, 3, 4其中众数是 2中位数也是 2。这说明二者有时相同有时不同。但含义始终不同众数强调高频出现中位数强调位置居中。3、三者各自更适合什么场景可以简单概括为平均数适合关心整体平均水平时使用中位数适合关心中间位置且希望减弱极端值影响时使用众数适合关心最常见情况尤其适用于类别数据时使用。四、使用中位数时需要注意的问题中位数虽然非常常用但在理解和使用时也要注意几个问题。1、中位数必须先考虑排序中位数的核心是“位置在中间”因此计算前必须先按大小规律对数据排序。如果不排序就无法确定谁在中间。2、中位数不反映极端值大小这既是它的优点也是它的限制。中位数对极端值不敏感因此更稳健但也正因为如此它不能反映极端大值或极端小值对整体水平的影响。3、中位数适合数值型或可排序数据中位数要求数据至少具有可排序性。对于纯类别型数据例如颜色、品牌、城市等如果没有自然顺序通常就不适合讨论中位数。4、中位数只是位置中心不等于“最常见值”初学者容易把中位数和众数混淆。中位数是“排好后在中间”众数是“出现次数最多”二者含义不同。5、单独使用中位数有时还不够中位数能告诉我们中心位置但不能说明数据分散程度有多大。例如两组数据可能中位数相同但分布宽度完全不同。因此实际分析中常需要结合四分位数、标准差、箱线图等一起看。五、Python 示例下面给出两个简单示例用来说明中位数的基本计算方式以及它为什么比平均数更不容易受极端值影响。示例 1计算一组数据的中位数# 一组数据data [7, 2, 9, 4, 5] # 先排序sorted_data sorted(data) # 计算中位数n len(sorted_data)middle n // 2 if n % 2 1: median_value sorted_data[middle]else: median_value (sorted_data[middle - 1] sorted_data[middle]) / 2 print(原始数据, data)print(排序后, sorted_data)print(中位数, median_value)这个例子展示了中位数的基本计算过程先排序再根据数据个数是奇数还是偶数决定取中间一个值还是中间两个值的平均。示例 2比较平均数与中位数对极端值的反应# 一组含有极端值的数据data [1, 2, 3, 4, 100] # 计算平均数mean_value sum(data) / len(data) # 计算中位数sorted_data sorted(data)n len(sorted_data)middle n // 2 if n % 2 1: median_value sorted_data[middle]else: median_value (sorted_data[middle - 1] sorted_data[middle]) / 2 print(原始数据, data)print(平均数, mean_value)print(中位数, median_value)这个例子展示了中位数的重要特点虽然数据中有一个很大的极端值 100平均数被明显拉高但中位数仍然保持在 3更接近多数数据所在的位置。 小结中位数是一种用来描述数据排序后中间位置的统计量。它强调的不是整体平均也不是最常出现而是“谁位于正中间”。由于中位数对极端值不太敏感因此在收入、房价、成绩等偏态数据分析中非常常见。对初学者而言可以把它理解为平均数说明“整体平均水平”众数说明“最常见的是谁”而中位数说明“排序后处在中间的是谁”。“点赞有美意赞赏是鼓励”

更多文章