Меры разброса данных

Мода

Это последняя мера центральной тенденции, о которой пойдёт речь. Мода определяется как значение, которое наиболее часто встречается в наборе данных. Мода не так очевидно соответствует понятию «середины» как среднее значение или медиана, но это соответствие абсолютно обосновано: если значение появляется в данных неоднократно, оно приблизит среднее значение к моде. Чем чаще появляется значение, тем сильнее оно влияет на среднее. Таким образом, мода показывает наиболее значимый фактор, формирующий среднее значение.

Как и в случае с медианой, встроенной функции для поиска моды у Python нет. Зато мы можем вычислить её сами, посчитав количество повторений различных цен и выбрав самую частую:

# Создаём пустой словарь, в котором будем считать количество появлений ценprice_counts = {}for p in prices: if p not in price_counts: counts[p] = 1 else: counts[p] += 1 # Проходимся по словарю и ищем максимальное количество повторенийmaxp = 0mode_price = Nonefor k, v in counts.items(): if maxp < v: maxp = v mode_price = kprint(mode_price, maxp) # 20.0, 7860

На самом деле, с версии Python 3.4 можно найти и моду.

Мода относительно близка к медиане, поэтому можно уверенно сказать, что и мода, и медиана отражают средние значения цен на вино.

Меры центральной тенденции полезны для описания среднего значения данных. Тем не менее они не показывают, насколько большой разброс присутствует в данных. Здесь на помощь приходят меры разброса данных.

Меры разброса данных

Меры разброса отвечают на вопрос: «Как сильно варьируются мои данные?». В мире существует не так много вещей, которые остаются в одном и том же состоянии при каждом наблюдении. Эта изменчивость делает мир нечётким и неопределённым, поэтому полезно иметь показатели, которые могут обобщить эту «нечёткость».

⇐ Предыдущая 1 2 345 6 Следующая ⇒