Это наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
где
dij - расстояние между
i-ым и
j-ым объектами (точками),
k - номер свойства (признака) этих объектов (
k = 1,2,...,
m). Если признаков всего три (
k = 1,2,3), то это наше обычное трёхмерное пространство, а
d - расстояние между двумя точками, измеренное, например, линейкой. Евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества. Например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом. Недостаток этой метрики заключается в неравноправности осей пространства. При ненормированных осях возможен случай, когда объекты, сходные по всем признакам, кроме одного, по которому они сильно разнятся, будут находиться далеко друг от друга в евклидовом пространстве.
Этот недостаток можно устранить подбором весов
(i), приписывая более важным признакам больший вес, тогда мерой сходства будет взвешенное евклидово расстояние.
Альтернативная гипотеза - гипотеза о значимости различий.
Асимметрия (коэффициент асимметрии) - число, характеризующее степень симметричности рассеяния данных относительно математического ожидания (среднего значения) выборки.
Антропометрия - область науки о размерах человеческого тела.
Вариация - рассеяние, разброс, неоднородность или изменчивость значений выборки.
Выборка - отобранная тем или иным способом часть генеральной совокупности.
Генеральная совокупность - множество относительно однородных, но индивидуально различимых объектов (наблюдений, измерений. описаний), объединённых для совместного изучения.
Гипотеза - это предположение, которое вызывает сомнение.
Гистограмма - графическое изображение частоты попадания элементов выборки в соответствующий интервал группировки.
Главные компоненты - собственные векторы ковариационной матрицы.
Дивизивный метод кластерного анализа - разновидность иерархического алгоритма, в котором вначале все объекты представляют один класс, а затем производится их разбиение на группы.
Дендрограмма (иерархическое дерево) - график, иллюстрирующий соподчинённость кластеров.
Диаграмма рассеивания - графическое отображение связи между двумя переменными.
Дисперсия - мера варьирования числовых значений признака около его среднего значения.
Евклидово расстояние
Зашумление данных - термин означает, что объекты не могут быть расклассифицированы однозначно, т.е. кластеры пересекаются. Такая ситуация встречается в данных с "плохой" структурой, с трудно различимыми состояниями.
Иерархические алгоритмы - группа методов кластерного анализа, результатом работы которых является иерархический ряд (иерархическое дерево) из кластеров. Иерархические процедуры позволяют проследить процесс выделения группировок и иллюстрируют соподчинённость кластеров, образующихся на разных этапах работы.
Итеративный метод - тип вычислительной процедуры, когда решение находится методом последовательных приближений; требует задания примерных значений решения в качестве нулевого приближения.
Итерация - отдельные повторяющиеся шаги вычислительного цикла в итеративной процедуре, дающие последовательные приближения к искомому результату.
Категориальные данные - данные номинальной шкалы измерений (например, данные социологических опросов).
Квантиль - значение случайной величины Х
р, соответствующее заданной вероятности
непревышения р. В гидрометеорологической практике по аналогии с квантилями используются ординаты кривой обеспеченности Хр', соответствующие вероятности
превышения р' (р=1-р').
Кластер - группа (скопление) элементов выборки, характеризующихся каким-либо общим свойством.
Кластеризация - выделение
различных однородных групп данных.