Если мы умножим значения любого количественного признака на любую ненулевую константу и прибавим к ним любую константу, то это никак не изменит относительных расстояний между объектами по этому признаку. Поэтому мы можем использовать преобразования сдвига и масштаба для приведения разных признаков в соответствие друг с другом. Преобразование
где – среднее значение,
– число объектов, называется центрированием. После центрирования новое среднее признака равно 0:
Преобразование:
где – дисперсия признака (вместо
часто применяется
), называется нормированием. После такого преобразования все признаки становятся безразмерными, а новая дисперсия равна 1:
Каждый объект через значения измеренных у него признаков можно представить в виде точки в многомерном евклидовом пространстве. Каждый признак является в этом пространстве отдельной координатной осью, ортогональной всем остальным. Все объекты образуют в этом пространстве некоторое "облако". Координатами точек являются значения признаков. До нормировки это "облако" может находиться в стороне от начала координат, которое расположено в точке с нулевыми значениями всех признаков. Как мы уже знаем, исходные признаки, как правило, центрируются и нормируются. Центрирование геометрически означает перенос начала координат в "центр тяжести облака" – точку со средними значениями всех признаков, которая называется центроидом. Очевидно, что взаимное расположение объектов при центрировании не меняется. Нормировка признаков приводит к изменению масштабов пространства таким образом, что разброс точек вокруг среднего (равного нулю после центрирования) становится одинаковым по каждой оси и равным единице, т.е. все признаки уравниваются в правах и приобретают равный вес. Одним из мифов, сложившихся вокруг многомерного анализа, является представление о том, что нормировка – обязательный элемент этого метода. Это не так. Наиболее четко ситуация обрисована в трехтомнике Кендалла и Стьюарта (1976): "Решение о нормировке должно приниматься, исходя из нестатистических соображений". Если по каким-то содержательным причинам нужно придать разные веса исходным признакам или оставить первоначальные (например, работая с частотами), то исследователь вправе это делать по своему усмотрению. Весом признака служит величина разброса вокруг среднего, а не его абсолютные значения.
[Поэтому общепринятые правила судейства в наших КВН являются не совсем объективными. Важность конкурсов задается предельным числом очков, которые можно за него поставить, например, 4 – за разминку и 7 – за домашнее задание. Однако в первом случае судьи (кроме Гусмана), как правило, выбирают между 3 и 4, во втором – между 6 и 7. Это означает, что фактически все конкурсы равноправны и команда, проигравшая разминку с крупным счетом, уже имеет мало шансов отыграться на более важных конкурсах. Правильнее было бы судить все конкурсы из 10 баллов, а их важность оценивать коэффициентами, на которые нужно умножить результаты каждого конкурса.]
Надо всегда учитывать, что любая нормировка заново определяет евклидово расстояние между объектами. На практике количественные признаки, как правило, нормируются, исходя именно из желания исследователя так определить расстояние между объектами, чтобы все признаки участвовали в его определении в равной мере. Однако коррелирующие признаки в какой-то степени дублируют друг друга, и это неизбежно влияет на расстояние между объектами. В качестве попытки решить эту проблему было предложено расстояние Махаланобиса (лекция 3). Возможны и другие нормировки и другие расстояния, которые могут даже не быть расстояниями в том смысле, что для них не выполняются аксиомы метрики. В этом случае они называются различиями.
Возможна ситуация, когда координаты объектов не заданы, а вместо этого сразу дана матрица расстояний (количественный признак на парах объектов) или различий (ранговый признак). (Если задана матрица сходства, то ее всегда можно преобразовать в матрицу различий.) Чтобы приписать объектам координаты, применяются методы многомерного шкалирования (лекция 7).