Переменная измерена в номинальной шкале и значит непосредственное включение её в регрессионное уравнение будет некорректным. Оставить переменную без изменений фактически означало бы, что мы допускаем арифметическую операцию сложения материалов, например, 1 (кирпич) + 3 (шлакоблок) = 4 (дерево), что, конечно, не имеет смысла. Заменим её набором из четырёх фиктивных переменных, принимающих только два значения – 0 или 1:
– переменная равна 1, если стены дома кирпичные, иначе 0;
– переменная, равна 1, если стены дома панельные, иначе 0;
– переменная, равна 1, если материал стен – шлакоблок, иначе 0;
– переменная, равна 1, если стены дома изготовлены из дерева, иначе 0.
Для знакомства с имеющимися данными и проверки отсутствия в них явно некорректных значений построим описательную статистику (рис. 25), корреляционную матрицу (рис. 26) и гистограмму распределения цен (рис. 27).
Анализ данных описательной статистики (см. рис. 25) позволяет сделать следующие выводы:
Описательная статистика не обнаружила таких явно некорректных значений, как отрицательные значения площадей, цен, этажей и расстояний, но, по крайней мере, одна квартира, принимая во внимание, что минимальный размер общей площади 20 м2, имеет подозрительно малый размер жилой площади – 5 м2. Возможно это ошибка, допущенная при вводе данных; поэтому не лишним будет провести дополнительный анализ и очистку исходных данных.
Корреляционная матрица (см. рис. 26) даёт следующую информацию о характере влияния имеющихся факторов на цену квартиры (все выводы здесь делаются только на основании данных первого столбца, т.к. анализируется влияние имеющихся факторов на стоимость квартиры):
В целом корреляционная матрица не выявила каких-либо серьёзных аномалий в исходных данных, т.к. почти все сделанные выводы не противоречат здравому смыслу, кроме вывода об отсутствии связи между ценой квартиры и этажом. Возможными причинами столь странного вывода являются особенность имеющихся данных или же уникальная особенность жителей города Томска. Скорее всего в регрессионном уравнении оба фактора окажутся незначимыми.
Гистограмма распределения цен на квартиры (см. рис. 27) имеет почти симметричный вид с небольшим перекосом справа. Похожий график имеет плотность случайной величины, распределённой по логарифмически нормальному закону, поэтому наряду с простой линейной моделью имеет смысл исследовать зависимость логарифма цены от имеющихся факторов – возможно, такая модель окажется лучше.