В этом упражнении вы научитесь классифицировать и отображать данные на основе их количественных характеристик.

Суть классификации состоит в группировании объектов с близкими значениями. От того, как вы определите диапазоны для классов, будет зависеть, какие объекты попадут в каждый класс, и, следовательно, как будет выглядеть готовая карта. Вы будете изучать  стандартные схемы классификации и увидите, что различные методы классификации  могут создавать совершенно разные карты.

Выполняя упражнение, вы научитесь выбирать наиболее подходящие методы классификации, учитывая конкретное распределение значений, подлежащих классификации.

Для изучения методов классификации вам предлагаются данные переписи населения России 2002 года.  Данные обобщены  до  уровня регионов и представлены в таблице  CENSUS.DBF.

В интерфейсе АгсМар отобразится документ карты Без имени и рамка данных по умолчанию под названием Слои.

Теперь вы будете добавлять пространственные данные как слои вашей карты.

Набор данных, который вы создали при выполнении предыдущего упражнения, добавился как слой в таблицу содержания и на карту. Далее вы добавите в таблицу содержания таблицу CENSUS.DBF.

Таблица с результатами переписи населения будет добавлена к сеансу ArcMap.

Вы видите поле, в котором записаны названия регионов России, а также  9 дополнительных полей, содержащих результаты переписи населения: Население – число жителей региона,  Мужчины- численность мужского населения региона, Женщины- численность женского населения региона, Городское – доля городского населения региона в %, Сельское- доля сельского населения региона %, Возр_0_17 – численность населения возрасте до 17 лет, Возр_18_60 – численность населения возрасте от 18 до 60 лет, Возр_61_ – численность населения старше 60 лет, квм_чел – число квадратных метров жилья, приходящихся на одного жителя региона.

Т.к. атрибуты регионов хранятся в  отдельной  таблице CENSUS.DBF, а не непосредственно в таблице слоя, требуется создать соединение, которое определит отношения между двумя таблицами. Для соединения таблиц вы можете использовать названия регионов, которые и в той и другой таблице хранятся в поле Регион. Соединение таблиц позволит получить доступ к значениям таблицы CENSUS.DBF.

Откроется диалоговое окно свойств слоя Регионы России.

Обратите внимание, что связанные поля теперь присоединены к слою.

Теперь вы можете использовать присоединенную таблицу для отображения слоя.

Данные могут быть классифицированы с использованием различных методик, включающих ручную, равноинтервальную, заданного интервала, квантиль, естественные интервалы (Дженкс), геометрический интервал и стандартное отклонение.

Вы должны выбрать наиболее подходящий метод классификации с учетом конкретного распределения значений. А затем решить вопрос о выборе числа классов.

Хорошим способом оценки распределения значений данных  является представление их на гистограмме.

Вы будете отображать регионы России  на основании численности населения.

Диалог Классификация показывает визуальное представление значений данных и интервалов классификации на гистограмме. Атрибутивные значения отображаются вдоль оси X, а число объектов - по оси У. Точки разрыва значений в каждом классе отображаются на гистограмме голубой линией и числом (рис.10). Вы можете перемещать эти линии, чтобы определить свои границы классов. В этом случае вы автоматически переключаетесь на режим классификации  Вручную.

По умолчанию весь диапазон значений атрибута разбивается на 100 интервалов. Вы установили меньшее число интервалов, так как структура гистограммы с таким количеством интервалов (столбцов ) видна более отчетливо.

Вы видите, что ваши данные имеют мультимодальное распределение, при котором многие объекты имеют одинаковые или близкие значения, также существуют разрывы между группами величин.

 Для подобных распределений наиболее удачным методом классификации является метод естественных границ. Метод естественных границ выявляет группы, которые свойственны вашим данным, поэтому значения в пределах каждого класса оказываются близкими, а значения между классами различаются.

Значения данных, которые образуют группу, помещаются в один класс. Границы классов устанавливаются в тех местах, где между группами значений образуются пробелы.

Определившись с выбором схемы классификации, вам необходимо решить, сколько создавать классов. Если вы выбрали правильную схему классификации, то изменение числа классов не повлияет существенно на характер закономерностей на карте, просто сами закономерности будут заметны в большей или меньшей степени.

Гистограмма показывает, что в данных есть 3 группы значений, которые разделяются пробелами.

Вы видите, что первая группа объединяет множество объектов с наиболее низкими значениями атрибута. Для второй группы характерно несколько более высокое значение численности населения, число объектов в этой группе существенно меньше, чем в первой. В третьей группе содержится всего несколько объектов с очень высокими значениями численности населения.

Теперь на карте показаны Регионы России, классифицированные по численности населения. Структура распределения числа жителей выражена весьма ярко. Вы видите, что в первый класс попало всего два региона- г. Москва и Московская область. Здесь проживает наибольшее число жителей. Регионы, с несколько меньшей численностью населения (второй класс), относятся, преимущественно, к южным регионам России. Остальные регионы (третий класс) образуют большой класс территорий с низкой численностью населения.

Вы получили интересный результат. Однако, деление объектов всего на 3 класса дает слишком грубую картину, и вы не видите более тонких закономерностей.

Проследите, как меняется отображение регионов с увеличением числа классов. Чтобы увеличить число классов нет необходимости переходить в окно Классификация: выбирайте необходимое число классов в окне Классы рядом с кнопкой Классифицировать. Для обновления изображения карты регионов не забывайте нажимать кнопку Применить.

Вы наблюдаете, что общая закономерность в распределении регионов остается прежней, это значит, что метод классификации был выбран правильно.  Но информативность изображения увеличивается. Кроме того, выявляются интересные детали распределения. Например, Мурманская область и Республика Саха (Якутия) имеют приблизительно одинаковую численность населения, но площади их несоизмеримы. Или, некоторые регионы с чрезвычайно низкой численностью населения (национальные округа Коми-Пермяцкий, Усть-Ордынский Бурятский   и Агинский Бурятский) находятся в окружении регионов с высокой численностью населения.

Если вы еще раз просмотрите отображения классификаций с разным количеством классов, то убедитесь, что при выборе числа классов от 10 до 20 картина практически не  изменяется. Кроме того, вы должны помнить, что большинство пользователей не могут отчетливо различать более 7-10 цветов. Поэтому использование большего числа  цветов для классов затрудняет  чтение карты.

Для  данного случая остановимся на выборе числа классов равного 10 (рис.11).

Теперь поэкспериментируйте с  методами классификации, чтобы еще раз убедится в правильности выбора метода Естественных границ.

Метод равных интервалов классифицирует атрибуты так, что каждый класс содержит одинаковый диапазон значений, т.е. разность между максимальной и минимальной  величинами одинакова для каждого класса. Поэтому этот метод лучше всего подходит для картирования непрерывных данных, таких, например, как температура или количество осадков. В нашем случае данные образуют группы. Вследствие неравномерного распределения оказалось, что большая часть объектов собраны в первые три класса (рис.12), последний класс содержит только один объект, а некоторые классы и вовсе остались пустыми. Такое распределение негативно сказалось на изображении карты регионов:  карта трудночитаемая, т.к. на ней  преобладают коричневые цвета (рис.13), г.Москва и Московская область на карте выглядят как выбросы, т.к. каждый из этих регионов составляет целый  класс  с очень высокими значениями атрибута.

Вы убедились, что метод равных интервалов  не подходит для классификации регионов по численности населения.

Вы видите, что метод Заданный интервал дает практически  такое  же распределение, что и метод Равных интервалов (рис.14,15). В действительности так и должно быть, т.к. метод равных интервалов разбивает объекты на классы по аналогичному алгоритму. Различие состоит лишь в том, что интервал класса не вычисляется, а назначается пользователем.

Метод квантиля старается сгруппировать в каждый класс одинаковое количество объектов. Этот метод, как правило, используется  для картирования областей, которые имеют примерно одинаковые размеры, а также  для картирования данных с равномерным распределением величин. Под равномерным распределением подразумевается нормальное, или почти нормальное распределение значений атрибута, без разрывов в диапазоне значений. Анализ гистограммы (рис.16) показывает, что разбиение на классы произошло не совсем удачно. Объекты с близкими значениями  величин оказались в разных классах, что особенно неудачно, т.к. эти величины образуют единую группу (8-ой  и 9-ый классы с диапазонами значений  1675759 – 2692251 и 2692252 - 3524028, соответственно). Подобное разбиение на классы приводит к визуальному увеличению разницы между объектами при отсутствии таковой. Десятый (последний класс) с диапазоном значений 3524029 - 10382754 демонстрирует другой серьезный недостаток этой схемы классификации: несколько соседних величин, отстоящих друг от друга на большой интервал, объединены в один класс, что сводит к нулю разницу между этими объектами. Вы видите (рис.17), что такие регионы как, например, г.Москва и Ростовская обл., попадают в один класс, хотя численность населения этих регионов различается на порядок.

Вы убедились, что метод Квантиль тоже  не подходит для классификации регионов по численности населения.

Метод  Геометрический интервал разбивает объекты на классы таким образом, что интервалы классов образуют геометрическую прогрессию. Метод рассчитывает интервалы, минимизируя квадрат суммы элементов, приходящихся  на каждый  класс. Благодаря этому классы имеют примерно одинаковое число элементов, и в тоже время значения атрибутов в пределах класса подобны. Таким образом, метод Геометрический интервал объединяет в себе возможности методов Квантиль и Естественные границы.

 На гистограмме (рис.18) вы видите, что  разбиение на классы произошло более корректно, чем в случае использования метода Квантиль. Диапазоны классов близки к диапазонам классов при выборе метода Естественные границы. Поэтому и отображение регионов по численности населения практически такое же, как и при использовании метода  Естественные границы (рис.19).

Метод Геометрический интервал был разработан специально для классификации объектов с мультимодальным распределением, поэтому, он также как и метод Естественных границ подходит для классификации по атрибуту «Население».

Метод среднеквадратичного отклонения обычно используется для того, чтобы показать на карте объекты, значения атрибутов которых существенно отличаются от среднего.

На первый взгляд вы получили именно такую картину (рис.20.). Но вы должны помнить, что метод основан на статистических показателях – среднее и стандартное отклонение-, и подразумевает, что распределение классифицируемых величин нормальное. Вы уже знаете, что распределение значений атрибута «Население» мультимодальное, поэтому этот метод классификации применять в данном случае не рекомендуется.

На настоящий момент вы достаточно подробно изучили стандартные методы классификации, реализуемые  в системе ArcGIS. Вы изучили  особенности каждого метода и границы его применимости.  Вы выяснили, что для классификации регионов России по численности населения наилучшие результаты дают методы классификации Естественные границы и Геометрический интервал с числом классов равным 10.

 Но  это далеко не все возможности системы ArcGIS для классификации и визуализации классифицированных данных. Вы получили карту  распределения числа жителей, проживающих в каждом регионе. Но регионы имеют разные размеры, поэтому представление о степени населенности того или иного региона не совсем  верное. Для подобных ситуаций есть другое решение, состоящее в использовании относительных значений.

Относительные значения показывают взаимные отношения между двумя количественными величинами, и находятся делением одной количественной величины на другую для каждого объекта. Использование относительных значений устраняет влияние разницы между большими и малыми площадями участков  на карте или разницы между участками, на которых может быть много или мало  объектов, поэтому такой подход дает возможность более точно показывать распределение объектов. Чаще всего используются такие виды относительных значений, как пропорции и плотности.

Пропорции показывают, какую часть от целого значения составляет каждая величина. Чтобы рассчитать пропорцию, следует разделить  друг на друга значения, которые выражены в одинаковых единицах измерения. Часто для удобства записи пропорции выражают в виде процентов (пропорция, умноженная на 100). Например, деление числа жителей в возрасте от 18 до 60 лет в каждом регионе на полное число жителей соответствующего  региона, дает  процентное содержание трудоспособного населения в пределах каждого региона. Процентное содержание можно вычислить и другим способом: как результат деления значения на сумму всех значений. Так, например, можно отобразить карту численности населения регионов, представленную не в абсолютных значениях, а в процентах от общего числа жителей России.

Плотности показывают значения концентрации объектов. Чтобы получить плотность, нужно разделить значение на площадь объекта. В этом случае вы получаете удельное значение данной величины, приходящиеся на единицу площади. Например, делением числа жителей региона на площадь региона, выраженную в квадратных километрах, вы получите среднее число жителей, приходящееся на один квадратный километр.

Примечательно, что в системе AcrGIS пользователю для отображения относительных величин нет нужды проводить дополнительные вычисления. AcrGIS позволяет рассчитывать относительные значения «на лету», производя соответствующие  вычисления  в процессе создания карты. Для этого вы только указываете, данные из каких столбцов в таблице данных следует разделить.

Вы получили карту распределения регионов по численности населения (рис.21),  такую же как на рис. 11, но выраженную в процентах по отношению к общему числу жителей России.

Далее вы построите карту плотности населения.

Вы получили карту распределения регионов по плотности населения (рис.22). Эта карта существенно отличается от предыдущей и дает более правдивое представление о степени населенности  того или иного  региона, т.к. распределение теперь не зависит от размера региона. Мы наблюдаем своеобразную зональность в характере заселенности территории России: вполне отчетливо  выделяются три зоны  субширотного простирания с высокой и средней плотностью населения, с низкой плотностью населения и чрезвычайно низкой плотностью населения.

Продолжим изучение данных переписи населения. Для отображения относительных данных вы можете использовать и другие способы отображения, например, диаграммы.

Применяя диаграммы, можно одновременно показать распределения нескольких категорий, например распределение мужского и женского населения по регионам.

Вы получили отображение численности мужчин и женщин в каждом регионе, а также соотношение этих характеристик с помощью столбчатых диаграмм  (рис.24). Диаграммы показывают, что в большинстве регионов женское население несколько преобладает над мужским. Возможно, более детальное представление о соотношении мужского и женского населения даст прямое  деление численности мужского населения на численность женского населения и отображение этой пропорции с помощью цветовых схем.

Вы видите, что использование пропорции дает  в данном случае более информативную картину (рис.25). Распределение соотношения мужского и женского населения по регионам не одинаково: женское население преобладает в центральных районах с развитой экономикой и более высоким уровнем жизни, мужское население преобладает в северных и дальневосточных регионах с более суровыми природными условиями и менее комфортными условиями жизни. Также мы можете заметить, что  для национальных округов и республик разница между мужским и женским населением минимальна.

Постройте карты, показывающие:

  1. Распределение соотношения городского и сельского населения (используйте метод диаграмм).
  2. Распределение регионов по числу квадратных метров жилья, приходящихся на каждого жителя. Карта должна показывать регионы, в которых обеспеченность жильем выше и ниже среднего по России.
  3. Распределение доли детей в возрасте до 18 лет по отношению к числу всех жителей региона.
  4. Распределение доли трудоспособного населения к общей численности населения региона.
  5. Распределение доли людей пенсионного возраста  к общей численности населения региона.
  6. Сколько жителей трудоспособного возраста приходится на одного ребенка в возрасте до 18 лет. 

Ответьте на вопросы:

1) В каких  регионах  России  отсутствует городское население ?

2) Какой метод классификации вы выбрали для построения карты распределения  регионов по числу квадратных метров жилья, приходящихся на каждого жителя? Обоснуйте свой выбор. Опишите пространственное распределение регионов, население которых в среднем имеет лучшее обеспечение жильем.  

3) Какой метод классификации вы использовали для построения карт, показывающих долю различных категорий населения (детей, трудоспособных жителей, пенсионеров) к общему числу жителей в пределах каждого региона. Опишите  полученные распределения. Какие интересные закономерности вы заметили ?

4) Какие настройки свойств своя вы использовали, чтобы получить карту №6. Сколько взрослых жителей в возрасте до 61 года приходится на одного ребенка в следующих регионах: Тульская обл., Омская обл., Республика Ингушетия?