Введение в многомерный статистический анализ. Многомерный статистический анализ (128,00 руб.) Многомерный статистический анализ

Пример

Имеются данные о выпуске продукции группой предприятий по месяцам (млн. руб.):

Для выявления общей тенденции роста выпуска продукции произведем укрупнение интервалов. Для этой цели исходные (месячные) данные о выработке продукции объединяем в квартальные и получаем показатели выпуска продукции группой предприятий по кварталам:

В результате укрупнения интервалов общая тенденция роста выпуска продукции данной группой предприятий выступает отчетливо:

64,5 < 76,9 < 78,8 < 85,9.

Выявление общей тенденции ряда динамики можно произвести также путем сглаживания ряда динамики с помощью метода скользящей средней . Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни. При этом посредством осреднения эмпирических данных индивидуальные колебания погашаются, и общая тенденция развития явления выражается в виде некоторой плавной линии (теоретические уровни).

Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.

Недостатком способа сглаживания рядов динамики является то, что полученные средние не дают теоретических закономерностей (моделей) рядов, в основе которых лежала бы математически выраженная закономерность и это позволяло бы не только выполнить анализ, но и прогнозировать динамику ряда на будущее.

Значительно более совершенным приемом изучения общей тенденции в рядах динамики является аналитическое выравнивание . При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены усреднённо с помощью определенных математических функций. Путем теоретического анализа выявляется характер развития явления, и на этой основе выбирается то или иное математическое выражение типа изменения явления: по прямой, по параболе второго порядка, показательной (логарифмической) кривой и т.п.

Очевидно, что уровни временных рядов формируются под совокупным влиянием множества длительно и кратковременно действующих факторов, в т.ч. различного рода случайностей. Изменение условий развития явления приводит к более или менее интенсивной смене самих факторов, к изменению силы и результативности их воздействия и, в конечном счете, к вариации уровня изучаемого явления во времени.



Многомерный статистический анализ - раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения такого анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как многомерная величина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

1. Анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, поиск взаимодействий . Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).

3. Анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как анализ дискриминантный, анализ кластерный, шкалирование многомерное. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем:

Проблемы статистического исследования зависимостей между рассматриваемыми показателями;

Проблемы классификации элементов (объектов или признаков);

Проблемы снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Введение

Глава 1. Множественный регрессионный анализ

Глава 2. Кластерный анализ

Глава 3. Факторный анализ

Глава 4. Дискриминантный анализ

Список используемой литературы

Введение

Исходная информация в социально-экономических исследованиях представляется чаще всего в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). Поскольку число таких объектов и признаков может достигать десятков и сотен, и визуальный анализ этих данных малоэффективен, то возникают задачи уменьшения, концентрации исходных данных, выявления структуры и взаимосвязи между ними на основе построения обобщенных характеристик множества признаков и множества объектов. Такие задачи могут решиться методами многомерного статистического анализа.

Многомерный статистический анализ - раздел статистики, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого и предназначенным для получения научных и практических выводов.

Основное внимание в многомерном статистическом анализе уделяется математическим методам построения оптимальных планов сбора, систематизации и обработки данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.

Исходным массивом многомерных данных для проведения многомерного анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как , а последовательность наблюдений как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.

1. Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.

2. Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как анализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам ).

3.Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как дискриминантный анализ, кластерный анализ, многомерное шкалирование. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).

Прикладное значение многомерного статистического анализа состоит в основном в решении следующих трех задач:

· задача статистического исследования зависимостей между рассматриваемыми показателями;

· задача классификации элементов (объектов или признаков);

· задача снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.

Множественный регрессионный анализ предназначен для построения модели, позволяющей по значениям независимых переменных получать оценки значений зависимой переменной.

Логистическая регрессия для решения задачи классификации. Это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.

Факторный анализ занимается определением относительно небольшого числа скрытых (латентных) факторов, изменчивостью которых объясняется изменчивость всех наблюдаемых показателей. Факторный анализ направлен на снижение размерности рассматриваемой задачи.

Кластерный и дискриминантный анализ предназначены для разделения совокупностей объектов на классы, в каждый из которых должны входить объекты в определенном смысле однородные или близкие. При кластерном анализе заранее неизвестно, сколько получится групп объектов и какого они будут объема. Дискриминантный анализ разделяет объекты по уже существующим классам.

Глава 1. Множественный регрессионный анализ

Задание: Исследование рынка жилья в Орле (Советский и Северный районы).

В таблице приведены данные по цене квартир в Орле и по различным факторам, ее обусловливающим:

· общая площадь;

· площадь кухни;

· жилая площадь;

· тип дома;

· количество комнат. (Рис.1)

Рис. 1 Исходные данные

В графе «Район» использованы обозначения:

3 – Советский (элитный, относится к центральным районам);

4 – Северный.

В графе «Тип дома»:

1 – кирпичный;

0 – панельный.

Требуется:

1. Проанализировать связь всех факторов с показателем «Цена» и между собой. Отобрать факторы, наиболее подходящие для построения регрессионной модели;

2. Сконструировать фиктивную переменную, отображающую принадлежность квартиры к центральным и периферийным районам города;

3. Построить линейную модель регрессии для всех факторов, включив в нее фиктивную переменную. Пояснить экономический смысл параметров уравнения. Оценить качество модели, статистическую значимость уравнения и его параметров;

4. Распределить факторы (кроме фиктивной переменной) по степени влияния на показатель «Цена»;

5. Построить линейную модель регрессии для наиболее влиятельных факторов, оставив в уравнении фиктивную переменную. Оценить качество и статистическую значимость уравнения и его параметров;

6. Обосновать целесообразность или нецелесообразность включения в уравнение п. 3 и 5 фиктивной переменной;

7. Оценить интервальные оценки параметров уравнения с вероятностью 95%;

8. Определить, сколько будет стоить квартира общей площадью 74,5 м² в элитном (периферийном) районе.

Выполнение:

1. Проанализировав связь всех факторов с показателем «Цена» и между собой, были отобраны факторы, наиболее подходящие для построения регрессионной модели, используя метод включения «Forward»:

А) общая площадь;

В) количество комнат.

Включенные/исключенные переменные(a)

a Зависимая переменная: Цена

2. Переменная Х4 «Район» является фиктивной переменной, так как имеет 2 значения: 3-принадлежность к центральному району «Советский», 4- к периферийному району «Северный».

3. Построим линейную модель регрессии для всех факторов (включая фиктивную переменную Х4).

Полученная модель:

Оценка качества модели.

Стандартная ошибка = 126,477

Коэффициент Дарбина - Уотсона = 2,136

Проверка значимости уравнения регрессии

Значение критерия F-Фишера = 41,687

4. Построим линейную модель регрессию со всеми факторами (кроме фиктивной переменной Х4)

По степени влияния на показатель «Цена» распределили:

Самый значимый фактор – общая площадь (F= 40,806)

Второй по значимости фактор- количество комнат (F= 29,313)

5. Включенные/исключенные переменные

a Зависимая переменная: Цена

6. Построим линейную модель регрессии для наиболее влиятельных факторов с фиктивной переменной, в нашем случае она и является одним из влиятельных факторов.

Полученная модель:

У = 348,349 + 35,788 Х1 -217,075 Х4 +305,687 Х7

Оценка качества модели.

Коэффициент детерминации R2 = 0,807

Показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 89% вариации зависимой переменной учтено и обусловлено в модели влиянием включенных факторов.

Коэффициент множественной корреляции R = 0,898

Показывает тесноту связи между зависимой переменной У со всеми включенными в модель объясняющими факторами.

Стандартная ошибка = 126,477

Коэффициент Дарбина - Уотсона = 2,136

Проверка значимости уравнения регрессии

Значение критерия F-Фишера = 41,687

Уравнение регрессии следует признать адекватным, модель считается значимой.

Самый значимый фактор – количество комнат (F=41,687)

Второй по значимости фактор- общая площадь (F= 40,806)

Третий по значимости фактор- район (F= 32,288)

7. Фиктивная переменная Х4 является значимым фактором, поэтому целесообразно включить ее в уравнение.

Интервальные оценки параметров уравнения показывают результаты прогнозирования по модели регрессии.

С вероятностью 95% объем реализации в прогнозируемом месяце составит от 540,765 до 1080,147 млн. руб.

8. Определение стоимости квартиры в элитном районе

Для 1 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1

Для 2 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 2

Для 3 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 3

в периферийном

Для 1 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 1

Для 2 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 2

Для 3 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 3

Глава 2. Кластерный анализ

Задание: Исследование структуры денежных расходов и сбережений населения.

В таблице представлена структура денежных расходов и сбережений населения по регионам Центрального федерального округа Российской федерации в 2003 г. Для следующих показателей:

· ПТиОУ – покупка товаров и оплата услуг;

· ОПиВ – обязательные платежи и взносы;

· ПН – приобретение недвижимости;

· ПФА – прирост финансовых активов;

· ДР – прирост (уменьшение) денег на руках у населения.

Рис. 8 Исходные данные

Требуется:

1) определить оптимальное количество кластеров для разбиения регионов на однородные группы по всем группировочным признакам одновременно;

2) провести классификацию областей иерархическим методом с алгоритмом межгрупповых связей и отобразить результаты в виде дендрограммы;

3) проанализировать основные приоритеты денежных расходов и сбережений в полученных кластерах;

Выполнение:

1) Определить оптимальное количество кластеров для разбиения регионов на однородные группы по всем группировочным признакам одновременно;

Для определения оптимального количества кластеров нужно воспользоваться Иерархическим кластерным анализом и обратиться к таблице «Шаги агломерации» к столбцу «Коэффициенты».

Эти коэффициенты подразумевают расстояние между двумя кластерами, определенное на основании выбранной дистанционной меры (Евклидово расстояние). На том этапе, когда мера расстояния между двумя кластерами увеличивается скачкообразно, процесс объединения в новые кластеры необходимо остановить.

В итоге, оптимальным считается число кластеров, равное разности количества наблюдений (17) и номера шага (14),после которого коэффициент увеличивается скачкообразно. Таким образом, оптимальное количество кластеров равно 3. (Рис.9)

статистический математический анализ кластерный

Рис. 9 Таблица «Шаги агломерации»

2) Провести классификацию областей иерархическим методом с алгоритмом межгрупповых связей и отобразить результаты в виде дендрограммы;

Теперь, используя оптимальное количество кластеров, проводим классификацию областей иерархическим методом. И в выходных данных обращаемся к таблице «Принадлежность к кластерам». (Рис.10)

Рис. 10 Таблица «Принадлежность к кластерам»

На Рис. 10 отчетливо видно, что в 3 кластер попали 2 области (Калужская, Московская) и г. Москва, во 2 кластер две (Брянская, Воронежская, Ивановская, Липецкая, Орловская, Рязанская, Смоленская, Тамбовская, Тверская), в 1 кластер – Белгородская, Владимирская, Костромская, Курская, Тульская, Ярославская.

Рис. 11 Дендрограмма

3) проанализировать основные приоритеты денежных расходов и сбережений, в полученных кластерах;

Для анализа полученных кластеров нам нужно провести «Сравнение средних». В выходном окне выводится следующая таблица (Рис. 12)

Рис. 12 Средние значения переменных

В таблице «Средних значений» мы можем проследить, каким структурам отдается наибольший приоритет в распределении денежных расходов и сбережений населения.

В первую очередь стоит отметить, что самый высокий приоритет во всех областях отдается покупке товаров и оплате услуг. Большее значение параметр принимает в 3 кластере.

2 место занимает прирост финансовых активов. Наибольшее значение в 1 кластере.

Наименьший коэффициент в 1 и 2 кластерах у «приобретение недвижимости», а в 3 кластере выявлено заметное уменьшение денег на руках у населения.

В целом особое значение для населения имеет покупка товаров и оплата услуг и незначительное покупка недвижимости.

4) сравнить полученную классификацию с результатами применения алгоритма внутригрупповых связей.

В анализе межгрупповых связей ситуация практически не изменилась, за исключением Тамбовской области, которая из 2 кластера попала в 1.(Рис.13)

Рис. 13 Анализ внутригрупповых связей

В таблице «Средних значений» никаких изменений не произошло.

Глава 3. Факторный анализ

Задание: Анализ деятельности предприятий легкой промышленности.

Имеются данные обследований 20 предприятий легкой промышленности (Рис. 14) по следующим характерным признакам:

· Х1 – уровень фондоотдачи;

· Х2 – трудоемкость единицы продукции;

· Х3 – удельный вес закупочных материалов в общих расходах;

· Х4 – коэффициент сменности оборудования;

· Х5 – премии и вознаграждения на одного работника;

· Х6 – удельный вес потерь от брака;

· Х7 – среднегодовая стоимость основных производственных фондов;

· Х8 – среднегодовой фонд заработной платы;

· Х9 – уровень реализуемости продукции;

· Х10 – индекс постоянного актива (отношение основных средств и прочих внеоборотных активов к собственным средствам);

· Х11 – оборачиваемость оборотных средств;

· Х12 – непроизводственные расходы.

Рис.14 Исходные данные

Требуется:

1. провести факторный анализ следующих переменных: 1,3,5-7, 9, 11,12, выявить и интерпретировать факторные признаки;

2. указать наиболее благополучные и перспективные предприятия.

Выполнение:

1. Провести факторный анализ следующих переменных: 1,3,5-7, 9, 11,12, выявить и интерпретировать факторные признаки.

Факторный анализ – это совокупность методов, которые на основе реально существующих связей объектов (признаков) позволяют выявить латентные (неявные) обобщающие характеристики организационной структуры.

В диалоговом окне факторного анализа выбираем наши переменные, указываем необходимые параметры.

Рис. 15 Полная объясненная дисперсия

По таблице «Полной объясненной дисперсии» видно, что выделены 3 фактора, объясняющие 74,8 % вариаций переменных – построенная модель достаточно хорошая.

Теперь интерпретируем факторные признаки по «Матрице повернутых компонент»: (Рис.16).

Рис. 16 Матрица повернутых компонент

Фактор 1 наиболее тесно связан с уровнем реализации продуктов и имеет обратную зависимость от непроизводственных расходов.

Фактор 2 наиболее тесно связан с удельным весом закупочных материалов в общих расходах и удельным весом потерь от брака и имеет обратную зависимость от премий и вознаграждений на одного работника.

Фактор 3 наиболее тесно связан с уровнем фондоотдачи и оборачиваемость оборотных средств и имеет обратную зависимость от среднегодовой стоимости основных производственных фондов.

2. Указать наиболее благополучные и перспективные предприятия.

Для того, чтобы выявить наиболее благополучные предприятия проведем сортировку данных по 3 факторным признакам по убыванию. (Рис.17)

Наиболее благополучными предприятиями следует считать: 13,4,5, так как в целом по 3 факторам их показатели занимают наиболее высокие и стабильные позиции.

Глава 4. Дискриминантный анализ

Оценка кредитоспособности юридических лиц в коммерческом банке

В качестве значимых показателей, характеризующих финансовое состояние организаций-заемщиков, банком выбраны шесть показателей (табл. 4.1.1):

QR (Х1) - коэффициент срочной ликвидности;

CR (Х2) - коэффициент текущей ликвидности;

EQ/TA (Х3) - коэффициент финансовой независимости;

TD/EQ (Х4) - суммарные обязательства к собственному капиталу;

ROS (Х5) - рентабельность продаж;

FAT (Х6) - оборачиваемость основных средств.

Таблица 4.1.1. Исходные данные


Требуется:

На основе дискриминантного анализа с использованием пакета SPSS определить, к какой из четырех категорий относятся три заемщика (юридических лица), желающие получить кредит в коммерческом банке:

§ Группа 1 - с отличными финансовыми показателями;

§ Группа 2 - с хорошими финансовыми показателями;

§ Группа 3 - с плохими финансовыми показателями;

§ Группа 4 - с очень плохими финансовыми показателями.

По результатам расчета построить дискриминантные функции; оценить их значимость по коэффициенту Уилкса (λ). Построить карту восприятия и диаграммы взаимного расположения наблюдений в пространстве трех функций. Выполнить интерпретацию результатов проведенного анализа.

Ход выполнения:

Для того чтобы определить, к какой из четырех категорий относятся три заемщика, желающие получить кредит в коммерческом банке, строим дискриминантный анализ, который позволяет определить, к какой из ранее выявленных совокупностей (обучающих выборок) следует отнести новых клиентов.

В качестве зависимой переменной выберем группу, к которой может относиться заемщик в зависимости от его финансовых показателей. Из данных задачи, каждой группе присваивается соответствующая оценка 1, 2, 3 и 4.

Ненормированные канонические коэффициенты дискриминантных функций, приведенные на рис. 4.1.1, используются для построения уравнения дискриминантных функций D1(X), D2(X) и D3(X):

3.) D3(X) =


1

(Константа)

Рис. 4.1.1. Коэффициенты канонической дискриминантной функции

Рис. 4.1.2. Лямбда Уилкса

Однако, поскольку значимость по коэффициенту Уилкса (рис. 4.1.2) второй и третей функции более 0.001, их для дискриминации использовать нецелесообразно.

Данные таблицы «Результаты классификации» (рис. 4.1.3) свидетельствуют о том, что для 100 % наблюдений классификация проведена корректно, высокая точность достигнута во всех четырех группах (100 %).

Рис. 4.1.3. Результаты классификации

Информация о фактических и предсказанных группах для каждого заемщика приведены в таблице «Поточечные статистики» (рис. 4.1.4).

В результате дискриминантного анализе высокой вероятностью определена принадлежность новых заемщиков банка к обучающему подмножеству М1 – первый, второй и третий заемщик (порядковый номера 41, 42, 43) отнесены к подмножеству М1 с соответствующими вероятностями 100 %.

Номер наблюдения

Фактическая группа

Наивероятнейшая группа

Предсказанная группа

несгруппированные

несгруппированные

несгруппированные

Рис. 4.1.4. Поточечная статистика

Координаты центроидов по группам приведены в таблице «Функции в центроидах групп» (рис. 4.1.5). Они используются для нанесения центроидов на карту восприятия (рис. 4.1.6).

1

Рис. 4.1.5. Функции в центроидах групп

Рис. 4.1.6. Карта восприятия для двух дискриминантных функций D1(X) и D2(X) (* - центроид группы)

Поле «Территориальной карты» разделено дискриминантными функциями на четыре области: в левой части находятся преимущественно наблюдения четвертой группы заемщиков с очень плохими финансовыми показателями, в правой части - первой группы с отличными финансовыми показателями, в средней и нижней части - третьей и второй группы заемщиков с плохими и хорошими финансовыми показателями соответственно.

Рис. 4.1.7. Диаграмма рассеяния для всех групп

На рис. 4.1.7 приведен объединенный график распределения всех групп заемщиков вместе со своими центроидами; его можно использовать для проведения сравнительного визуального анализа характера взаимного расположения групп заемщиков банка по финансовыми показателями. В правой части графика расположены заемщики с высокими показателями, в левой - с низкой, а в средней части - со средними финансовыми показателями. Поскольку по результатам расчета вторая дискриминантная функция D2(X) оказалась незначима, то различия координат центроидов по этой оси незначительны.

Оценка кредитоспособности физических лиц в коммерческом банке

Кредитный отдел коммерческого банка провел выборочное обследование 30 своих клиентов (физических лиц). На основе предварительного анализа данных, заемщики оценивались по шести показателям (табл. 4.2.1):

Х1 - заемщик брал кредит в коммерческих банках ранее;

Х2 - среднемесячный доход семьи заемщика, тыс. руб.;

Х3 - срок (период) погашения кредита, лет;

Х4 - размер выданного кредита, тыс. руб.;

Х5 - состав семьи заемщика, чел.;

Х6 - возраст заемщика, лет.

При этом по вероятности возврата кредита выявлены три группы заемщиков:

§ Группа 1 - с низкой вероятностью погашения кредита;

§ Группа 2 - со средней вероятностью погашения кредита;

§ Группа 3 - с высокой вероятностью погашения кредита.

Требуется:

На основе дискриминантного анализа с использованием пакета SPSS необходимо классифицировать трех клиентов банка (по вероятности погашения кредита), т.е. оценить принадлежность каждого из них к одной из трех групп. По результатам расчета построить значимые дискриминантных функции, их значимость оценить по коэффициенту Уилкса (λ). В пространстве двух дискриминантных функций для каждой группы построить диаграммы взаимного расположения наблюдений и объединенную диаграмму. Оценить место расположения каждого заемщика на этих диаграммах. Выполнить интерпретацию результатов проведенного анализа.

Таблица 4.2.1. Исходные данные

Ход выполнения:

Для построения дискриминантного анализа в качестве зависимой переменной выберем вероятность своевременного погашения кредита клиентом. Учитывая, что она может быть низкой, средней и высокой, каждой категории присвоим соответствующую оценку 1,2 и 3.

Ненормированные канонические коэффициенты дискриминантных функций, приведенные на рис. 4.2.1, используются для построения уравнения дискриминантных функций D1(X), D2(X):

2.) D2(X) =

Рис. 4.2.1. Коэффициенты канонической дискриминантной функции

Рис. 4.2.2. Лямбда Уилкса

По коэффициенту Уилкса (рис. 4.2.2) для второй функции значимость более 0.001, следовательно, ее для дискриминации использовать нецелесообразно.

Данные таблицы «Результаты классификации» (рис. 4.2.3) свидетельствуют о том, что для 93,3 % наблюдений классификация проведена корректно, высокая точность достигнута в первой и второй группах (100% и 91,7%), менее точные результаты получены в третьей группе (88, 9%).

Рис. 4.2.3. Результаты классификации

Информация о фактических и предсказанных группах для каждого клиента приведены в таблице «Поточечные статистики» (рис. 4.2.4).

В результате дискриминантного анализе высокой вероятностью определена принадлежность новых клиентов банка к обучающему подмножеству М3 – первый, второй и третий клиент (порядковый номера 31, 32, 33) отнесены к подмножеству М3 с соответствующими вероятностями 99%, 99% и 100%.

Номер наблюдения

Фактическая группа

Наивероятнейшая группа

Предсказанная группа

несгруппированные

несгруппированные

несгруппированные

Рис. 4.2.4. Поточечная статистика

Вероятность погашения кредита

Рис. 4.2.5. Функции в центроидах групп

Координаты центроидов по группам приведены в таблице «Функции в центроидах групп» (рис. 4.2.5). Они используются для нанесения центроидов на карту восприятия (рис. 4.2.6).

Поле «Территориальной карты» разделено дискриминантными функциями на три области: в левой части находятся преимущественно наблюдения первой группы клиентов с очень низкой вероятностью погашения кредита, в правой части - третьей группы с высокой вероятностью, в средней - второй группы клиентов со средней вероятностью возврата кредита соответственно.

На рис. 4.2.7 (а – в) отражено расположение клиентов каждой из трех групп на плоскости двух дискриминантных функций D1(X) и D2(X). По этим графикам можно проводить детальный анализ вероятности погашения кредита внутри каждой группы, судить о характере распределения клиентов и оценивать степень их удаленности от соответствующего центроида.

Рис. 4.2.6. Карта восприятия для трех дискриминантных функций D1(X) и D2(X) (* - центроид группы)

Так же на рис. 4.2.7 (г) в той же системе координат приведен объединенный график распределения всех групп клиентов вместе со своими центроидами; его можно использовать для проведения сравнительного визуального анализа характера взаимного расположения групп клиентов банка с разными вероятностями погашения кредита. В левой части графика расположены заемщики с высокой вероятностью погашения кредита, в правой - с низкой, а в средней части - со средней вероятностью. Поскольку по результатам расчета вторая дискриминантная функция D2(X) оказалась незначима, то различия координат центроидов по этой оси незначительны.

Рис. 4.2.7. Расположение наблюдений на плоскости двух дискриминантных функций для групп с низкой (а), средней (б), высокой (с) вероятностью погашения кредита и для всех групп (г)

Список литературы

1. «Многомерный статистический анализ в экономических задачах. Компьютерное моделирование в SPSS», , 2009 г.

2. Орлов А.И. «Прикладная статистика» М.: Издательство «Экзамен», 2004

3. Фишер Р.А. «Статистические методы для исследователей», 1954 г.

4. Калинина В.Н., Соловьев В.И. «Введение в многомерный статистический анализ» Учебное пособие ГУУ,2003;

5. Ахим Бююль, Петер Цёфель, «SPSS: искусство обработки информации» Изд-во DiaSoft, 2005г.;

6. http://ru.wikipedia.org/wiki


выборочной табл. сопряженности макс, правдоподобных оценок:

G 2 = -2 ^ п щ Щт т ■ п ш)

имеет асимптотическое χ 2 -распределе­ние. На этом основана стат. проверка гипотезы о взаимосвязях.

Опыт обработки данных с помощью А.л. показал его эффективность как спо­соба целенаправленного анализа много­мерной табл. сопряженности, содержа­щей (в случае содержательно разумного выбора переменных) огромный, по срав­нению с двухмерными табл., объем ин­тересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же вре­мя детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социо­лог-ЭВМ. Т.о., А.л. обладает значитель­ной гибкостью, представляет возмож­ность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.

Лит.: Аптоп Г. Анализ табл. сопря­женности. М., 1982; Типология и клас­сификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.

А.А. Мирзоев

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИ­СТИЧЕСКИЙ - разд. статистики ма­тематической, посвященный матем. ме­тодам, направленным на выявление ха­рактера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выво­дов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных на­блюдений (см. Наблюдение в статисти­ке). Многомерный признак чаще всего интерпретируется как многомерная вели-


чина случайная, а последовательность многомерных наблюдений - как выбор­ка из генеральной совокупности. В этом случае выбор метода обработки исход­ных стат. данных производится на осно­ве тех или иных допущений относитель­но природы закона распределения изучае­мого многомерного признака (см. Рас­пределение вероятностей).

1. А.м.с. многомерных распределений и их осн. характеристик охватывает си­туации, когда обрабатываемые наблюде­ния имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. зада­чам этого подраздела относятся; оцени­вание статистическое исследуемых мно­гомерных распределений и их осн. пара­метров; иссл-е свойств используемых стат. оценок; иссл-е распределений веро­ятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).

2. А.м.с. характера и структуры взаи­мосвязей компонент исследуемого мно­гомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, ана­лиз дисперсионный, анализ ковариацион­ный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежа­щие к этой гр., включают как алгорит­мы, осн. на предположении о вероятно­стной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероят­ностной модели (последние чаще отно­сят к методам анализа данных).

3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы класси­фикации, Шкала). Узловым для этих мо­делей явл. понятие расстояния либо ме­ры близости между анализируемыми элементами как точками нек-рого про-

АНАЛИЗ ПРИЧИННЫЙ


странства. При этом анализироваться могут как объекты (как точки, задавае­мые в признаковом пространстве), так и признаки (как точки, задаваемые в «объ­ектном» пространстве).

Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех про­блем: стат. иссл-я зависимостей между рассматриваемыми показателями; клас­сификации элементов (объектов) или признаков; снижения размерности рас­сматриваемого признакового простран­ства и отбора наиб, информативных признаков.

Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и клас­сификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в соци­ол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и ос­новы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. ана­лиз в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомер­ные стат. методы для экономистов и ме­неджеров. М., 2000; Ростовцев B.C., Кова­лева Т.Д. Анализ социол. данных с приме­нением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.

ЮН. Толстова

АНАЛИЗ ПРИЧИННЫЙ - методы мо­делирования причинных отношений меж­ду признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области ме­тодов: путевой анализ, как впервые на­звал его основоположник С. Райт; мето­ды структурных эконометрических урав­нений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компо­ненты связи между признаками. Ис­пользуемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-


лос. проблем, связанных с понятием «причинность». Причинный коэффици­ент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причин­ных связей между признаками, а также выявления тех компонент корреляцион­ных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.

Путевая диаграмма отражает графи­чески гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с одно­направленными связями называется ре­курсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы мо­гут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-след­ствия (зависимые, эндогенные) и при­знаки-причины (независимые, экзоген­ные). Однако в системе уравнений эндо­генные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:

х 2
/ N
*1 К
г
к S

Построение диаграммы связей явл. необходимой предпосылкой матем. фор­мулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построе­ния системы регрессионных уравнений проиллюстрируем на примере тех же че­тырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-

АНАЛИЗ ПРИЧИННЫЙ


ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непо­средственно), так и косвенно (опосредо­ванно) и через др. признаки. Первое стан­дартизированное регрессионное уравне­ние соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.

Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответ­ствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулиру­ется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандарти­зованных регрессионных моделей для нашей конкретной причинной диа­граммы имеет вид: Х\ = Ui, А? =

- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -

- baXi + binXi + Й43А3 + Щ. Чтобы оце­нить коэффициенты b, s , необходимо ее решить. Решение существует при усло­вии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называют­ся причинными коэффициентами и час­то обозначаются как Ру. Т.о., Р# показы­вает ту долю изменения вариации эндо­генного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влия­ние остальных признаков уравнения ис­ключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эф­фект признака j на;) вычисляется на ос­нове учета всех путей влияния j на i за исключением прямого.

На диаграмме прямое влияние перво­го признака на четвертый схематически представление прямой стрелой, непо­средственно идущей от Χι к Xt, символи­чески изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. об­разом.

Пусть У, Х\, Хг, ..., Х р - случайные
величины с заданным совместным рас­
пределением вероятностей.
Если для каж­
дого набора значений Χ λ =х\, Х 2 = хг, ...,
Х р = х р определено условное матем. ожи­
дание Υ(χ\, Х2, ..., Хр) - E(Y/(X] = xj,
Χι = Х2, ..., Х р = Хр)), то функция Υ(Χ],
Х2,
..., Хр) называется регрессией величи­
ны У по величинам Х\, Хг, ..., Х р, а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави­
симость У от ΛΊ, Хг ....... Х р проявляется в

изменении средних значений Упри из­
менении Х\, Хг ........ Хр. Хотя при каждом

фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеяни­ем. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, использует­ся средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом прибли­жающей искомую кривую. Делается это с помощью метода наименьших квадра­тов, когда минимизируется сумма квад­ратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оцен­ки с помощью прямой линии, претен­дующей на то, чтобы представлять ис­комую регрессионную зависимость): w

У (У -У) => min (Ν - объем выборки), ы

Этот подход основан на том известном факте, что фигурирующая в приведен­ном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение

Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.

Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.

Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.


Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.

Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.

Социальные и экономические объекты, как правило, характеризуются достаточно большим числом параметров, образующих многомерные векторы, и особое значение в экономических и социальных исследованиях приобретают задачи изучения взаимосвязей между компонентами этих векторов, причем эти взаимосвязи необходимо выявлять на основании ограниченного числа многомерных наблюдений.

Многомерным статистическим анализом называется раздел математической статистики, изучающий методы сбора и обработки многомерных статистических данных, их систематизации и обработки с целью выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, получения практических выводов.

Отметим, что способы сбора данных могут различаться. Так, если исследуется мировая экономика, то естественно взять в качестве объектов, на которых наблюдаются значения вектора X, страны, если же изучается национальная экономическая система, то естественно наблюдать значения вектора X на одной и той же (интересующей исследователя) стране в различные моменты времени.

Такие статистические методы, как множественный корреляционный и регрессионный анализ, традиционно изучаются в курсах теории вероятностей и математической статистики , рассмотрению прикладных аспектов регрессионного анализа посвящена дисциплина «Эконометрика» .

Другим методам исследования многомерных генеральных совокупностей на основании статистических данных посвящено данное пособие.

Методы снижения размерности многомерного пространства позволяют без существенной потери информации перейти от первоначальной системы большого числа наблюдаемых взаимосвязанных факторов к системе существенно меньшего числа скрытых (ненаблюдаемых) факторов, определяющих вариацию первоначальных признаков. В первой главе описываются методы компонентного и факторного анализа, с использованием которых можно выявлять объективно существующие, но непосредственно не наблюдаемые закономерности при помощи главных компонент или факторов.

Методы многомерной классификации предназначены для разделения совокупностей объектов (характеризующиеся большим числом признаков) на классы, в каждый из которых должны входить объекты, в определенном смысле однородные или близкие. Такую классификацию на основании статистических данных о значениях признаков на объектах можно провести методами кластерного и дискриминантного анализа, рассматриваемыми во второй главе (Многомерный статистический анализ с использованием “STATISTICA”).

Развитие вычислительной техники и программного обеспечения способствует широкому внедрению методов многомерного статистического анализа в практику. Пакеты прикладных программ с удобным пользовательским интерфейсом, такие как SPSS, Statistica, SAS и др., снимают трудности в применении указанных методов, заключающиеся в сложности математического аппарата, опирающегося на линейную алгебру, теорию вероятностей и математическую статистику, и громоздкости вычислений.

Однако применение программ без понимания математической сущности используемых алгоритмов способствует развитию у исследователя иллюзии простоты применения многомерных статистических методов, что может привести к неверным или необоснованным результатам. Значимые практические результаты могут быть получены только на основе профессиональных знаний в предметной области, подкрепленных владением математическими методами и пакетами прикладных программ, в которых эти методы реализованы.

Поэтому для каждого из рассматриваемых в данной книге методов приводятся основные теоретические сведения, в том числе алгоритмы; обсуждается реализация этих методов и алгоритмов в пакетах прикладных программ. Рассматриваемые методы иллюстрируются примерами их практического применения в экономике с использованием пакета SPSS.

Пособие написано на основе опыта чтения курса «Многомерные статистические методы» студентам Государственного университета управления. Для более подробного изучения методов прикладного многомерного статистического анализа рекомендуются книги .

Предполагается, что читатель хорошо знаком с курсами линейной алгебры (например, в объеме учебника и приложения к учебнику ), теории вероятностей и математической статистики (например, в объеме учебника ).