МЕНЮ


Фестивали и конкурсы
Семинары
Издания
О МОДНТ
Приглашения
Поздравляем

НАУЧНЫЕ РАБОТЫ


  • Инновационный менеджмент
  • Инвестиции
  • ИГП
  • Земельное право
  • Журналистика
  • Жилищное право
  • Радиоэлектроника
  • Психология
  • Программирование и комп-ры
  • Предпринимательство
  • Право
  • Политология
  • Полиграфия
  • Педагогика
  • Оккультизм и уфология
  • Начертательная геометрия
  • Бухучет управленчучет
  • Биология
  • Бизнес-план
  • Безопасность жизнедеятельности
  • Банковское дело
  • АХД экпред финансы предприятий
  • Аудит
  • Ветеринария
  • Валютные отношения
  • Бухгалтерский учет и аудит
  • Ботаника и сельское хозяйство
  • Биржевое дело
  • Банковское дело
  • Астрономия
  • Архитектура
  • Арбитражный процесс
  • Безопасность жизнедеятельности
  • Административное право
  • Авиация и космонавтика
  • Кулинария
  • Наука и техника
  • Криминология
  • Криминалистика
  • Косметология
  • Коммуникации и связь
  • Кибернетика
  • Исторические личности
  • Информатика
  • Инвестиции
  • по Зоология
  • Журналистика
  • Карта сайта
  • Статистический анализ банковской деятельности. Исследование моделей оценки кредитных рисков


    Таблица 7. Expectation-Predictable Table


    Y=0

    Y=1

    всего

    всего по выборке

    300

    700

    1000

    прогноз

    178

    822

    1000

    правильно

    65

    587

    652

    неправильно

    235

    113

    348

    % правильно

    21,7%

    83,9%

    65,2%

    % неправильно

    78,3%

    16,1%

    34,8%


    Из таблицы можно видеть, что видеть, что метод позволяет хорошо предугадывать плохие заемы на уровне 83,9%, но плохо предугадывает хорошие заемы – 21,7%. Обычно к методикам выдвигается требование распознавать лучше плохие заемы, т.к. потеря невозврата кредита больше потери неполучения процентов по кредиту.


    2.3. Дискриминантный анализ


    Кластерный анализ решает задачу классификации объектов при практически отсутствующей априорной информации о наблюдениях внутри классов; в дискриминантном анализе предполагается наличие такой информации. С  помощью дискриминантного анализа на основании некоторых признаков (независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп. Ядром дискриминантного анализа является построение так называемой дискриминантной функция [2]

    D=b1*x1+b2*x2+…+bn*xn+a


    где х1 и х2 — значения переменных, соответствующих рассматриваемым случаям, константы x1 - xn и а — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значению дискриминантной функции можно было с максимальной четкостью провести разделение по группам.

    Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Цели ДА – интерпретация межгрупповых различий - дискриминация и методы классификации наблюдений по группам.

    При интерпретации мы отвечаем на вопросы: возможно ли, используя данный набор переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию, и какие из них наиболее информативны.

    Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими.

    Реализуем метод дискриминантного анализа в SPSS. Существует 2 алгоритма классификации:

    1. Одновременный учет всех независимых переменных. Результаты представлены в таблице 8


    Таблица 8. Classification Results(a)

     

     

     

    Y

    Predicted Group Membership

    Total

     

     

     

    0

    1

     

     

    Original

    Count

    0

    218

    82

    300

     

     

    1

    188

    512

    700

     

    %

    0

    72,7

    27,3

    100,0

     

     

    1

    26,9

    73,1

    100,0


    a 73,0% of original grouped cases correctly classified.

    В таблице 9 приведены коэффициенты дискриминантной функции


    Таблица 9. Canonical Discriminant Function Coefficients

     

    Function

     

     

    1

    Z1

    ,503

    Z2

    -,127

    Z3

    ,338

    Z4

    ,024

    Z5

    -,150

    Z6

    ,174

    Z7

    ,134

    Z8

    -,242

    Z9

    ,225

    Z10

    ,314

    Z11

    -,006

    Z12

    -,172

    Z13

    ,035

    Z14

    ,242

    Z15

    ,272

    Z16

    -,210

    Z17

    ,023

    Z18

    -,135

    Z19

    ,271

    Z20

    ,611

    (Constant)

    -3,977


    Лямбда Уилкса показывает на значимое различие групп (p < 0,001).

    Таблица 10. Wilks' Lambda

    Test of Function(s)

    Wilks' Lambda

    Chi-square

    df

    Sig.

    1

    ,760

    271,399

    20

    ,000


    2. Пошаговый метод. При выполнении дискриминантного анализа можно применить пошаговый образ действий, который рекомендуется при наличии большого количества независимых переменных.


    Таблица 11. Classification Results(a)



    Y

    Predicted Group Membership

    Total

    0

    1

    Original

    Count

    0

    219

    81

    300

    1

    203

    497

    700

    %

    0

    73,0

    27,0

    100,0

    1

    29,0

    71,0

    100,0


    a 71,6% of original grouped cases correctly classified.

    Лямбда Уилкса показывает на значимое различие групп (p < 0,001).


    Таблица 12. Wilks' Lambda

    Test of Function(s)

    Wilks' Lambda

    Chi-square

    df

    Sig.

    1

    ,774

    254,126

    10

    ,000


    В таблице 13 приведены коэффициенты дискриминантной функции


    Таблица 13. Canonical Discriminant Function Coefficients

     

    Function

     

     

    1

    SCHET

    ,528

    SROK

    -,140

    HISTOR

    ,315

    ZAIM

    -,145

    CHARES

    ,186

    TIMRAB

    ,133

    VZNOS

    -,240

    FAMIL

    ,248

    PORUCHIT

    ,372

    INIZAIMI

    ,262

    (Constant)

    -3,288


    Точность распознавания дискриминантным анализом выше, чем кластерным. Но результаты по-прежнему остаются неудовлетворительными.


    2.4. Дерево классификаций


    Дерево классификаций является более общим алгоритмом сегмен­тации обучающей выборки прецедентов. В методе дерева клас­сификаций сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис .1).

    Рис.1. Дерево классификации


    На первом шаге разделение выборки прецедентов на сегменты произво­дится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура по­вторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положи­тельных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) выбирается автоматически.

    В рассмотренной методике также не дается ответ, насколько кредит хорош или плох. Метод не позволяют получить точную количествен­ную оценку риска и установить допустимый риск.


    2.5. Нейронные сети


    Нейронные сети NN используются при определении кредитоспо­собности юридических лиц, где анализируются выборки меньшего раз­мера, чем в потребительском кредите. Наиболее успешной областью их применения стало выявление мошенничества с кредитными карточка­ми. Нейронные сети выявляют нелинейные связи между переменными, которые могут привести к ошибке в линейных моделях. NN позволяют обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 2). Форма сегментов зависит от внутренней структуры NN Формулы и коэффициенты модели риска на основе NN лишены физического и логического смысла.

    Рис.2. Сегменты разделения «хороших» и «плохих» объектов в NN

    Нейросеть — это «черный ящик», внутреннее содержание которого (так называемые веса нейронов) не имеет смысла в терминах оценки риска. Такие методики не позволяют объяснить, почему данному заемщику следует отказать в кредите. NN-модели классификации обладают низкой стабильностью (робастностью).


    2.6. Технологии Data mining


    В основе технологии data mining лежат алгоритмы поиска закономерностей между различными факторами в больших объемах данных. При этом анализируются зависимости меж­ду всеми факторами; но, поскольку даже при небольшом числе фак­торов количество их всевозможных комбинаций растет экспоненци­ально, в data mining применяются алгоритмы априорного отсечения слабых зависимостей [1]. Говоря терминами анализа кредитоспособности, data mining на основе данных о выданных кредитах выявляет те фак­торы, которые существенно влияют на кредитоспособность заемщика, и вычисляет силу этого влияния. Соответственно, чем сильнее опреде­ленный фактор влияет на кредитоспособность, тем больший балл ему присваивается в методике скоринга. Чем больше данные держателя кредитной карты похожи на данные «кредитоспособного гражданина», тем больший лимит по кредиту он может получить, тем лучшие усло­вия ему могут быть предоставлены

              Главное преимущество методик на основе data mining заключается в том, что они могут работать на малых выборках. При больших вы­борках их точность, робастность и прозрачность недостаточны В них также не дается ответ, насколько кредит хорош или плох Метод не позволяет получить количественную оценку риска, установить допу­стимый риск, назначить цену за риск и выявить вклады факторов и их градаций в риск


    2.7. Линейная вероятностная регрессионная модель

     

    Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Линейная модель связывает значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой:


    Y=B0+B1X1+…+BpXp+e


    где e - случайная ошибка. Здесь Xk означает не "икс в степени k", а переменная X с индексом k. Традиционные названия "зависимая" для Y и "независимые" для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию. Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,σ2), ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Для получения оценок  коэффициентов  регрессии минимизируется сумма квадратов ошибок регрессии:



    Решение задачи сводится к решению системы линейных уравнений относительно . На основании оценок регрессионных коэффициентов рассчитываются значения Y:



    О качестве полученного уравнения регрессии можно судить, исследовав  - оценки случайных ошибок уравнения. Оценка дисперсии случайной ошибки получается по формуле


    .


    Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.

    Так как мы ищем оценки , используя случайные данные, то они, в свою очередь, будут представлять случайные величины. В связи с этим возникают вопросы:

    1.    Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных?

    2.    Существенно ли влияние на зависимую отдельных независимых переменных?

    В пакете SPSS вычисляются статистики, позволяющие решить эти задачи.

    Для проверки одновременного отличия всех коэффициентов регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом:


    В этом разложении обычно обозначают

     - общую сумму квадратов отклонений;

     - сумму квадратов регрессионных отклонений;

     - разброс по линии регрессии.

    Статистика  в условиях гипотезы равенства нулю регрессионных коэффициентов имеет распределение Фишера и, естественно, по этой статистике проверяют, являются ли коэффициенты B1,…,Bp одновременно нулевыми. Если наблюдаемая значимость статистики Фишера мала (например, sig F=0.003), то это означает, что данные распределены вдоль линии регрессии; если велика (например, Sign F=0.5), то, следовательно, данные не связаны такой линейной связью.

    При сравнении качества регрессии, оцененной по различным зависимым переменным, полезно исследовать доли объясненной и необъясненной дисперсии. Отношение SSreg/SSt представляет собой оценку доли необъясненной дисперсии. Доля дисперсии зависимой переменной , объясненной уравнением регрессии, называется коэффициентом детерминации. В двумерном случае коэффициент детерминации совпадает с квадратом коэффициента корреляции.

    Страницы: 1, 2, 3, 4


    Приглашения

    09.12.2013 - 16.12.2013

    Международный конкурс хореографического искусства в рамках Международного фестиваля искусств «РОЖДЕСТВЕНСКАЯ АНДОРРА»

    09.12.2013 - 16.12.2013

    Международный конкурс хорового искусства в АНДОРРЕ «РОЖДЕСТВЕНСКАЯ АНДОРРА»




    Copyright © 2012 г.
    При использовании материалов - ссылка на сайт обязательна.