courses:data_analysis_and_interpretation:task4

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

courses:data_analysis_and_interpretation:task4 [2019/07/12 19:22]
andrey.suchkov
courses:data_analysis_and_interpretation:task4 [2022/12/10 09:08]
Line 1: Line 1:
-====== Практическая работа №4: Изучение дискриминантного анализа ====== 
-===== Цель работы ===== 
-Ознакомиться с методами дискриминантного анализа на основе языка R. 
-===== Основные теоретические положения ===== 
-Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например,​ некий исследователь в области образования может захотеть исследовать,​ какие переменные относят выпускника средней школы к одной из трех категорий:​ (1) поступающий в колледж,​ (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных,​ связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. 
- 
-Медик может регистрировать различные переменные,​ относящиеся к состоянию больного,​ чтобы выяснить,​ какие переменные лучше предсказывают,​ что пациент,​ вероятно,​ выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Биолог может записать различные характеристики сходных типов (групп) цветов,​ чтобы затем провести анализ дискриминантной функции,​ наилучшим образом разделяющей типы или группы. 
- 
-//​Функции классификации.//​ Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации,​ сколько групп. Каждая функция позволяет вам для каждого образца и для каждой совокупности вычислить веса классификации по формуле:​ 
-$$ 
-S_i = c_i + \sum_{j = 1}^mw_{ij}x_j. 
-$$ 
-В этой формуле индекс $i$ обозначает соответствующую совокупность,​ а индекс $j$ обозначает переменную;​ $c_i$ являются константами для $i$-ой совокупности,​ $w_{ij}$ -- веса для $j$-ой переменной при вычислении показателя классификации для $i$-ой совокупности;​ $x_j$ - наблюдаемое значение для соответствующего образца $j$-ой переменной. Величина $S_i$ является результатом показателя классификации. Переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию. 
- 
-Расстояние Махаланобиса является мерой расстояния между двумя точками в пространстве,​ определяемым двумя или более коррелированными переменными. Например,​ если имеются всего две некоррелированных переменные,​ то можно нанести точки (образцы) на стандартную диаграмму рассеяния. Расстояние Махаланобиса между точками будет в этом случае равно расстоянию Евклида,​ т.е. расстоянию,​ измеренному,​ например,​ рулеткой. Если имеются три некоррелированные переменные,​ то для определения расстояния вы можно по-прежнему использовать рулетку (на 3М диаграмме). При наличии более трех переменных вы не можете более представить расстояние на диаграмме. Также и в случае,​ когда переменные коррелированы,​ то оси на графике могут рассматриваться как неортогональные (они уже не направлены под прямыми углами друг к другу). В этом случае простое определение расстояния Евклида не подходит,​ в то время как расстояние Махаланобиса является адекватно определенным в случае наличия корреляций. Для расчёта ошибок классификации удобнее всего представить расстояние Махалонобиса,​ как симметричную матрицу с нулевой главной диагональю:​ 
-$$ R =  
-\begin{pmatrix} 
-0 & r_{12}^2 & \ldots & r_{1M}^2\\ 
-r_{21}^2 & 0 & \ldots & r_{2M}^2\\ 
-\vdots & \vdots & \ddots &​\vdots\\ 
-r_{M1}^2 & r_{M2}^2 & \ldots & 0 
-\end{pmatrix},​ 
-$$ 
-$r_{ij} = r_{ji}$, $r_{ij} = 0$ при $i = j$. Элементы матрицы можно найти как: 
-$$ 
-r_{ij}^2 = (\mu_i - \mu_j)^T\Sigma^{-1}(\mu_i - \mu_j), 
-$$ 
-где $\mu_i$ и $\mu_j$ -- вектора математических ожиданий для первого и второго класса соответственно,​ $\Sigma$ -- ковариационная матрица. Вероятность ошибки можно определить следующим образом:​ 
-$$ 
-P(i \mid j) = \Phi\left(-\frac{r_{ij}}2\right) = 1 - \Phi\left(\frac{r_{ij}}2\right),​ 
-$$ 
-где $\Phi(\cdot)$ -- функция ошибок. 
- 
-//​Пошаговый анализ с включением.//​ В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее,​ на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу. 
- 
-//​Пошаговый анализ с исключением.//​ Можно также двигаться в обратном направлении,​ в этом случае все переменные будут сначала включены в модель,​ а затем на каждом шаге будут устраняться переменные,​ вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "​важные"​ переменные в модели,​ то есть те переменные,​ чей вклад в дискриминацию больше остальных. Эта пошаговая процедура "​руководствуется"​ соответствующим значением $F$ для включения и соответствующим значением $F$ для исключения. Значение $F$ статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями,​ то есть, она является мерой вклада переменной в предсказание членства в совокупности. 
-===== Постановка задачи ===== 
-===== Порядок выполнения работы ===== 
-===== Содержание отчёта ===== 
- 
  
courses/data_analysis_and_interpretation/task4.txt · Last modified: 2022/12/10 09:08 (external edit)