courses:data_analysis_and_interpretation:task3

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task3 [2019/01/12 18:01]
andrey.suchkov
courses:data_analysis_and_interpretation:task3 [2022/12/10 09:08] (current)
Line 1: Line 1:
 ====== Практическая работа №3: Изучение дискриминантного анализа ====== ====== Практическая работа №3: Изучение дискриминантного анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами дискриминантного анализа на основе R.+Ознакомиться с методами дискриминантного анализа на основе ​языка ​R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например,​ некий исследователь в области образования может захотеть исследовать,​ какие переменные относят выпускника средней школы к одной из трех категорий:​ (1) поступающий в колледж,​ (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных,​ связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.\\ +Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например,​ некий исследователь в области образования может захотеть исследовать,​ какие переменные относят выпускника средней школы к одной из трех категорий:​ (1) поступающий в колледж,​ (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных,​ связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. 
-Медик может регистрировать различные переменные,​ относящиеся к состоянию больного,​ чтобы выяснить,​ какие переменные лучше предсказывают,​ что пациент,​ вероятно,​ выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Биолог может записать различные характеристики сходных типов (групп) цветов,​ чтобы затем провести анализ дискриминантной функции,​ наилучшим образом разделяющей типы или группы.\\+ 
 +Медик может регистрировать различные переменные,​ относящиеся к состоянию больного,​ чтобы выяснить,​ какие переменные лучше предсказывают,​ что пациент,​ вероятно,​ выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Биолог может записать различные характеристики сходных типов (групп) цветов,​ чтобы затем провести анализ дискриминантной функции,​ наилучшим образом разделяющей типы или группы. 
 //​Функции классификации.//​ Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации,​ сколько групп. Каждая функция позволяет вам для каждого образца и для каждой совокупности вычислить веса классификации по формуле:​ //​Функции классификации.//​ Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации,​ сколько групп. Каждая функция позволяет вам для каждого образца и для каждой совокупности вычислить веса классификации по формуле:​
 $$ $$
 S_i = c_i + \sum_{j = 1}^mw_{ij}x_j. S_i = c_i + \sum_{j = 1}^mw_{ij}x_j.
 $$ $$
-В этой формуле индекс $i$ обозначает соответствующую совокупность,​ а индекс $j$ обозначает переменную;​ $c_i$ являются константами для $i$-ой совокупности,​ $w_{ij}$ ​– веса для $j$-ой переменной при вычислении показателя классификации для $i$-ой совокупности;​ $x_j$ - наблюдаемое значение для соответствующего образца $j$-ой переменной. Величина $S_i$ является результатом показателя классификации. Переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.\\+В этой формуле индекс $i$ обозначает соответствующую совокупность,​ а индекс $j$ обозначает переменную;​ $c_i$ являются константами для $i$-ой совокупности,​ $w_{ij}$ ​-- веса для $j$-ой переменной при вычислении показателя классификации для $i$-ой совокупности;​ $x_j$ - наблюдаемое значение для соответствующего образца $j$-ой переменной. Величина $S_i$ является результатом показателя классификации. Переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию. 
 Расстояние Махаланобиса является мерой расстояния между двумя точками в пространстве,​ определяемым двумя или более коррелированными переменными. Например,​ если имеются всего две некоррелированных переменные,​ то можно нанести точки (образцы) на стандартную диаграмму рассеяния. Расстояние Махаланобиса между точками будет в этом случае равно расстоянию Евклида,​ т.е. расстоянию,​ измеренному,​ например,​ рулеткой. Если имеются три некоррелированные переменные,​ то для определения расстояния вы можно по-прежнему использовать рулетку (на 3М диаграмме). При наличии более трех переменных вы не можете более представить расстояние на диаграмме. Также и в случае,​ когда переменные коррелированы,​ то оси на графике могут рассматриваться как неортогональные (они уже не направлены под прямыми углами друг к другу). В этом случае простое определение расстояния Евклида не подходит,​ в то время как расстояние Махаланобиса является адекватно определенным в случае наличия корреляций. Для расчёта ошибок классификации удобнее всего представить расстояние Махалонобиса,​ как симметричную матрицу с нулевой главной диагональю:​ Расстояние Махаланобиса является мерой расстояния между двумя точками в пространстве,​ определяемым двумя или более коррелированными переменными. Например,​ если имеются всего две некоррелированных переменные,​ то можно нанести точки (образцы) на стандартную диаграмму рассеяния. Расстояние Махаланобиса между точками будет в этом случае равно расстоянию Евклида,​ т.е. расстоянию,​ измеренному,​ например,​ рулеткой. Если имеются три некоррелированные переменные,​ то для определения расстояния вы можно по-прежнему использовать рулетку (на 3М диаграмме). При наличии более трех переменных вы не можете более представить расстояние на диаграмме. Также и в случае,​ когда переменные коррелированы,​ то оси на графике могут рассматриваться как неортогональные (они уже не направлены под прямыми углами друг к другу). В этом случае простое определение расстояния Евклида не подходит,​ в то время как расстояние Махаланобиса является адекватно определенным в случае наличия корреляций. Для расчёта ошибок классификации удобнее всего представить расстояние Махалонобиса,​ как симметричную матрицу с нулевой главной диагональю:​
 $$ R =  $$ R = 
 \begin{pmatrix} \begin{pmatrix}
-0 & r_{12}^2 & r_{13}^2 & \ldots & r_{1M}^2\\ +0 & r_{12}^2 & \ldots & r_{1M}^2\\ 
-r_{21}^2 & 0 & r_{23}^2 ​& \ldots & r_{2M}^2\\ +r_{21}^2 & 0 & \ldots & r_{2M}^2\\ 
-\vdots & \vdots & \vdots & \ddots &​\vdots\\ +\vdots & \vdots & \ddots &​\vdots\\ 
-r_{M1}^2 & r_{M2}^2 & r_{M3}^2 & \ldots & 0+r_{M1}^2 & r_{M2}^2 & \ldots & 0
 \end{pmatrix},​ \end{pmatrix},​
 $$ $$
-$r_{ij} = r_{ji}$, $r_{ij} = 0$ при $i = j$. Элементы матрицы можно найти как:+$r_{ij} = r_{ji}$, $r_{ii} = 0$. Элементы матрицы можно найти как:
 $$ $$
 r_{ij}^2 = (\mu_i - \mu_j)^T\Sigma^{-1}(\mu_i - \mu_j), r_{ij}^2 = (\mu_i - \mu_j)^T\Sigma^{-1}(\mu_i - \mu_j),
 $$ $$
-где $\mu_i$ и $\mu_j$ ​– вектора математических ожиданий для первого и второго класса соответственно,​ $\Sigma$ ​– ковариационная матрица. Вероятность ошибки можно определить следующим образом:​+где $\mu_i$ и $\mu_j$ ​-- вектора математических ожиданий для первого и второго класса соответственно,​ $\Sigma$ ​-- ковариационная матрица. Вероятность ошибки можно определить следующим образом:​
 $$ $$
 P(i \mid j) = \Phi\left(-\frac{r_{ij}}2\right) = 1 - \Phi\left(\frac{r_{ij}}2\right),​ P(i \mid j) = \Phi\left(-\frac{r_{ij}}2\right) = 1 - \Phi\left(\frac{r_{ij}}2\right),​
 $$ $$
-где $\Phi(\cdot)$ ​– функция ошибок.\\ +где $\Phi(\cdot)$ ​-- функция ошибок. 
-//​Пошаговый анализ с включением.//​ В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее,​ на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.\\ + 
-//​Пошаговый анализ с исключением.//​ Можно также двигаться в обратном направлении,​ в этом случае все переменные будут сначала включены в модель,​ а затем на каждом шаге будут устраняться переменные,​ вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "​важные"​ переменные в модели,​ то есть те переменные,​ чей вклад в дискриминацию больше остальных. Эта пошаговая процедура ​"руководствуется" ​соответствующим значением $F$ для включения и соответствующим значением $F$ для исключения. Значение $F$ статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями,​ то есть, она является мерой вклада переменной в предсказание членства в совокупности. +//​Пошаговый анализ с включением.//​ В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее,​ на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу. 
-===== Общая формулировка задачи ===== + 
-  * Провести исследование по построению дискриминантных функции для имеющихся экспериментальных данных. +//​Пошаговый анализ с исключением.//​ Можно также двигаться в обратном направлении,​ в этом случае все переменные будут сначала включены в модель,​ а затем на каждом шаге будут устраняться переменные,​ вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "​важные"​ переменные в модели,​ то есть те переменные,​ чей вклад в дискриминацию больше остальных. Эта пошаговая процедура ​<<руководствуется>> ​соответствующим значением $F$ для включения и соответствующим значением $F$ для исключения. Значение $F$ статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями,​ то есть, она является мерой вклада переменной в предсказание членства в совокупности. 
-  * Подготовить самостоятельно модельные примеры из многомерных нормальных векторов с заданными векторами математического ожидания и ковариационной матрицей. +===== Постановка задачи ===== 
-  * Провести эксперименты по классификации на модельных примерах аналогично описанным выше. Провести теоретический расчет ошибок классификации для модельных примеров и сравнить их с результатами,​ полученными в R. +===== Порядок выполнения работы ===== 
-==== Порядок выполнения работы ==== +===== Варианты заданий ===== 
-В разработке +Модель представляет собой набор многомерных векторов $\vec x = (x_1, \dots, x_m)$ , $m = 2, 3$, имеющих заданные вектора математических ожиданий $\mu_i$, $i = \overline{1..M}$ и заданные ковариационные матрицы (одинаковые по классам),​ которые имеют вид $\Sigma = \mathop{\mathrm{diag}}\nolimits\{\sigma_1,​ \dots, \sigma_m\}$. Компоненты векторов имеют нормальное распределение. Количество классов равно $M = 2, 3$.
-=== Задание на разработку статистических ​данных ​=== +
-Модель представляет собой набор многомерных векторов $\vec x = (x_1, \, \dots, \, x_m)$ , $m = 2,\,3$, имеющих заданные вектора математических ожиданий $\mu_i$, $i = 1..M$ и заданные ковариационные матрицы (одинаковые по классам),​ которые имеют вид $\Sigma = \mathop{\mathrm{diag}}\nolimits\{\sigma_1, \, \dots, \, \sigma_m\}$. Компоненты векторов имеют нормальное распределение. Количество классов равно $M = 2,\,3$.+
 ^  № варианта ​ ^  Размерность $m$  ^  Объём выборки $N$ по классу ​ ^  Вектора $\mu_i$ ​ ^  Значения $\sigma_i$ ​ ^  Количество классов $M$  ^ ^  № варианта ​ ^  Размерность $m$  ^  Объём выборки $N$ по классу ​ ^  Вектора $\mu_i$ ​ ^  Значения $\sigma_i$ ​ ^  Количество классов $M$  ^
 |  1  |  2  |  100  |  $\mu_1 = (1,\,2)^T \\ \mu_2 = (1,​\,​-2)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1$  |  2  | |  1  |  2  |  100  |  $\mu_1 = (1,\,2)^T \\ \mu_2 = (1,​\,​-2)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1$  |  2  |
Line 46: Line 47:
 |  6  |  2  |  250  |  $\mu_1 = (1,\,1)^T \\ \mu_2 = (4,\,2.5)^T \\ \mu_3 = (-1,​\,​3)^T$ ​ |  $\sigma_1 = 1.3 \\ \sigma_2 = 0.8$  |  3  | |  6  |  2  |  250  |  $\mu_1 = (1,\,1)^T \\ \mu_2 = (4,\,2.5)^T \\ \mu_3 = (-1,​\,​3)^T$ ​ |  $\sigma_1 = 1.3 \\ \sigma_2 = 0.8$  |  3  |
 |  7  |  3  |  100  |  $\mu_1 = (0,​\,​0,​\,​0)^T \\ \mu_2 = (3,​\,​3,​\,​3)^T$ ​ |  $\sigma_1 = 1.5 \\ \sigma_2 = 1 \\ \sigma_3 = 2$  |  2  | |  7  |  3  |  100  |  $\mu_1 = (0,​\,​0,​\,​0)^T \\ \mu_2 = (3,​\,​3,​\,​3)^T$ ​ |  $\sigma_1 = 1.5 \\ \sigma_2 = 1 \\ \sigma_3 = 2$  |  2  |
-|  8  |  3  |  ​200  ​| ​ $\mu_1 = (-1,\,-1,\,-1)^T \\ \mu_2 = (0,\,0,\,0)^T \\ \mu_3 = (2,\,2,\,2)^T$  |  $\sigma_1 = \\ \sigma_2 = 0.5 \\ \sigma_3 = 1$  |  3  |+|  8  |  3  |  ​150  ​| ​ $\mu_1 = (4,\,4.5,\,3.7)^T \\ \mu_2 = (5.2,\,4.9,\,4.1)^T \\ \mu_3 = (2.2,\,3.9,\,3.8)^T$  |  $\sigma_1 = 0.3 \\ \sigma_2 = 0.5 \\ \sigma_3 = 0.6$  |  3  |
 |  9  |  2  |  250  |  $\mu_1 = (1.5,\,1)^T \\ \mu_2 = (3,​\,​2.7)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1.2$  |  2  | |  9  |  2  |  250  |  $\mu_1 = (1.5,\,1)^T \\ \mu_2 = (3,​\,​2.7)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1.2$  |  2  |
 |  10  |  2  |  180  |  $\mu_1 = (-0.9,​\,​2.7)^T \\ \mu_2 = (0,\,-5)^T \\ \mu_3 = (-1,​\,​-1)^T$ ​ |  $\sigma_1 = 0.25 \\ \sigma_2 = 2$  |  3  | |  10  |  2  |  180  |  $\mu_1 = (-0.9,​\,​2.7)^T \\ \mu_2 = (0,\,-5)^T \\ \mu_3 = (-1,​\,​-1)^T$ ​ |  $\sigma_1 = 0.25 \\ \sigma_2 = 2$  |  3  |
 |  11  |  3  |  200  |  $\mu_1 = (-1,​\,​2,​\,​-3)^T \\ \mu_2 = (2,​\,​-1,​\,​0)^T$ ​ |  $\sigma_1 = 0.75 \\ \sigma_2 = 0.3 \\ \sigma_3 = 1.6$  |  2  | |  11  |  3  |  200  |  $\mu_1 = (-1,​\,​2,​\,​-3)^T \\ \mu_2 = (2,​\,​-1,​\,​0)^T$ ​ |  $\sigma_1 = 0.75 \\ \sigma_2 = 0.3 \\ \sigma_3 = 1.6$  |  2  |
-|  12  |  3  |  ​150  ​| ​ $\mu_1 = (4,\,4.5,\,3.7)^T \\ \mu_2 = (5.2,\,4.9,\,4.1)^T \\ \mu_3 = (2.2,\,3.9,\,3.8)^T$  |  $\sigma_1 = 0.3 \\ \sigma_2 = 0.5 \\ \sigma_3 = 0.6$  |  3  |+|  12  |  3  |  ​200  ​| ​ $\mu_1 = (-1,\,-1,\,-1)^T \\ \mu_2 = (0,\,0,\,0)^T \\ \mu_3 = (2,\,2,\,2)^T$  |  $\sigma_1 = \\ \sigma_2 = 0.5 \\ \sigma_3 = 1$  |  3  | 
 +===== Содержание отчёта =====
  
courses/data_analysis_and_interpretation/task3.1547316116.txt.gz · Last modified: 2022/12/10 09:08 (external edit)