courses:data_analysis_and_interpretation:task3

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task3 [2019/07/11 13:46]
andrey.suchkov [Основные теоритические положения]
courses:data_analysis_and_interpretation:task3 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №3: Подготовка статистических данных для работы с пакетом Statistica ​======+====== Практическая работа №3: Изучение ​дискриминантного анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Подготовить статистические данные для работы с пакетом Statistica ​на базе искомого ​набора статистических данных+Ознакомиться с методами дискриминантного анализа на основе языка R
-===== Основные теоритические положения ===== +===== Основные теоретические положения ===== 
-Рассмотрим ​традиционный способ представления результатов эксперимента -- матрицу данных. Пусть исследователь ​располагает совокупностью из $N$ наблюдений над ​состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик, значения ​которых тем или иным способом измерены в ходе ​эксперимента. Данные характеристики носят название признаковпоказателей или ​параметровТакая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности ​$N \times n$ или в виде матрицы $X$ размерности $N \times n$: +Дискриминантный ​анализ используется для принятия решения о том, какие ​переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например,​ некий ​исследователь ​в области образования может захотеть исследовать, какие переменные ​относят выпускника средней школы к одной из трех категорий:​ (1) поступающий в колледж,​ (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну ​из названных ​категорий. Затем можно ​использовать Дискриминантный анализ для определения ​того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути
-$$ X =  + 
-\begin{pmatrix} +Медик может регистрировать различные переменные, относящиеся к состоянию ​больного,​ чтобы выяснить,​ какие переменные лучше предсказывают, что пациент,​ вероятно,​ выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Биолог ​может записать различные характеристики ​сходных типов (групп) цветов, чтобы затем провести анализ дискриминантной функциинаилучшим ​образом разделяющей типы ​или ​группы. 
-x_{11} & \ldots & x_{1j} & \ldots & x_{1n}\\ + 
-\ldots & \ldots & \ldots & \ldots & \ldots\\ +//​Функции классификации.// Функции классификации предназначены для определения того, к какой группе наиболее вероятно может быть отнесен каждый объект. Имеется столько же функций классификации, сколько групп. Каждая функция позволяет вам для каждого образца и для каждой совокупности ​вычислить веса классификации по формуле:
-x_{i1} & \ldots & x_{ij} & \ldots & x_{in}\\ +
-\ldots & \ldots & \ldots & \ldots & \ldots\\ +
-x_{N1} & \ldots & x_{Nj} & \ldots & x_{Nn}\\ +
-\end{pmatrix}+
 $$ $$
-Строки матрицы $X$ соответствуют наблюдениям или, другими словами,​ объектам наблюдения. В качестве объектов наблюдения выступают,​ например:​ в социологии – респонденты (анкетируемые люди), в экономике – предприятия,​ виды продукции и т. д. Столбцы матрицы $X$ соответствуют признакам,​ характеризующим изучаемое явление. Как правило,​ это наиболее легко измеряемые характеристики объектов. Например,​ предприятие характеризуется численностью,​ стоимостью основных фондов,​ видом выпускаемой продукции и т. д. Очевидно,​ что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$):+S_i = c_i + \sum_{j = 1}^mw_{ij}x_j.
 $$ $$
-x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j},​ +В этой формуле индекс $i$ обозначает соответствующую совокупность,​ а индекс $j$ обозначает переменную;​ $c_i$ являются константами для $i$-ой совокупности,​ $w_{ij}-- веса для $j$-ой переменной при вычислении показателя классификации для $i$-ой совокупности;​ $x_j$ - наблюдаемое значение для соответствующего образца ​$j$-ой переменной. Величина $S_i$ является результатом показателя классификации. Переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию. 
-$$ + 
-$$ +Расстояние Махаланобиса является мерой расстояния между двумя точками в пространстве,​ определяемым двумя или более коррелированными переменными. Например,​ если имеются всего две некоррелированных переменные,​ то можно нанести точки (образцы) на стандартную диаграмму рассеяния. Расстояние Махаланобиса между точками будет в этом случае равно расстоянию Евклида,​ т.е. расстоянию,​ измеренному,​ например,​ рулеткой. Если имеются три некоррелированные переменные,​ то для определения расстояния вы можно по-прежнему использовать рулетку (на 3М диаграмме). При наличии более трех переменных вы не можете более представить расстояние на диаграмме. Также и в случае,​ когда переменные коррелированы,​ то оси на графике могут рассматриваться как неортогональные (они уже не направлены под прямыми углами друг к другу). В этом случае простое определение расстояния Евклида не подходит,​ в то время как расстояние Махаланобиса является адекватно определенным в случае наличия корреляций. Для расчёта ошибок классификации удобнее всего представить расстояние Махалонобиса,​ как симметричную матрицу с нулевой главной диагональю:​ 
-\bar x_j = \frac1N\sum_{i = 1}^Nx_{ij}+$$ R =  
-$$ +\begin{pmatrix} 
-$$ +0 & r_{12}^2 & \ldots & r_{1M}^2\\ 
-\sigma_j^2 \frac1N\sum_{i = 1}^N(x_{ij- \bar x_j)^2\, i = 1..N, \, j = 1..n,+r_{21}^2 & 0 & \ldots & r_{2M}^2\\ 
 +\vdots & \vdots & \ddots &​\vdots\\ 
 +r_{M1}^2 & r_{M2}^2 \ldots & 0 
 +\end{pmatrix},
 $$ $$
-где ​$\bar x_j$, $\sigma_j^2– среднее и дисперсия по столбцу с номером $j$, после которого стандартная ​матрица $X'​$ ​обладает следующими свойствами:+$r_{ij} = r_{ji}$, $r_{ii} = 0$. Элементы матрицы можно найти как:
 $$ $$
-\overline{x'_j} = \frac1N\sum_{i = 1}^Nx'​_{ij} = 0,+r_{ij}^2 (\mu_i - \mu_j)^T\Sigma^{-1}(\mu_i - \mu_j),
 $$ $$
 +где $\mu_i$ и $\mu_j$ -- вектора математических ожиданий для первого и второго класса соответственно,​ $\Sigma$ -- ковариационная матрица. Вероятность ошибки можно определить следующим образом:​
 $$ $$
-(\sigma'​_j)^2 = \frac1N\sum_{= 1}^N(x'_{ij})^= 1, \, i = 1..N, \, j = 1..n.+P(\mid j) = \Phi\left(-\frac{r_{ij}}2\right) ​= 1 - \Phi\left(\frac{r_{ij}}2\right),
 $$ $$
-Зачастую признакиописывающие некоторый ​объект, имеют существенно различный физический смыслЭто приводит ​к томучто величины в различных столбцах исходной матрицы трудно сопоставлять между собойнапример, //килограмм// и //метр//. Поэтому получение стандартизованной матрицы можно ​понимать как приведение всех признаков к некоторой единой условной физической величине, выраженной в одних и тех же условных единицах. +где $\Phi(\cdot)$ -- функция ошибок. 
-===== Общая формулировка задачи ===== + 
-Выбрав набор данных, одобренный преподавателем, подготовить данные для последующей работы с помощью инструментов Statistica. +//​Пошаговый анализ с включением.// В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге ​просматриваются все переменные и находится та из нихкоторая ​вносит наибольший вклад ​в различие между совокупностями. Эта переменная должна ​быть включена в модель на данном ​шаге, и происходит ​переход к следующему шагу. 
-==== Порядок выполнения работы ==== + 
-  - Импортировать данные ​из текстового файла в рабочий файл Statistica. +//Пошаговый анализ с исключением.// Можно также двигаться в обратном направлении,​ в этом случае все переменные будут сначала включены в модель, ​а затем на каждом шаге будут устраняться переменные,​ вносящие ​малый вклад в предсказания. Тогда в качестве результата успешного анализа можно ​сохранить только "важные" ​переменные в модели,​ то есть те переменные, чей вклад ​в дискриминацию больше остальных. Эта пошаговая процедура <<​руководствуется>> ​соответствующим значением $F$ для включения и соответствующим значением $F$ для исключения. Значение $F$ статистики для переменной ​указывает на ее статистическую значимость при ​дискриминации между совокупностями, то есть, она является мерой вклада ​переменной ​в предсказание членства в совокупности. 
-  - Разбить общий файл данных на группы файлов с одинаковым номером класса. +===== Постановка задачи ===== 
-  - Подготовить файлы для обучения ​классификации и проверочные ​файлы+===== Порядок выполнения работы ​===== 
-  - Подготовить аналогичные файлы с использованием центрирования и нормировки данных. +===== Варианты заданий ===== 
-  - Ознакомиться с остальными ​опциями меню Data. +Модель представляет собой набор многомерных ​векторов $\vec x = (x_1, \dots, x_m)$ , $m = 2, 3$, имеющих заданные вектора математических ​ожиданий $\mu_i$, $i = \overline{1..M}$ и заданные ковариационные ​матрицы (одинаковые по классам), которые ​имеют вид $\Sigma = \mathop{\mathrm{diag}}\nolimits\{\sigma_1,​ \dots, \sigma_m\}$. Компоненты векторов имеют ​нормальное распределение. Количество ​классов ​равно ​$M = 2, 3$
-  - Построить графики зависимостей значений признаков для различных ​классов ​данных с использованием ​опции 2D+ № варианта  ^  Размерность $m$  ^  Объём выборки ​$N$ по классу ​ ^  Вектора ​$\mu_i$ ​ ^  Значения $\sigma_i$ ​ ^  Количество классов ​$M$  ^ 
-  ​- Построить линейные графики (Line Plots). Тип графика Multiple. +|  1  |  2  |  100  |  $\mu_1 = (1,\,2)^T \\ \mu_2 = (1,​\,​-2)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1$  |  2  | 
-  - Ознакомиться с опциями настройки графика. +|  2  |  2  |  300  |  $\mu_1 = (1.5,\,3)^T \\ \mu_2 = (3,\,4)^T \\ \mu_3 = (-1.5,​\,​-1)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1$  |  3  | 
-  - Выполнить предварительный ​анализ данных ​с использованием Basic Statistics and Tables/​Descriptive Statistics+ 3  |  3  |  150  |  $\mu_1 = (1,​\,​1,​\,​1)^T \\ \mu_2 = (2,​\,​2,​\,​2)^T$ ​ |  $\sigma_1 = 0.5 \\ \sigma_2 = 1 \\ \sigma_3 = 0.5$  |  2  | 
-  - Результаты оформить в форме отчета.+|  4  |  3  |  150  |  $\mu_1 = (1,​\,​1,​\,​1)^T \\ \mu_2 = (2.5,​\,​2.5,​\,​2.5)^T \\ \mu_3 = (4,​\,​4,​\,​4)^T$ ​ |  $\sigma_1 = 0.5 \\ \sigma_2 = 1 \\ \sigma_3 = 2$  |  3  | 
 +|  5  |  2  |  200  |  $\mu_1 = (-0.5,\,2)^T \\ \mu_2 = (-1,​\,​4)^T$ ​ |  $\sigma_1 = 1.5 \\ \sigma_2 = 1$  |  2  | 
 +|  6  |  2  |  250  |  $\mu_1 = (1,\,1)^T \\ \mu_2 = (4,\,2.5)^T \\ \mu_3 = (-1,​\,​3)^T$ ​ |  $\sigma_1 = 1.3 \\ \sigma_2 = 0.8$  |  3  | 
 +|  7  |  3  |  100  |  $\mu_1 = (0,​\,​0,​\,​0)^T \\ \mu_2 = (3,​\,​3,​\,​3)^T$ ​ |  $\sigma_1 = 1.5 \\ \sigma_2 = 1 \\ \sigma_3 = 2$  |  2  | 
 +|  8  |  3  |  150  |  $\mu_1 = (4,​\,​4.5,​\,​3.7)^T \\ \mu_2 = (5.2,​\,​4.9,​\,​4.1)^T \\ \mu_3 = (2.2,​\,​3.9,​\,​3.8)^T$ ​ |  $\sigma_1 = 0.3 \\ \sigma_2 = 0.5 \\ \sigma_3 = 0.6$  |  3  | 
 +|  9  |  2  |  250  |  $\mu_1 = (1.5,\,1)^T \\ \mu_2 = (3,​\,​2.7)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 1.2$  |  2  | 
 +|  10  |  2  |  180  |  $\mu_1 = (-0.9,​\,​2.7)^T \\ \mu_2 = (0,\,-5)^T \\ \mu_3 = (-1,​\,​-1)^T$ ​ |  $\sigma_1 = 0.25 \\ \sigma_2 = 2$  |  3  | 
 +|  11  |  3  |  200  |  $\mu_1 = (-1,​\,​2,​\,​-3)^T \\ \mu_2 = (2,​\,​-1,​\,​0)^T$ ​ |  $\sigma_1 = 0.75 \\ \sigma_2 = 0.3 \\ \sigma_3 = 1.6$  |  2  | 
 +|  12  |  3  |  200  |  $\mu_1 = (-1,​\,​-1,​\,​-1)^T \\ \mu_2 = (0,​\,​0,​\,​0)^T \\ \mu_3 = (2,​\,​2,​\,​2)^T$ ​ |  $\sigma_1 = 1 \\ \sigma_2 = 0.5 \\ \sigma_3 = 1$  |  3  | 
 +===== Содержание отчёта ===== 
courses/data_analysis_and_interpretation/task3.1562852780.txt.gz · Last modified: 2022/12/10 09:08 (external edit)