courses:data_analysis_and_interpretation:task2

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task2 [2019/01/11 12:08]
andrey.suchkov
courses:data_analysis_and_interpretation:task2 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №2: Подготовка статистических данных ​для обработки в среде R ======+====== Практическая работа №2: Подготовка статистических данных ======
 ===== Цель работы ===== ===== Цель работы =====
-Научится использовать инструменты для ​подготовки к обработке ​статистических данных.+Подготовить данные для ​работы с R на базе ​искомого набора статистических данных.
 ===== Основные теоритические положения ===== ===== Основные теоритические положения =====
-Рассмотрим традиционный способ представления результатов эксперимента ​– матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик,​ значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков,​ показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$:+Рассмотрим традиционный способ представления результатов эксперимента ​-- матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик,​ значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков,​ показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$:
 $$ X =  $$ X = 
 \begin{pmatrix} \begin{pmatrix}
-x_{11} & \ldots & x_{1j} & \ldots & a_{1n}\\+x_{11} & \ldots & x_{1j} & \ldots & x_{1n}\\
 \ldots & \ldots & \ldots & \ldots & \ldots\\ \ldots & \ldots & \ldots & \ldots & \ldots\\
-x_{i1} & \ldots & x_{ij} & \ldots & a_{in}\\+x_{i1} & \ldots & x_{ij} & \ldots & x_{in}\\
 \ldots & \ldots & \ldots & \ldots & \ldots\\ \ldots & \ldots & \ldots & \ldots & \ldots\\
-x_{N1} & \ldots & x_{Nj} & \ldots & a_{Nn}\\+x_{N1} & \ldots & x_{Nj} & \ldots & x_{Nn}\\
 \end{pmatrix} \end{pmatrix}
 $$ $$
-Строки матрицы $X$ соответствуют наблюдениям или, другими словами,​ объектам наблюдения. В качестве объектов наблюдения выступают,​ например:​ в социологии ​– респонденты (анкетируемые люди), в экономике ​– предприятия,​ виды продукции и т. д. Столбцы матрицы $X$ соответствуют признакам,​ характеризующим изучаемое явление. Как правило,​ это наиболее легко измеряемые характеристики объектов. Например,​ предприятие характеризуется численностью,​ стоимостью основных фондов,​ видом выпускаемой продукции и т. д. Очевидно,​ что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$):+Строки матрицы $X$ соответствуют наблюдениям или, другими словами,​ объектам наблюдения. В качестве объектов наблюдения выступают,​ например:​ в социологии ​-- респонденты (анкетируемые люди), в экономике ​-- предприятия,​ виды продукции и т.д. Столбцы матрицы $X$ соответствуют признакам,​ характеризующим изучаемое явление. Как правило,​ это наиболее легко измеряемые характеристики объектов. Например,​ предприятие характеризуется численностью,​ стоимостью основных фондов,​ видом выпускаемой продукции и т.д. Очевидно,​ что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$):
 $$ $$
-\x'_j = \cfrac{x_{ij} - \bar x_j}{\sigma_j},​+x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j},​
 $$ $$
 $$ $$
-\bar x_j = \cfrac1N\sum_{i = 1}^Nx_{ij},+\bar x_j = \frac1N\sum_{i = 1}^Nx_{ij},
 $$ $$
 $$ $$
-\sigma_j^2 = \cfrac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n,+\sigma_j^2 = \frac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n,
 $$ $$
-где $\bar x_j$, $\sigma_j^2$ ​– среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами:​+где $\bar x_j$, $\sigma_j^2$ ​-- среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами:​
 $$ $$
-\overline{x'​_j} = \cfrac1N\sum_{i = 1}^Nx'​_{ij} = 0,+\overline{x'​_j} = \frac1N\sum_{i = 1}^Nx'​_{ij} = 0,
 $$ $$
 $$ $$
-(\sigma'​_j)^2 = \cfrac1N\sum_{i = 1}^N(x'​_{ji})^2 = 1, \, i = 1..N, \, j = 1..n.+(\sigma'​_j)^2 = \frac1N\sum_{i = 1}^N(x'​_{ij})^2 = 1, \, i = 1..N, \, j = 1..n.
 $$ $$
 Зачастую признаки,​ описывающие некоторый объект,​ имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например,​ //​килограмм//​ и //​метр//​. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине,​ выраженной в одних и тех же условных единицах. Зачастую признаки,​ описывающие некоторый объект,​ имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например,​ //​килограмм//​ и //​метр//​. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине,​ выраженной в одних и тех же условных единицах.
-===== Общая формулировка задачи =====+===== Постановка задачи =====
 Выбрав набор данных,​ одобренный преподавателем,​ подготовить данные для последующей работы с помощью инструментов R. Выбрав набор данных,​ одобренный преподавателем,​ подготовить данные для последующей работы с помощью инструментов R.
-==== Порядок выполнения работы ==== +===== Порядок выполнения работы ​===== 
-  - Импортировать ​данные из файла в рабочее пространство R. +===== Содержание отчёта =====
-  - Разбить общий файл данных на группы файлов с одинаковым номером класса. +
-  - Подготовить файлы для обучения классификации и проверочные файлы двумя способами:​ первый способ подразумевает формирование файла обучения из первой половины выборок по всем классам,​ а контрольный файл сформировать из второй половины данных. Второй способ подразумевает сформировать файлы для обучения и контроля на основе данных с четными и нечетными номерами. +
-  - Подготовить аналогичные файлы с использованием центрирования и нормировки данных. +
-  - Построить графики зависимостей значений признаков (полигон) для всех классов и для каждого по отдельности. +
-  - Построить гистограммы для каждого параметра для всех классов и для каждого по отдельности +
-  - С помощью функции //​summary()//​ вывести на экран описательную статистику для всех классов и для каждого по отдельности. Объяснить результаты. +
-  - Построить диаграммы размахов ("​ящик с усами"​) для всех классов и для каждого по отдельности. +
-  - Построить матрицы корреляций для всех классов и для каждого класса по отдельности. +
  
  
courses/data_analysis_and_interpretation/task2.1547208498.txt.gz · Last modified: 2022/12/10 09:08 (external edit)