This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
courses:data_analysis_and_interpretation:task2 [2019/01/12 20:25] andrey.suchkov |
courses:data_analysis_and_interpretation:task2 [2019/10/09 14:23] andrey.suchkov [Практическая работа №2: Подготовка статистических данных для последующей обработки] |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Практическая работа №2: Подготовка статистических данных для обработки в среде R ====== | + | ====== Практическая работа №2: Подготовка статистических данных ====== |
===== Цель работы ===== | ===== Цель работы ===== | ||
- | Подготовить статистические данные для работы с пакетом STATISTICA на базе искомого набора статистических данных. | + | Подготовить данные для работы с R на базе искомого набора статистических данных. |
===== Основные теоритические положения ===== | ===== Основные теоритические положения ===== | ||
- | Рассмотрим традиционный способ представления результатов эксперимента – матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик, значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков, показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$: | + | Рассмотрим традиционный способ представления результатов эксперимента -- матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик, значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков, показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$: |
$$ X = | $$ X = | ||
\begin{pmatrix} | \begin{pmatrix} | ||
- | x_{11} & \ldots & x_{1j} & \ldots & a_{1n}\\ | + | x_{11} & \ldots & x_{1j} & \ldots & x_{1n}\\ |
\ldots & \ldots & \ldots & \ldots & \ldots\\ | \ldots & \ldots & \ldots & \ldots & \ldots\\ | ||
- | x_{i1} & \ldots & x_{ij} & \ldots & a_{in}\\ | + | x_{i1} & \ldots & x_{ij} & \ldots & x_{in}\\ |
\ldots & \ldots & \ldots & \ldots & \ldots\\ | \ldots & \ldots & \ldots & \ldots & \ldots\\ | ||
- | x_{N1} & \ldots & x_{Nj} & \ldots & a_{Nn}\\ | + | x_{N1} & \ldots & x_{Nj} & \ldots & x_{Nn}\\ |
\end{pmatrix} | \end{pmatrix} | ||
$$ | $$ | ||
- | Строки матрицы $X$ соответствуют наблюдениям или, другими словами, объектам наблюдения. В качестве объектов наблюдения выступают, например: в социологии – респонденты (анкетируемые люди), в экономике – предприятия, виды продукции и т. д. Столбцы матрицы $X$ соответствуют признакам, характеризующим изучаемое явление. Как правило, это наиболее легко измеряемые характеристики объектов. Например, предприятие характеризуется численностью, стоимостью основных фондов, видом выпускаемой продукции и т. д. Очевидно, что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$): | + | Строки матрицы $X$ соответствуют наблюдениям или, другими словами, объектам наблюдения. В качестве объектов наблюдения выступают, например: в социологии -- респонденты (анкетируемые люди), в экономике -- предприятия, виды продукции и т.д. Столбцы матрицы $X$ соответствуют признакам, характеризующим изучаемое явление. Как правило, это наиболее легко измеряемые характеристики объектов. Например, предприятие характеризуется численностью, стоимостью основных фондов, видом выпускаемой продукции и т.д. Очевидно, что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$): |
$$ | $$ | ||
x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j}, | x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j}, | ||
Line 23: | Line 23: | ||
\sigma_j^2 = \frac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n, | \sigma_j^2 = \frac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n, | ||
$$ | $$ | ||
- | где $\bar x_j$, $\sigma_j^2$ – среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами: | + | где $\bar x_j$, $\sigma_j^2$ -- среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами: |
$$ | $$ | ||
\overline{x'_j} = \frac1N\sum_{i = 1}^Nx'_{ij} = 0, | \overline{x'_j} = \frac1N\sum_{i = 1}^Nx'_{ij} = 0, | ||
Line 31: | Line 31: | ||
$$ | $$ | ||
Зачастую признаки, описывающие некоторый объект, имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например, //килограмм// и //метр//. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине, выраженной в одних и тех же условных единицах. | Зачастую признаки, описывающие некоторый объект, имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например, //килограмм// и //метр//. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине, выраженной в одних и тех же условных единицах. | ||
- | ===== Общая формулировка задачи ===== | + | ===== Постановка задачи ===== |
- | Выбрав набор данных, одобренный преподавателем, подготовить данные для последующей работы с помощью инструментов Statistica. | + | Выбрав набор данных, одобренный преподавателем, подготовить данные для последующей работы с помощью инструментов R. |
- | ==== Порядок выполнения работы ==== | + | ===== Порядок выполнения работы ===== |
- | - Импортировать данные из текстового файла в рабочий файл STATISTICA. | + | ===== Содержание отчёта ===== |
- | - Разбить общий файл данных на группы файлов с одинаковым номером класса. | + | |
- | - Подготовить файлы для обучения классификации и проверочные файлы. | + | |
- | - Подготовить аналогичные файлы с использованием центрирования и нормировки данных. | + | |
- | - Ознакомиться с остальными опциями меню Data. | + | |
- | - Построить графики зависимостей значений признаков для различных классов данных с использованием опции 2D. | + | |
- | - Построить линейные графики (Line Plots). Тип графика Multiple. | + | |
- | - Ознакомиться с опциями настройки графика. | + | |
- | - Выполнить предварительный анализ данных с использованием Basic Statistics and Tables/Descriptive Statistics. | + | |
- | - Результаты оформить в форме отчета. | + |