courses:data_analysis_and_interpretation:task2

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
courses:data_analysis_and_interpretation:task2 [2019/01/12 20:25]
andrey.suchkov
courses:data_analysis_and_interpretation:task2 [2019/10/09 14:16]
andrey.suchkov [Цель работы]
Line 1: Line 1:
-====== Практическая работа №2: Подготовка статистических данных для обработки ​в среде R ======+====== Практическая работа №2: Подготовка статистических данных для ​последующей ​обработки ======
 ===== Цель работы ===== ===== Цель работы =====
-Подготовить ​статистические ​данные для работы с пакетом STATISTICA ​на базе искомого набора статистических данных.+Подготовить данные для работы с на базе искомого набора статистических данных.
 ===== Основные теоритические положения ===== ===== Основные теоритические положения =====
-Рассмотрим традиционный способ представления результатов эксперимента ​– матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик,​ значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков,​ показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$:+Рассмотрим традиционный способ представления результатов эксперимента ​-- матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик,​ значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков,​ показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$:
 $$ X =  $$ X = 
 \begin{pmatrix} \begin{pmatrix}
-x_{11} & \ldots & x_{1j} & \ldots & a_{1n}\\+x_{11} & \ldots & x_{1j} & \ldots & x_{1n}\\
 \ldots & \ldots & \ldots & \ldots & \ldots\\ \ldots & \ldots & \ldots & \ldots & \ldots\\
-x_{i1} & \ldots & x_{ij} & \ldots & a_{in}\\+x_{i1} & \ldots & x_{ij} & \ldots & x_{in}\\
 \ldots & \ldots & \ldots & \ldots & \ldots\\ \ldots & \ldots & \ldots & \ldots & \ldots\\
-x_{N1} & \ldots & x_{Nj} & \ldots & a_{Nn}\\+x_{N1} & \ldots & x_{Nj} & \ldots & x_{Nn}\\
 \end{pmatrix} \end{pmatrix}
 $$ $$
-Строки матрицы $X$ соответствуют наблюдениям или, другими словами,​ объектам наблюдения. В качестве объектов наблюдения выступают,​ например:​ в социологии ​– респонденты (анкетируемые люди), в экономике ​– предприятия,​ виды продукции и т. д. Столбцы матрицы $X$ соответствуют признакам,​ характеризующим изучаемое явление. Как правило,​ это наиболее легко измеряемые характеристики объектов. Например,​ предприятие характеризуется численностью,​ стоимостью основных фондов,​ видом выпускаемой продукции и т. д. Очевидно,​ что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$):+Строки матрицы $X$ соответствуют наблюдениям или, другими словами,​ объектам наблюдения. В качестве объектов наблюдения выступают,​ например:​ в социологии ​-- респонденты (анкетируемые люди), в экономике ​-- предприятия,​ виды продукции и т.д. Столбцы матрицы $X$ соответствуют признакам,​ характеризующим изучаемое явление. Как правило,​ это наиболее легко измеряемые характеристики объектов. Например,​ предприятие характеризуется численностью,​ стоимостью основных фондов,​ видом выпускаемой продукции и т.д. Очевидно,​ что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'$):
 $$ $$
 x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j},​ x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j},​
Line 23: Line 23:
 \sigma_j^2 = \frac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n, \sigma_j^2 = \frac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n,
 $$ $$
-где $\bar x_j$, $\sigma_j^2$ ​– среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами:​+где $\bar x_j$, $\sigma_j^2$ ​-- среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами:​
 $$ $$
 \overline{x'​_j} = \frac1N\sum_{i = 1}^Nx'​_{ij} = 0, \overline{x'​_j} = \frac1N\sum_{i = 1}^Nx'​_{ij} = 0,
Line 31: Line 31:
 $$ $$
 Зачастую признаки,​ описывающие некоторый объект,​ имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например,​ //​килограмм//​ и //​метр//​. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине,​ выраженной в одних и тех же условных единицах. Зачастую признаки,​ описывающие некоторый объект,​ имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например,​ //​килограмм//​ и //​метр//​. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине,​ выраженной в одних и тех же условных единицах.
-===== Общая формулировка задачи ===== +===== Постановка задачи ===== 
-Выбрав набор данных,​ одобренный преподавателем,​ подготовить данные для последующей работы с помощью инструментов ​Statistica+Выбрав набор данных,​ одобренный преподавателем,​ подготовить данные для последующей работы с помощью инструментов ​R
-==== Порядок выполнения работы ==== +===== Порядок выполнения работы ​===== 
-  - Импортировать ​данные из текстового файла в рабочий файл STATISTICA. +===== Содержание отчёта ===== 
-  - Разбить общий файл данных на группы файлов с одинаковым номером класса. + 
-  - Подготовить файлы для обучения классификации и проверочные файлы. +
-  - Подготовить ​аналогичные файлы с использованием центрирования и нормировки данных. +
-  - Ознакомиться с остальными опциями меню Data. +
-  - Построить графики зависимостей значений признаков для различных классов данных с использованием опции 2D. +
-  - Построить линейные графики (Line Plots). Тип графика Multiple. +
-  - Ознакомиться с опциями настройки графика. +
-  - Выполнить предварительный анализ данных с использованием Basic Statistics and Tables/​Descriptive Statistics. +
-  - Результаты оформить в форме отчета.+
courses/data_analysis_and_interpretation/task2.txt · Last modified: 2022/12/10 09:08 (external edit)