courses:data_analysis_and_interpretation:task2

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task2 [2019/07/12 19:13]
andrey.suchkov [Практическая работа №2: Основы работы с языком STATISTICA Basic]
courses:data_analysis_and_interpretation:task2 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №2: Подготовка статистических данных ​для дальнейшей обработки ​======+====== Практическая работа №2: Подготовка статистических данных ======
 ===== Цель работы ===== ===== Цель работы =====
-Научиться создавать программы на языке STATISTICA Visual Basic, формировать и обрабатывать с их помощью ​статистические данные, а также пользоваться контекстной помощью+Подготовить данные для ​работы с R на базе искомого набора статистических данных
-===== Основные теоретические положения ===== +===== Основные теоритические положения ===== 
-Язык STATISTICA Visual Basic (SVB) является больше, чем просто языком программирования. Используя ​все преимущества архитектуры объектной модели STATISTICA, ​с помощью SVB Вы можете расширять функциональные возможности ​системы, добавляя новые пользовательские модули и элементы. Проведение анализов, построение графиков и выполнение любых других ​действий Вы можете записать с помощью макросов SVB. Макросы можно затем запускать «как есть», редактировать и использовать их для создания собственных приложений. STATISTICA Visual Basic делает доступными более чем 13 000 новых функций в дополнение к стандартным.\\ +Рассмотрим традиционный ​способ представления ​результатов эксперимента -- матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление ​описано набором из $n$ характеристик, значения которых тем ​или иным способом ​измерены в ходе эксперимента. Данные характеристики ​носят название признаков, ​показателей или параметров. Такая ​информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности ​$N \times n$ или в виде матрицы $X$ размерности $N \times n$: 
-Существует несколько методов создания ​программ на STATISTICA Visual Basic: +$$ X =  
-  * Запись макроса. При запуске анализа или построении графика будет автоматически записан ​макрос – программа на языке Visual Basic с указанием всех ​настроек для данного анализа или графика. Все интерактивные серии ​анализа STATISTICA записываются с помощью Мастер ​Макроса. Этот программный код можно запустить повторно или редактировать, изменяя ​параметры, переменныефайлы данных, добавлять ​пользовательский интерфейс ​и т. д. +\begin{pmatrix} 
-  * Среда разработки SVB. Программы можно написать «с нуля» с помощью профессиональных средств ​разработки STATISTICA Visual Basic, используя удобный и мощный отладчик (с возможностью создания точек останова) и множество ​других возможностей для ​интуитивного построения кода+x_{11} & \ldots & x_{1j} & \ldots & x_{1n}\\ 
-  * Visual Basic других приложений. Программы также могут быть ​созданы ​на языке Visual Basic в других приложениях (например, Microsoft Excel), в которых можно вызывать функции и процедуры STATISTICA. +\ldots & \ldots & \ldots & \ldots & \ldots\\ 
-===== Общая формулировка задачи ===== +x_{i1} & \ldots & x_{ij} & \ldots & x_{in}\\ 
-С помощью языка SVB реализовать программы, позволяющие добавлять новые переменные, создавать новые ​таблицы ​данных, получить необходимые результаты, ​сделать выводы. +\ldots & \ldots & \ldots & \ldots & \ldots\\ 
-==== Порядок выполнения работы ​==== +x_{N1} & \ldots & x_{Nj} & \ldots & x_{Nn}\\ 
-  - В таблицу из задания работы №1 добавить новую переменную Доход_С,​ значения ​которой равны Доход + Доход_20. +\end{pmatrix} 
-  - Добавить новую переменную в файл данных социологического ​опроса Доход_М. Необходимо найти максимальный доход и для каждого респондента определить, сколько процентов от максимального дохода составляет его доход. +$$ 
-  - Составить таблицу 1000x3, содержащую в качестве первой ​переменной значения значения $x_i \in [0,\,2\pi]$ ($x_i$ изменяется с постоянным шагом), в качестве второй ​-- значения $\sin x_i$ и в качестве третьей -- значения $\sin x_i + X$, где $X \sim \mathcal N(0,\,​0.005)$. +Строки матрицы $X$ соответствуют наблюдениям или, другими словами, объектам наблюдения. В качестве объектов ​наблюдения ​выступают, например: в социологии -- респонденты (анкетируемые люди), в экономике ​-- предприятия, виды продукции и т.д. Столбцы матрицы $X$ соответствуют признакам, характеризующим изучаемое явление. Как правило, это наиболее легко ​измеряемые характеристики объектов. Например, предприятие характеризуется численностьюстоимостью основных ​фондоввидом выпускаемой продукции и т.д. ​Очевидно, что элемент $X_{ij}$ ​представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица ​данных $X$ приводится к стандартной форме следующим преобразованием (для ​элементов матрицы в стандартной форме ​используется обозначение ​$x'$)
-  - Построить соответствующие графики. +$$ 
-  - Создать кнопку на панели Автозадач ​для быстрого ​вызова файла ​данных ​социологического опроса. +x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j}
-  - Создать кнопку на панели ​Автозадач для программ п. 2) и п. 3). +$$ 
-  - Результаты оформить в виде отчёта.+$$ 
 +\bar x_j \frac1N\sum_{i ​1}^Nx_{ij},​ 
 +$$ 
 +$$ 
 +\sigma_j^2 ​\frac1N\sum_{i ​1}^N(x_{ij} - \bar x_j)^2, \, i 1..N, \, j = 1..n, 
 +$$ 
 +где $\bar x_j$, $\sigma_j^2$ -- среднее ​и дисперсия ​по столбцу с номером ​$j$, после которого стандартная матрица $X'$ обладает следующими свойствами: 
 +$$ 
 +\overline{x'​_j} ​\frac1N\sum_{i ​1}^Nx'​_{ij} ​0, 
 +$$ 
 +$$ 
 +(\sigma'​_j)^2 ​\frac1N\sum_{i ​1}^N(x'​_{ij})^2 ​1, \, i 1..N, \, j 1..n. 
 +$$ 
 +Зачастую признакиописывающие некоторый объект, ​имеют существенно различный физический смысл. Это приводит к тому, что величины в различных ​столбцах исходной матрицы трудно сопоставлять между собой, например,​ //килограмм// ​и //метр//. Поэтому получение стандартизованной матрицы ​можно понимать как приведение ​всех признаков к некоторой единой условной физической ​величине, выраженной в одних ​и тех же условных ​единицах
 +===== Постановка задачи ===== 
 +Выбрав набор данныходобренный ​преподавателем, подготовить данные ​для последующей работы с помощью инструментов R. 
 +===== Порядок ​выполнения работы ===== 
 +===== Содержание отчёта ​===== 
 + 
courses/data_analysis_and_interpretation/task2.1562958803.txt.gz · Last modified: 2022/12/10 09:08 (external edit)