Первичная обработка результатов наблюдения методом математической статистики
В сборнике содержатся методические указания и варианты лабораторной работы по теме: «Первичная обработка результатов наблюдения методом математической статистики. Оценка параметров «нормального» распределения».
Цель выполнения лабораторной работы – привить студентам навыки самостоятельной обработки эмпирически полученных данных с помощью основных методов математической статистики.
Методика сборника обеспечивает самостоятельное выполнение расчётно-графической работы.
Описание лабораторной работы включает краткие теоретические сведения и план выполнения работ:
· образец выполнения работы;
Лабораторный практикум содержит 50 вариантов и гарантирует индивидуальность его выполнения.
Наличие алгоритма позволяет все расчёты производить как в «ручном» режиме так и с помощью ЭВМ.
Рекомендуется для инженерных, экономических и агрономических специальностей.
Лабораторная работа №1
Первичная обработка результатов наблюдения методом математической статистики
Цель работы:Привить навыки первичной обработки эмпирических данных с помощью методов математической статистики.
Содержание работы:
1.Группировка данных в вариационный ряд и представление в виде эмпирической функции распределения.
2.Графическое изображение вариационного ряда и эмпирической функции распределения.
3.Вычисление основных числовых характеристик выборочной совокупности.
4.Определение границ истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.
5. Содержательная интерпретация результатов первичной обработки по условию задачи.
Форма отчета:
1. Представление работы по указанному в методике образцу.
2.Самостоятельное изучение теоретического материала с помощью предлагаемых контрольных вопросов.
Источник
Первичная обработка результатов
Тема 17. Основные понятия математической статистики. Генеральная совокупность и выборка. Вариационный ряд, статистический ряд. Группированная выборка. Группированный статистический ряд. Полигон частот. Выборочная функция распределения и гистограмма.
Выборочный метод. Статистические оценки параметров распределения. Методы расчета сводных характеристик выборки. Элементы теории корреляции. Статистическая проверка статистических гипотез. Метод Монте – Карло.
Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:
— определение способов сбора и группировки этих статистических данных;
— разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;
б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.
Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов.
Определим основные понятия математической статистики.
Генеральная совокупность– все множество имеющихся объектов.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Объем генеральной совокупности N и объем выборки n – число объектов в рассматривае-мой совокупности.
Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность;
Бесповторная – отобранный объект в генеральную совокупность не возвращается.
Замечание. Для того, чтобы по исследованию выборки можно было сделать выводы о поведе-нии интересующего нас признака генеральной совокупности, нужно, чтобы выборка правиль-но представляла пропорции генеральной совокупности, то есть была репрезентативной(представительной). Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова.
Пусть интересующая нас случайная величина Х принимает в выборке значение х1 п1 раз, х2 – п2 раз, …, хк – пк раз, причем где п – объем выборки. Тогда наблюдаемые значения случайной величины х1, х2,…, хк называют вариантами, а п1, п2,…, пк – частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты Последовательность вариант, записанных в порядке возрастания, называют вариационнымрядом, а перечень вариант и соответствующих им частот или относительных частот – стати-стическим рядом:
xi | x1 | x2 | … | xk |
ni | n1 | n2 | … | nk |
wi | w1 | w2 | … | wk |
При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1.Составим вариационный ряд: 0,1,2,3,4,5. Статистический ряд для абсолютных и относительных частот имеет вид:
xi | ||||||
ni | ||||||
wi | 0,15 | 0,3 | 0,25 | 0,15 | 0,1 | 0,05 |
Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni – сумму частот вариант, попавших в i-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом:
Источник
Выполнения работы
В сборнике содержатся методические указания и варианты лабораторной работы по теме: «Первичная обработка результатов наблюдения методом математической статистики. Оценка параметров «нормального» распределения».
Цель выполнения лабораторной работы – привить студентам навыки самостоятельной обработки эмпирически полученных данных с помощью основных методов математической статистики.
Методика сборника обеспечивает самостоятельное выполнение расчётно-графической работы.
Описание лабораторной работы включает краткие теоретические сведения и план выполнения работ:
· образец выполнения работы;
Лабораторный практикум содержит 50 вариантов и гарантирует индивидуальность его выполнения.
Наличие алгоритма позволяет все расчёты производить как в «ручном» режиме так и с помощью ЭВМ.
Рекомендуется для инженерных, экономических и агрономических специальностей.
Лабораторная работа №1
Первичная обработка результатов наблюдения методом математической статистики
Цель работы:Привить навыки первичной обработки эмпирических данных с помощью методов математической статистики.
Содержание работы:
1.Группировка данных в вариационный ряд и представление в виде эмпирической функции распределения.
2.Графическое изображение вариационного ряда и эмпирической функции распределения.
3.Вычисление основных числовых характеристик выборочной совокупности.
4.Определение границ истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.
5. Содержательная интерпретация результатов первичной обработки по условию задачи.
Форма отчета:
1. Представление работы по указанному в методике образцу.
2.Самостоятельное изучение теоретического материала с помощью предлагаемых контрольных вопросов.
3.Устное собеседование по работе, сдача зачета.
§ 1.1. Краткие теоретические сведения и план
выполнения работы.
Изучение свойств случайных величин методом математической статистики основано на первичной обработке результатов наблюдений, выраженных в числовой форме.
Целью первичной обработки является представление первичной числовой информации в более обозримой, сжатой форме, а также получение сведений об основных закономерностях изучаемой совокупности случайных величин.
В математической статистике различают генеральную совокупность и выборочную.
Под генеральной совокупностью понимается все мыслимое множество случайных объектов, обладающих общностью некоторого, изучаемого в данном исследовании, признака. Это множество, как правило, счетное.
Выборочная совокупность (выборка)- эта часть генеральной совокупности, которая фактически изучается.
Для того, чтобы по выборке можно было достаточно уверенно судить о свойствах генеральной совокупности она должна быть репрезентативной, т.е. достаточной по численности, случайной по отбору с соблюдением равной возможности каждого элемента генеральной совокупности попасть в выборку.
Теоретической основой выборочного метода является теорема Чебышева.
Теорема: с вероятностью, сколь угодно близкой к достоверности можно утверждать, что при достаточно большом числе наблюдений, ограниченной дисперсии генеральной совокупности попарно независимых случайных величин, разность между средним арифметическим и средним арифметическим их математических ожиданий будет сколь угодно малой, т.е.
где — средняя для выборочной совокупности;
-средняя для генеральной совокупности;
-как угодно малое положительное число.
Итоги эмпирических наблюдений представляют собой простой статистический ряд- таблицу числовых значений изучаемой случайной величины. Известно, что, если находить числовые характеристики, предварительно сгруппировав полученные данные, то их значения будут ближе подходить к истинным значениям аналогичных характеристик генеральной совокупности.
Первичная обработка результатов наблюдений состоит из нескольких этапов. Рассмотрим содержание каждого из них.
Этап I. Группировка данных в вариационный ряд и представление его в виде функции распределения.
Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:
1.В исходной таблице эмпирических данных найти наименьшее ( ) и наибольшее ( ) значения.
2.Определить размах варьирования:
3. Наметить число интервалов группировки. Имея в виду, что выделением большого числа групп можно затушевать общую картину распределения, малое же число не позволит выявить характерную особенность изучаемой случайной величины. Исходя из опыта рекомендуется выделять от 5 до 20 групп так, чтобы каждая группа была достаточно наполнена значениями вариант. Можно также воспользоваться формулами:
где s-число групп, n-объем выборки.
4. Определить длину интервала
Если вычисленное отношение – число иррациональное, то его округляют до удобного целого значения.
5. Записать интервалы группировок и расположить их в порядке возрастания границ
где — нижняя граница первого интервала. За берется удобное “круглое” число не большее , верхняя граница последнего интервала должна быть не меньше .Это делается для того, чтобы интервалы содержали в себе исходные значения случайной величины.
6. Разнести исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.
Записать интервальный ряд частот и относительных частот.
7. От интервального ряда перейти к дискретному. Для этого каждый интервал заменить его средним значением, оставив частоты и относительные частоты без изменения.
8. Записать эмпирическую функцию распределения.
где — число вариант, значения которых меньше чем ;
n — число всех значений, объем выборки.
F * (x) определяет относительную частоту события (X<x).
Замечание №1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже — более крупный.
Замечание №2. Появление “граничных” значений нежелательно, это ведет к смещению эмпирического распределения от его истинного положения на числовой оси влево, либо вправо, выбирая границы, регулирования длину интервала, следует этого избегать.
Замечание №3 Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).
Этап II. Графическое изображения ряда и эмпирической функции распределения.
Графически интервальный вариационный ряд изображается либо в виде гистограммы частот – ступенчатой фигуры, состоящей из прямоугольников, основанием которых служат интервалы группировки, а высоты равны отношению частоты к длине интервала , либо в виде гистограммы относительных частот, когда высоты прямоугольников равны отношению относительной частоты к длине интервала группировки .
Дискретный вариационный ряд графически изображается в виде полигона частот или относительных частот.
Полигон частот – это ломаная линия, отрезки которой соединяют точки с координатами ( ).
Полигон относительных частот – это ломанная линия, отрезки которой соединяются точками с координатами ( ).
Эмпирическая функция распределения графически изображается в виде линии, изменяющейся скачкообразно. На оси абсцисс откладывается значения интервалов, на оси ординат соответствующие им вероятности (значения функции), вычисляемые по формуле , где .
Скачки наблюдаются при переходе от одного интервала к другому.
Графическое изображение вариационных рядов и эмпирической функции распределения лучше уяснить на конкретном примере в разделе “Образец выполнения задания”.
Этап III. Вычисление числовых характеристик.
Вычисление числовых характеристик осуществляются по следующим формулам:
1. Среднее арифметическое
2. Дисперсия вычисляется либо по определению
либо по формуле , где и — начальные эмпирические моменты первого и второго порядков.
3. Среднее квадратическое отклонение
4. Исправленная дисперсия
5. Исправленное среднее квадратическое отклонение
6. Коэффициент асимметрии
где — центральный эмпирический момент третьего порядка, он вычисляется либо по определению
либо по формуле
где — начальные эмпирические моменты первого, второго и третьего порядков.
7. Коэффициент эксцесса
где — центральный эмпирический момент четвертого порядка. Он вычисляется либо по определению
либо по формуле ,
Замечание 1: Так как все числовые характеристики выражаются через , то удобнее вначале вычислить числовые значения , а затем значения числовых характеристик.
Замечание 2: Для упрощения расчетов, если они выполняются “вручную” удобнее перейти от данных значений вариант к условиям по формуле
где h – длина интервала группировки,
С – ложный нуль.
Чаще всего в качестве ложного нуля принимается либо варианта, находящаяся в середине вариационного ряда, либо мода (варианта , имеющая наибольшую частоту), либо любое другое число, упрощающее расчеты.
Если за принять какое — либо значение , то соответствующая ему условная варианта будет равна нулю, а слева и справа от нуля будут располагаться соответственно значения 1, 2, 3, 4 и т.д.
Если, например, , то вариационный ряд в условных вариантах примет вид
Числовые характеристики в условных вариантах , , , вычисляют с той лишь разницей, что вместо используется .
Однако после вычисления числовых характеристик в условных вариантах необходимо перейти к первоначальным значениям вариант. Это осуществляется по формулам:
Промежуточные расчеты при вычислении числовых характеристик удобнее оформлять в виде таблицы.
Этап IV. Определение границ истинных значений числовых характеристик изучаемой величины с заданной надежностью.
Числовые характеристики, вычисленные по случайной выборке из генеральной совокупности, лишь приближенно характеризуют истинные значения аналогичных характеристик изучаемой генеральной совокупности. Поэтому возникает вопрос о надежности, с которой можно принять вычисленные значения и о границах допустимых значений. Частично эти вопросы решаются путем нахождения доверительных (надежностных) интервалов для основных числовых характеристик.
Надежностный интервал для генеральной средней имеет вид:
n – объем выборки
, если большая выборка ( ),
t – значение аргумента функции Лапласа, при котором она равна ,
t – находится по таблицам значений функции Лапласа из условия
— вероятность суждений, называемая надежностью. Она выбирается самим исследователем. Значения =0.95, как правило, считается достаточным для большинства исследований. Надежностный интервал с вероятностью содержит в себе генеральную среднюю.
Замечание. Если выборка мала (n<30), то надежностный интервал для генеральной средней имеет вид:
где S – исправленное выборочное среднеквадратическое отклонение,
— число, взятое из таблицы значений по объему выборки n и надежности .
При больших n результаты нахождения надежноcтного интервала двумя указанными способами практически неразличимы.
Надежностный интервал для среднеквадратического отклонения имеет вид
т.е. определяется выражением ∙q или, если левая часть отрицательна, то ее отбрасывают и интервал примет вид
где S — исправленное выборочное среднее квадратическое отклонение,
q – табличное значение критических точек , оно зависит от объема выборки n и заданной надежности .
Этап V. Содержательная интерпретация результатов первичной обработки данных по условию задачи.
Итогом первичной обработки данных служит содержательная интерпретация результатов произведенных вычислений.
Арифметическое среднее, вычисленное по выборочным данным, представляет собой обобщенную характеристику всей совокупности значений в целом. Значение — являясь как бы точкой сгущения значений, характеризует центральное положение возможных значений случайной величины.
Доверительный интервал указывает на то, что с вероятностью , генеральная средняя изучаемой случайной величины заключена в найденном интервале, или, что данный интервал с надежностью содержит в себе истинное среднее значение генеральной совокупности .
Среднее квадратическое отклонение служит показателем, который дает представление о наиболее вероятной средней ошибке отдельного, единичного наблюдения, взятого из данной совокупности.
Основные значения, ядро вариационного ряда содержится в интервале
Отклонение от , превосходящее по модулю возможны, но вероятность их уменьшается по мере удаления от , .
Надежностный интервал с вероятностью содержит в себе значение генерального среднего квадратического отклонения.
Коэффициент асимметрии — указывает на нарушение симметрии, наличие скоса.
Если , то скос наблюдается справа, если , то слева, если , то распределение симметричное.
Коэффициент эксцесса — указывает на характер вершины распределения.
Если , то распределение островершинное, это говорит о том, что значения признака не значительно разбросаны вокруг среднего значения. Если , то распределение пологое, это говорит о том, что значения признака значительно разбросаны вокруг среднего значения. Если , то распределение совпадает со стандартным нормальным.
Коэффициент вариации V – стандартное отклонение, выраженное в процентах к средней арифметической данной совокупности. Он является относительным показателем изменчивости. Если V<10%, то изменчивость считают незначительной, если 10%< V <20% то изменчивость считают средней, если V>20%, то изменчивость значительная.
Использование коэффициента вариации V как показателя колеблемости (вариации) имеет смысл только при положительных значениях вариант и совершенно не применимо, если варианты принимают как положительные так и отрицательные значения.
Рассмотренные числовые характеристики необходимо сопоставлять с вариационным рядом, его графическим изображением и интерпретировать с учетом единиц измерения и содержания, указанных в условиях задачи.
Источник
Лабораторная работа № 1 по математической статистике.
Первичная обработка результатов наблюдений
Целью первичной обработки является представление первичной числовой информации в сжатой форме, а также получение сведений об основных закономерностях изучаемой совокупности случайных величин в выборке, соответственно и в генеральной совокупности. Под генеральной совокупностью понимается все мыслимое множество случайных объектов, обладающих общностью некоторого, изучаемого в данном исследовании… Читать ещё >
Лабораторная работа № 1 по математической статистике. Первичная обработка результатов наблюдений ( реферат , курсовая , диплом , контрольная )
Содержание
- Цель и содержание лабораторной работы № 1
- 1. Краткие теоретические сведения и план выполнения работы
- 2. Выполнение работы
- Литература
Цель и содержание лабораторной работы № 1
Цель работы: привить навыки первичной обработки эмпирических данных с помощью методов математической статистики: получение из выборочных данных эмпирического закона распределения, вычисление ее числовых характеристик и доверительных интервалов, в которых с заданной вероятностью находятся соответствующие числовые характеристики генеральной совокупности.
1. Группировка данных в вариационный ряд и представление его в виде функции распределения.
2. Графическое изображение вариационного ряда и эмпирической функции распределения.
3. Вычисление основных числовых характеристик выборочной совокупности.
4. Вычисление доверительных интервалов числовых характеристик изучаемой совокупности данных с заданной надежностью.
5. Содержательная интерпретация результатов первичной обработки данных по условию задачи.
1. Краткие теоретические сведения и план выполнения работы
Изучение свойств случайных величин методами математической статистики основано на первичной обработке выраженных в числовой форме результатов массовых выборочных наблюдений.
Закономерность, выявленная на основе массового (выборочного) наблюдения, называется статистической зависимостью.
Целью первичной обработки является представление первичной числовой информации в сжатой форме, а также получение сведений об основных закономерностях изучаемой совокупности случайных величин в выборке, соответственно и в генеральной совокупности [13, https://referat.bookap.info].
В математической статистике различают генеральную и выборочную совокупности.
Под генеральной совокупностью понимается все мыслимое множество случайных объектов, обладающих общностью некоторого, изучаемого в данном исследовании, признака. Это множество, как правило, счетное.
Выборочная совокупность (выборка) — эта часть генеральной совокупности, которая фактически изучается.
Для того чтобы по выборке можно было достаточно уверенно судить о свойствах генеральной совокупности, она должна быть представительной (репрезентативной), т. е. достаточной по численности, случайной по отбору с соблюдением равной возможности каждого элемента генеральной совокупности попасть в выборку.
Теоретической основой выборочного метода является теорема Чебышева. Статистические закономерности обнаруживаются при массовом наблюдении благодаря действию так называемого закона больших чисел. Сущность закона больших чисел заключается в том, что по мере увеличения числа наблюдений влияние случайных факторов (причин), определяющих значение признака у единиц совокупности, взаимопогашаются в общих характеристиках совокупности (например, в средних величинах) и на поверхность выступает действие основных факторов, которые и определяют закономерность.
Таким образом, массовые явления — основа статистики и одна из составляющих ее метода.
Теорема. С вероятностью, сколь угодно близкой к достоверности, можно утверждать, что при достаточно большом числе наблюдений, ограниченной дисперсии генеральной совокупности попарно независимых случайных величин разность между их средним арифметическом и средним арифметическим их математических ожиданий будет сколь угодно малой, т. е.
где — средняя для выборочной совокупности;
где — средняя для генеральной совокупности;
сколь угодно малое положительное число.
Итоги эмпирических наблюдений (выборка) представляют собой статистический рядтаблицу значений изучаемой случайной величины, в которой содержится информация о числовых характеристиках выборки, следовательно и о числовых характеристиках генеральной совокупности. Эти числовые характеристики можно вычислить предварительно сгруппировав полученные первичные данные.
Первичная обработка результатов наблюдений состоит из нескольких этапов, позволяющих в конечном итоге рассчитать обобщающие показатели (характеристики). Рассмотрим содержание каждого из них.
Источник