Тема 5. Методы изучения корреляционной зависимости
Цель: сформировать представление о методах измерения стохастических связей, специфических черт, преимуществ и ограничений применения этих методов.
Задачи: представить классификацию видов и методов измерения связей, раскрыть особенности корреляционного и регрессионного методов анализа, а также непараметрических методов изучения связей.
Оглавление
5.1. Виды связей. Задачи статистики по изучению связи. Общая характеристика методов измерения связи.
В статистике для изучения взаимосвязей признаки делятся на два типа: факторные и результативные. Признаки, обусловливающие изменение других признаков, называются факторными. Признаки, зависимые от изменения факторов, называются результативными. Обусловленность явлений множеством факторов называется детерминизмом.
Выделяют два основных вида связей — функциональную (жестко детерминированную) и статистическую (стохастически детерминированную). Функциональной называют такую связь, при которой изменению значений признака-фактора соответствует строго определенное изменение результативного признака. Иными словами, при функциональной зависимости факторный признак полностью определяет результативный признак.
Связь является стохастически детерминированной, если с изменением признака-фактора результативный признак может в определенных пределах принимать любые значения с некоторыми вероятностями. Это обусловлено тем, что зависимая переменная, кроме выделенного признака-фактора, подвержена влиянию ряда неконтролируемых или неучтенных факторов. Стохастическая причинная зависимость проявляется не в каждом отдельном случае, а в среднем, при большом числе наблюдений. Частным случаем стохастической связи является корреляционная связь, при которой с изменением признака-фактора закономерным образом изменяются средние значения результативного признака.
В статистику термин «корреляция» введен английским ученым Френсисом Гальтоном в конце XIX в. и означает соответственно «corelation». Чем теснее связь между явлениями, тем, следовательно, больше исключается действие второстепенных, случайных факторов. В результате корреляционная связь приближается к функциональной. Поэтому функциональная связь может рассматриваться как предельный случай корреляции.
В процессе статистического исследования связи между явлениями и их признаками классифицируются по направлению (прямая и обратная) и форме выражения (линейная и нелинейная).
Разнообразие связей определяет разнообразие методов их изучения. Изучению функциональных связей соответствует балансовый метод, система средних и относительных величин, система индексов.
Для характеристики стохастических связей используются методы: аналитической группировки, корреляции и регрессии. Особое место занимают методы измерения связи по неколичественным признакам (корреляция по таблицам сопряженности, ранговая корреляция).
5.2. Показатели силы и тесноты связи на основе аналитической группировки.
Методы изучения корреляционной зависимости основаны на сопоставлении вариации признаков-факторов и результативного признака. Выбор признаков-факторов и результативного признака, а также принципиальная возможность причинно-следственной зависимости устанавливаются на основе содержательного анализа. На первых этапах исследования анализ связи включает задачи определения формы и направления воздействия одних признаков на другие. Для этих целей применяются метод приведения параллельных рядов и метод аналитической группировки. Используется графическое представление данных в виде поля корреляции.
Метод приведения параллельных рядов предусматривает сопоставление значений признаков-факторов и соответствующих им значений результативного признака у каждой единицы совокупности. Аналитическая группировка обобщает исходные данные: во-первых, все единицы совокупности группируются по факторному признаку и, во-вторых, каждая группа характеризуется средними величинами результативного признака. Благодаря обобщению, более четко проявляется связь между признаками, ее направление и форма. Выводы о характере связи делают через сопоставление изменений средних значений результата по группам с переходом от одного интервала к другому по признаку фактору.
Аналитическая группировка позволяет измерить связь количественно путем расчета показателей силы и тесноты связи. Показатель силы связи характеризует, как меняется результативный признак при изменении признака-фактора на единицу. Разности между соседними групповыми средними результативного признака дают возможность определить, как меняется результат при изменении фактора на величину интервала. При группировке по равным интервалам эти разности сопоставимы. Различия в их значениях, полученных в расчете на единицу интервала, свидетельствуют о том, что с изменением уровня фактора меняется сила связи, т. е. связь признаков нелинейная. В случае линейной связи при группировке по равным интервалам важным показателем является средний для совокупности показатель силы связи.
Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного или нескольких факторов. Их построение базируется на использовании правила сложения дисперсий, когда общую дисперсию можно представить как сумму межгрупповой и внутригрупповой дисперсий. Очевидно, чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака-фактора на изучаемый результативный признак.
Показателями тесноты связи являются коэффициент детерминации и эмпирическое корреляционное отношение. Коэффициент детерминации определяется как доля межгрупповой дисперсии в общей дисперсии признака-результата. Он показывает, какая часть общей вариации признака-результата объясняется влиянием изучаемого фактора . Формула расчета:
где — общая дисперсия; – межгрупповая дисперсия.
Эмпирическое корреляционное отношение – это корень квадратный из коэффициента детерминации. Формула расчета:
Для оценки тесноты связи на основе показателя эмпирического корреляционного отношения можно воспользоваться соотношениями Чэддока:
Если связь между признаками отсутствует, то межгрупповая дисперсия равна нулю, а, следовательно, и коэффициент корреляции равен нулю. Таким образом, чем ближе значение показателя к единице, тем сильнее связь между признаками.
5.3. Понятие о регрессии и корреляции
Задачи, решаемые методами регрессии и корреляции, непосредственно связаны между собой. В то время, ак в корреляционном анализе оценивается интенсивность, теснота связи, в регрессионном анализе исследуется ее форма. Иногда регрессию рассматривают как частный случай корреляции, считая тем самым корреляцию более широким понятием. Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями и процессами. Не каждую корреляцию можно отождествлять с причинной связью. При изучении совместного изменения явлений может быть установлена так называемая ложная корреляция. Под ложной корреляцией понимается чисто количественная сопряженность в вариации изучаемых явлений, не имеющая логического объяснения по содержанию. Причины возникновения ложной корреляции различны. К ложной корреляции может привести анализ совместной вариации признаков, которые не имеют непосредственной причинно-следственной связи, а детерминированы общей для них причиной. Ложная корреляция может возникнуть и в том случае, когда одна переменная входит в состав другой и тем самым формально обусловливает соответствие вариации этих переменных. Часто ложная корреляция возникает при изучении рядов динамики.
В зависимости от числа анализируемых переменных различают парную, множественную и частную корреляцию. Парная – то корреляция между двумя переменными, множественная- между более чем двумя переменными. Частная – то корреляция между двумя переменными при «фиксированном» влиянии остальных переменных, включенных в анализ.
При измерении тесноты связи проблема корреляции рассматривается в узком смысле. Одним из наиболее часто применяемых показателей тесноты связи является линейный коэффициент корреляции. Формула расчета:
Он является мерой линейной статистической зависимости между двумя признаками и изменяется в пределах от –1 до +1. Степень тесноты связи между переменными в случае не только линейной, но и нелинейной зависимости можно оценить с помощью теоретического корреляционного отношения. Его величина определяется как корень квадратный из соотношения факторной и общей дисперсии. Факторная дисперсия определяется на основе отклонения значений результата, рассчитанных по уравнению регрессии, от его среднего уровня.
Теоретическое корреляционное отношение может быть найдено и через отклонение от единицы доли остаточной дисперсии в общей дисперсии. В этом случае оно получило название индекса корреляции. Величина этих показателей находится в пределах от 0 до 1.
Для определения факторной и остаточной дисперсии при расчете теоретического корреляционного отношения и индекса корреляции необходимо построить уравнение регрессии.
Термин «регрессия» введен английским ученым Ф. Гальтоном и означает отступление, возврат к чему-либо, в частности, к среднему состоянию. Регрессия – это односторонняя стохастическая зависимость. Если исследуется стохастическая зависимость x от y, то определяется регрессия x на y . Односторонняя стохастическая зависимость характеризуется с помощью функции, которая является аналитическим выражением связи. Функция, описывающая зависимость среднего значения результативного признака от заданных значений признака-фактора, называется уравнением регрессии.
В качестве этапов регрессионного анализа называют: обоснование формы зависимости, определение числа факторных признаков, включаемых в модель, оценку параметров, интерпретацию результатов. Функция регрессии формально устанавливает соответствие между переменными, хотя они могут не состоять в причинно-следственных отношениях. Имеется множество параллельно существующих явлений, которые вызываются общей для них причиной. Вопрос о реальном бъективном существовании связи, о наличии причинных отношений между явлениями в каждом конкретном случае решается на основе содержательного анализа, который раскрывает механизм связи.
Поскольку не каждая функция или корреляция соответствует причинной зависимости между явлениями, необходимо соблюдать основные условия и предположения при использовании этих методов анализа. Так, для эффективного изучения связи необходимо использовать совокупности единиц достаточно большого объема и однородные в отношении тех признаков, связь которых изучается.
Прямолинейная зависимость имеет место, когда с возрастанием (или убыванием) значений признака-фактора значения результативного признака увеличиваются (или уменьшается) более ли менее равномерно. Линейное уравнение парной регрессии:
где – среднее значение результативного признака при определенном значении факторного признака x;
a – свободный член уравнения регрессии;
b – коэффициент регрессии, который показывает, на сколько единиц в среднем изменится результативный признак у при изменении факторного признака х на одну единицу его измерения. Криволинейная форма связи может выражаться различными видами функций, из которых наиболее часто используются парабола второго порядка, гипербола, показательная, степенная.
С целью проверки качества модели связи используются математические критерии адекватности, т. е соответствия модели фактическим статистическим данным. Например, рассчитывается средняя ошибка аппроксимации, которая определяется следующим образом:
Оценки неизвестных параметров уравнения регрессии находят обычно методом наименьших квадратов (МНК), который предполагает, что сумма квадратов отклонений теоретических значений от эмпирических должна быть минимальной. Это условие МНК формулируется следующим образом:
Система нормальных уравнений МНК для прямой:
где – определитель системы; – частный определитель, получаемый путем замены коэффициентов при a членами правой части системы уравнений; – частный определитель, получаемый путем замены коэффициентов при b членами правой части системы уравнений.
Параметры a и b могут быть выражены следующим образом:
Относительную оценку силы связи даёт общий (средний) коэффициент эластичности:
Коэффициент эластичности показывает, на сколько процентов изменится результативный признак при изменении признака-фактора на один процент.
Изучение связи между тремя и более факторами носит название множественного корреляционного и регрессионного анализа. При построении многофакторных моделей необходимо соблюдать требование возможно меньшей корреляции между объясняющими переменными (интеркорреляции факторов). В случае, когда более чем два фактора связаны между собой линейной зависимостью, т. е. имеет место совокупное воздействие факторов друг на друга, наблюдается явление мультиколлинеарности. В результате затруднена оценка воздействия каждого фактора в отдельности. Многофакторный анализ включает множественный и частные коэффициенты корреляции. Множественный коэффициент корреляции характеризует степень линейной зависимости между зависимой переменной и остальными переменными, входящими в модель. Для нелинейной множественной связи рассчитывают индекс корреляции. Квадрат коэффициента корреляции называется коэффициентом детерминации. Частный коэффициент корреляции характеризует степень линейной зависимости между двумя переменными при исключении влияния третьей переменной, также учтенной в модели.
5.4. Измерение связи по неколичественным признакам: коэффициенты взаимной сопряженности, контингенции и др.
Корреляционно-регрессионный метод анализа применим только к количественным признакам. В этом случае характеристики связи основаны на вычислении основных параметров распределения (средних величин, дисперсий). Задача изучения связи атрибутивных признаков решается непараметрическими методами анализа, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признаков, а следовательно, и параметры распределения. Непараметрические методы анализа включают показатели, которые рассчитываются на основе распределения единиц совокупности по вариантам атрибутивного признака. Распределение представлено в форме так называемых таблиц взаимной сопряженности. Сравнить проявление связей в разных совокупностях с множеством групп по обоим признакам позволяют коэффициенты взаимной сопряженности Пирсона, Чупрова, Крамера. Чем ближе величина этих коэффициентов к единице, тем теснее связь.
При характеристике связи альтернативных признаков, один из которых имеет характер причины, а другой – следствия применяется условное измерение признаков: наличие признака у единицы совокупности обозначается единицей, а отсутствие — нулем. Благодаря этому измерение связи проводится на основе четырехпольных таблиц с помощью коэффициентов контингенции и ассоциации. Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если коэффициент ассоциации 0,5 или коэффициент контингенции 0,3.
5.5. Ранговая корреляция
Ранговая корреляция используется для количественных и качественных признаков. Для измерения связи количественных признаков ранговую корреляцию рекомендуется использовать, если имеют место ограничения для применения корреляционно-регрессионного анализа, в частности, если совокупность малого объема и если распределение существенно отличается от нормального. Методы ранговой корреляции основаны на ранжировании единиц совокупности по значению признака-фактора и определении соответствующих им рангов значений результативного признака. Ранжирование факторного и результативного признаков ведется в одинаковом направлении: если первый ранг присваивается наименьшему значению признака-фактора, то и по результативному признаку ранжирование идет от наименьшего к наибольшему значению признака. К мерам тесноты парной связи относится предложенный английским психологом Ч. Спирменом коэффициент ранговой корреляции, который имеет границы изменения от –1 до +1. Полное совпадение рангов означает максимально тесную прямую связь, полная противоположность рангов – максимально тесную обратную связь. Формула расчета коэффициента корреляции рангов Ч. Спирмена:
где n – число наблюдений;
d – разность рангов единиц совокупности по анализируемым признакам x и y.
Для определения тесноты связи между произвольным числом признаков применяется множественный коэффициент ранговой корреляции – коэффициент конкордации.
Выводы
Задача оценки степени тесноты связи между признаками решается методами корреляционного анализа. Показатели тесноты связи дают представление о взаимодействии изучаемых факторов, а также об аппроксимации фактических данных аналитической функцией.
Если линейный коэффициент корреляции мало отличается от теоретического корреляционного отношения, то зависимость между переменными близка к линейной. Это позволяет использовать теоретическое корреляционное отношение в качестве меры линейности связи между признаками.
Задача восстановления средних значений результативного признака по заданным значениям факторного признака решается методами регрессионного анализа. Методы корреляции и регрессии относятся к категории параметрических методов, т. к. их использование предполагает вычисление основных параметров распределения (средних величин, дисперсии). Для оценки тесноты связи атрибутивных признаков используются непараметрические методы анализа (коэффициенты взаимной сопряженности Пирсона, Чупрова, Крамера, ассоциации, контингенции). Коэффициенты взаимной сопряженности требуют большого объема совокупности. При малом числе наблюдений, но при достаточном числе градаций атрибутивных признаков связь между ними может быть измерена с помощью метода ранговой корреляции.
Источник
Корреляционный анализ рассматривает две задачи.
Первая задача теории корреляции – установить форму корреляционной связи, то есть вид функции регрессии (линейная, квадратичная и так далее). Вторая задача теории корреляции – оценить силу (тесноту) корреляционной связи. Теснота корреляционной связи (зависимости) на оценивается по величине рассеивания значений вокруг условного среднего. Большое рассеивание свидетельствует о слабой зависимости от , малое рассеивание указывает на наличие сильной зависимости.
Корреляционно-регрессионный метод анализа – всесторонне изучение корреляционных связей, в т.ч. нахождение уровня регрессии, измерение тесноты и направления связи, а также определение возможных ошибок, как параметров уровня регрессии, так и показателей тесноты связи. Для аналитических целей корреляционная связь представляют при помощи матем. функций, т.е. придают ей форму. Форма связи – тенденция, к-рая проявляется в изменении результативного признака в связи с изменением факторного признака. Построение и анализ корреляционной модели связи осущ. с помощью корреляционно-регрессионного анализа, к-рый состоит из следующих этапов: 1.предварительный априорный анализ; 2.сбор информации и ее первичная обработка; 3.построение модели (уравнение регрессии); 4.оценка и анализ модели. Выбор формы связи решается на основе теоретического анализа существа изучаемых явлений и исследований эмпирических данных. Эмпирическое исследование формы связи включает в себя: построение корреляционных полей; эмпирических линий регрессий; анализа метода параллельных рядов. Изучение эмпирического материала дает возможность установить направление и форму связи.
В корреляционных связяхмежду изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. В простейшем случае применения корреляционной зависимости величина результативного признака рассматривается как следствие изменения только одного фактора (например, рекламный бюджет — как причина роста объема продаж).
Корреляционный анализ дает возможность рассчитывать уровень доверия к результатам анализа. В процессе этого анализа рассчитываются показатели корреляции, к которым относятся коэффициенты корреляции и корреляционные отношения.
Простейшим приемом обнаружения связи является сопоставление двух параллельных рядов. Из общего анализа видно, что увеличение количества промоакций способствует увеличению объема продаж.
Регрессионный анализ даст возможность ответить на вопрос о количественной мере влияния различных факторов, например на спрос (объем возможной продажи). Он представляет собой подбор и решение математических уравнений, описывающих исследуемые зависимости. Элементы рынка зависят от многих факторов, и формы этих зависимостей могут быть самыми разнообразными. Поэтому регрессионный анализ начинают с построения графика зависимости, на его основе подбирают подходящее математическое уравнение, а затем находят параметры этого уравнения путем решения системы нормальных уравнений.
Регрессионный анализ используется для изучения связей между зависимой переменной и одной или несколькими независимыми переменными, определения тесноты связи и математической зависимости между ними, предсказания значения зависимой переменной.
Простейшей системой корреляционной связи является линейная связь между двумя признаками, или парная линейная корреляция. Уравнение парной линейной корреляционной связи называется уравнением парной регрессии:
где — среднее значение результативного признака у при определенном значении факторного признака х; а —свободный член уравнения; b — коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения, — вариация у, приходящаяся на единицу вариации х.
Рассмотрим пример. Установим взаимосвязь между сбытом и числом промоакций с помощью следующей линейной регрессионной модели:
где Yi — объем сбыта на i-й территории; Xi — количество промоакций на i-й территории. Расчет параметров α и β ведется по следующим формулам:
Источник
Метод корреляционного анализа: пример. Корреляционный анализ — это.
В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).
Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).
Понятие о корреляционном анализе
Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.
Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.
Понятие о ложности корреляции
При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.
В этом случае говорят о ложной корреляции.
Задачи корреляционного анализа
Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.
Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:
- выявление факторов, оказывающих наибольшее влияние на результативный признак;
- выявление неизученных ранее причин связей;
- построение корреляционной модели с ее параметрическим анализом;
- исследование значимости параметров связи и их интервальная оценка.
Связь корреляционного анализа с регрессионным
Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод корреляционно-регрессионного анализа.
Условия использования метода
Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.
Правила отбора факторов корреляционного анализа
При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.
Отображение результатов
Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.
При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.
Трехмерное представление диаграммы разброса (рассеивания)
Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.
Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.
Оценка тесноты связи
Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.
Пример применения метода корреляционного анализа
В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.
Фермеры, лесники и рыбаки
Шахтеры и работники карьеров
Производители газа, кокса и химических веществ
Изготовители стекла и керамики
Работники печей, кузнечных, литейных и прокатных станов
Работники электротехники и электроники
Инженерные и смежные профессии
Изготовители рабочей одежды
Работники пищевой, питьевой и табачной промышленности
Производители бумаги и печати
Производители других продуктов
Художники и декораторы
Водители стационарных двигателей, кранов и т. д.
Рабочие, не включенные в другие места
Работники транспорта и связи
Складские рабочие, кладовщики, упаковщики и работники разливочных машин
Работники службы спорта и отдыха
Администраторы и менеджеры
Профессионалы, технические работники и художники
Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).
Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.
С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.
Использование ПО при проведении корреляционного анализа
Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный анализ в Excel предполагает вычисление следующих параметров с использованием функций:
1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ [CORREL](массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.
Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию ПИРСОН (PEARSON) с теми же массивами.
Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».
После указания исходных данных получаем график.
2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).
3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.
В заключение
Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.
После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.
Источник
Оценка тесноты связи между факторами методами корреляционно-регрессионного анализа
Приемы корреляционного анализа используются для измерения влияния факторов в стохастическом анализе, когда взаимосвязь между показателями неполная, вероятностная. Различают парную и множественную корреляцию.
Парная корреляция – это связь между двумя показателями, один из которых является факторным, а другой — результативным.
Множественная корреляция возникает от взаимодействия нескольких факторов с результативным показателем.
Необходимые условия применения корреляционного анализа:
1. Наличие достаточно большого количества наблюдений о величине исследуемых факторных и результативных показателей (в динамике или за текущий год по совокупности однородных объектов).
2. Исследуемые факторы должны иметь количественное измерение и отражение в тех или иных источниках информации.
Применение корреляционного анализа позволяет решить следующие задачи:
1) определить измерение результативного показателя под воздействием одного или нескольких факторов (в абсолютном измерении), то есть определить, на сколько единиц изменении факторного на единицу;
2) установить относительную степень зависимости результативного показателя от каждого фактора.
Корреляционный анализ состоит из нескольких этапов:
На первом этапе определяются факторы, которые оказывают воздействие на изучаемый показатель, и отбираются наиболее существенные для корреляционного анализа. Отбор факторов – очень важный момент в экономическом анализе: от того, насколько правильно он сделан, зависит точность выводов по итогам анализа.
Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сравнения параллельных и динамических рядов, линейные графики. С их помощью можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно производить также в процессе решения задачи корреляционного анализа на основе оценки их значимости по критерию Стьюдента, о котором будет сказано ниже.
На втором этапе собирается исходная информация по каждому факторному и результативному показателям. Она должна быть проверена на достоверность, на однородность и на соответствие закону нормального распределения.
Одно из условий корреляционного анализа – однородность исследуемой информации относительно распределения ее около среднего уровня. Если в совокупности имеются группы объектов, которые значительно отличаются от среднего уровня, то это говорит о неоднородности исходной информации.
Критерием однородности информации служат среднеквадратическое отклонение и коэффициент вариации, которые рассчитываются по каждому факторному и результативному показателю. Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметической:
Коэффициент вариации показывает относительную меру отклонения отдельных значений от среднеарифметической. Для его расчета используется формула:
(2.3.2.)
Чем больше коэффициент вариации, тем относительно больший разброс и меньшая выравненность изучаемых объектов. Изменчивость вариационного ряда принято считать незначительной, если вариация не превышает 10-12%, значительной – когда она больше 20%, но не превышает 33%. Если же вариация выше 33%, то это свидетельствует о неоднородности информации и о необходимости исключения нетипичных наблюдений, которые обычно бывают в первых и последних ранжированных рядах выборки.
Следующее требование к исходной информации – подчинение ее закону нормального распределения. Для количественной оценки степени отклонения информации от нормального распределения служат отношение показателя асимметрии к ее ошибке и отношение показателя эксцесса к его ошибке.
Показатель асимметрии и его ошибка рассчитываются по формулам:
Показатель эксцесса и его ошибка рассчитываются следующим образом:
В симметричном распределении А=0. Отклонение от нуля указывает на наличие асимметрии в распределении данных около средней величины. Отрицательная асимметрия свидетельствует о том, что преобладают данные с большими значениями, а с меньшими значениями встречаются значительно реже. Положительная асимметрия показывает, что чаще встречаются данные с небольшими значениями.
В нормальном распределении показатель эксцесса Е=0. Если Е > 0, то данные густо сгруппированы около средней, образуя островершинность. Если Е < 0, то кривая распределения будет плосковершинной. Однако, когда отношения А/ma и E/me меньше 3, то асимметрия и эксцесс не имеют существенного значения, и исследуемая информация соответствует закону нормального распределения. Следовательно, ее можно использовать для корреляционного анализа.
На тре6тьем этапе изучается характер и моделируется связь между факторами и результативным показателем, то есть подбирается и обосновывается математическое уравнение, которое наиболее точно выражает сущность исследуемой зависимости. Для его обоснования используются те же приемы, что и для установления наличия связи: аналитические группировки, линейные графики и др.
Зависимость результативного показателя от определяющих его факторов можно выразить уравнением парной и множественной регрессии. При прямолинейной форме они имеют следующий вид:
— уравнение парной регрессии; (2.3.7.)
где а – свободный член уравнения при х = 0:
х1, х2, …, хn – факторы, определяющие уровень изучаемого результативного показателя;
b1, b2, …, bn — коэффициенты регрессии при факторных показателях, характеризующие уровень влияния каждого фактора на результативный показатель в абсолютном выражении.
Если связь между результативным и факторыми показателями носит криволинейный характер, то могут быть использованы степенная, логарифмическая, параболическая, гиперболическая и другие функции.
В случаях когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера, показателю средней ошибки аппроксимации.
На четвертом этапе проводится расчет основных показателей связи корреляционного анализа: уравнение связи, коэффициенты корреляции, детерминации, эластичности и др.
В качестве примера для иллюстрации корреляционного анализа прямолинейной зависимости используем приведенные в табл. данные об изменении уровня выработки рабочих (y) в зависимости от уровня фондовооруженности (x).
Расчет уравнения связи ( ) сводится к определению параметров а и b. Их находят из следующей системы уравнений:
где n – число наблюдений (в данном примере 10);
x – фондовооруженность труда (стоимость основных производственных фондов на одного работника предприятия), тыс.руб.;
y — среднегодовая выработка продукции одним работником, тыс.руб.
Зависимость выработки рабочих (Y) от фондовооруженности труда (X)
№п/п | ||||||||||
Y | 3,1 | 3,4 | 3,6 | 3,8 | 3,9 | 4,1 | 4,2 | 4,4 | 4,6 | 4,9 |
X | 4,5 | 4,4 | 4,8 | 5,0 | 5,5 | 5,4 | 5,8 | 6,0 | 6,1 | 6,5 |
Значения Σx, Σy, Σxy, Σx 2 , Σy 2 рассчитывают на основании фактических исходных данных (табл. 2.3.1.)
Расчет производных данных для корреляционного анализа
n | x | y | xy | x 2 | y 2 | yx |
3,1 | 4,5 | 13,95 | 9,61 | 20,25 | 4,28 | |
3,4 | 4,4 | 14,96 | 11,56 | 19,36 | 4,65 | |
3,6 | 4,8 | 17,28 | 12,96 | 23,04 | 4,90 | |
3,8 | 5,0 | 19,00 | 14,44 | 25,00 | 5,15 | |
3,9 | 5,5 | 21,45 | 15,21 | 30,25 | 5,28 | |
4,1 | 5,4 | 22,14 | 16,81 | 29,16 | 5,52 | |
4,2 | 5,8 | 24,36 | 17,64 | 33,64 | 5,65 | |
4,4 | 6,0 | 26,40 | 19,36 | 36,00 | 5,90 | |
4,6 | 6,1 | 28,06 | 21,16 | 37,21 | 6,15 | |
4,9 | 6,5 | 31,85 | 4,01 | 42,25 | 6,28 | |
итого | 219,45 | 162,76 | 296,16 | 53,75 |
Подставим полученные значения в систему уравнений:
Вычтя из второго уравнения первое, узнаем, что 2,76 b = 3.45.
Уравнение связи, описывающее зависимость производительности труда от фондовооруженности, получило следующее выражение:
Коэффициент а – постоянная величина результативного показателя, которая не связана с изменением данного фактора. Параметр b показывает среднее изменение результативного показателя с повышением или понижением величины факторного показателя на единицу его измерения. В данном примере с увеличением фондовооруженности труда на 1 тыс.руб. выработка рабочих повышается в среднем на 1,25 тыс.руб.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (теоретические) значения результативного показателя для каждого предприятия. Например, чтобы рассчитать выработку рабочих на первом предприятии, где фондовооруженность труда равна 3,1 тыс.руб., необходимо это значение подставить в уравнение связи:
Полученная величина показывает, какой была бы выработка при фондовооруженности труда 3,1 тыс.руб., если бы данное предприятие использовало свои производственные мощности в такой степени, как в среднем все предприятия этой выборки. Фактическая выработка рабочих на данном предприятии выше расчетного значения. Следовательно, предприятие использует свои производственные мощности несколько лучше, чем в среднем по отрасли. Аналогичные расчеты сделаны для каждого предприятия. Данные приведены в последней графе табл. 2.3.2. Сравнение фактического уровня выработки рабочих с расчетным позволяет оценить результаты работы отдельных предприятий.
По такому же принципу решается уравне6ние связи при криволинейной зависимости между изучаемыми явлениями. Когда при увеличении одного показателя значения другого возрастают до определенного уровня, а потом начинают снижаться (например, зависимость производительности труда рабочих от их возрасти), то для описания такой зависимости лучше всего подходит парабола второго порядка:
В соответствии с требованиями метода наименьших квадратов для определения параметров a, b, c необходимо решить следующую систему уравнений:
Кроме параболы для описания криволинейной зависимости в корреляционном анализе очень часто используется гипербола:
Для определения ее параметров необходимо решить следующую систему уравнений:
Гипербола описывает такую зависимость между двумя показателями, когда при увеличении одной переменной значения другой увеличиваются до определенного уровня, а потом прирост замедляется, например, зависимость урожайности от количества внесенных удобрений, продуктивности животных от уровня их кормления, себестоимости единицы продукции от объема ее производства и т.д.
При более сложном характере зависимости между изучаемыми явлениями используются более сложные параболы (третьего, четвертого порядка и т.д.), а также квадратические, степенные, показательные и другие функции.
Таким образом, используя тот или иной тип математического уравнения, можно определить степень зависимости между изучаемыми явлениями, узнать, на сколько единиц в абсолютном измерен6ии изменяется величина результативного показателя с изменением факторного на единицу. Однако регрессионный анализ не дает ответа на вопрос: насколько тесна за связь, решающее или второстепенное воздействие оказывает фактор на величину результативного показателя?
Для измерения тесноты связи между факторными и результативными показателями исчисляется коэффициент корреляции. При прямолинейной форме связи между изучаемыми показателями он рассчитывается по следующей формуле:
Подставив значения Σx, Σy, Σxy, Σx 2 , Σy 2 из табл. 2.3.2.в формулу, получим значение коэффициента корреляции, равное 0,97. Этот коэффициент может принимать значения от 0 до 1. Чем ближе его величина к 1, тем более тесная связь между изучаемыми явлениями, и наоборот. В данном случае величина коэффициента корреляции является существенной (r=0,97). Это позволяет сделать вывод о том, что фондовооруженность – один из основных факторов, от которых на анализируемых предприятиях зависит уровень производительности труда.
Если коэффициент корреляции возвести в квадрат, получим коэффициент детерминации (D = 0.94). Он показывает, что производительность труда на 94% зависит от фондовооруженности труда, а на долю других факторов приходится 6% изменения ее уровня.
Что касается измерения тесноты связи при криволинейной форме зависимости, то здесь используется не линейный коэффициент корреляции, а корреляционное отношение, формула которого имеет вид:
Эта формула является универсальной. Ее можно применять для исчисления коэффициента корреляции при любой форме зависимости. Однако для его нахождения требуется предварительное решение уравнения регрессии и расчет по нему теоретических (выровненных) значений результативного показателя для каждого наблюдения исследуемой выборки (см. гр.7 табл. 2.3.2. ).
Решение задач многофакторного корреляционного анализа производится на ПЭВМ по типовым программам. Сначала формируется матрица исходных данных, в первой графе которой записывается порядковый номер наблюдения, во второй – величина результативного показателя (Yx), а в следующих – данные по факторным показателям (xi).
Эти сведения вводятся в ПЭВМ,и рассчитывается уравнение множественной регрессии, которое в данном примере получило следующее выражение:
где Y – рентабельность продаж, %;
х1 – материалоотдача, руб.;
х2 – фондоотдача, коп;
х3 – производительность труда (среднегодовая выработка продукции на одного работника), тыс.руб.;
х4 – продолжительность одного оборота оборотных средств предприятия, дни;
х5 – удельный вес продукции высшей категории качества, %.
Коэффициенты уравнения показывают количественное влияние каждого фактора на результативный показатель при неизменности других. В данном случае можно дать следующую интерпретацию полученному уравнению: рентабельность повышается на 3,65% при увеличении материалоотдачи на 1 руб.; на 0,09% — с ростом фондоотдачина 1 коп.; на 1,02% — с повышением среднегодовой выработки продукции на одного работника на 1 тыс.руб.; на 0,052% — при увеличении удельного веса продукции высшей категории качества на 1%. С увеличением продолжительности оборота средств на 1 день рентабельность снижается в среднем на 0,122%.
Пятый этап – статистическая оценка и практическое использование результатов корреляционно-регрессионного анализа.
Для того, чтобы убедиться в надежности показателей связи и правомерности их использования для практической цели, необходимо дать их статистическую оценку. Для этого используются критерии Стьюдента (t), критерий Фишера (F – отношение), средняя ошибка аппроксимации (έ), коэффициенты множественной корреляции (R) и детерминации (D).
Надежность коэффициентов корреляции, которая зависит от объема исследуемой совокупности (выборки) данных, проверяется по критерию Стьюдента:
Если расчетное значение t выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы ( V = n — 1) и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01).
Надежность уравнения связи оценивается с помощью критерия Фишера, расчетная величина которого сравнивается с табличным значением. Если Fрасч. > Fтабл. , то гипотеза об отсутствии связи между исследуемыми показателями отвергается.
Для оценки точности уравнения связи рассчитывается средняя ошибка аппроксимации. Чем меньше теоретическая линия регрессии (рассчитанная по уравнению) отклоняется от фактической (эмпирической), тем меньше ее величина, а это свидетельствует о правильности подбора формы уравнения связи. В нашем примере она составляет 0,0364, или 3,64%. Учитывая, что в экономических расчетах допускаемая погрешность находится в пределах 5-8%, можно сделать вывод, что исследуемое уравнение связи довольно точно описывает изучаемые зависимости. С такой же небольшой погрешностью будет делаться и прогноз уровня рентабельности по данному уравнению.
О полноте уравнения связи можно судить по коэффициентам множественной корреляции и детерминации. Если их значения близки к 1, значит, в корреляционную модель удалось включить наиболее существенные факторы, на долю которых приходится основная вариация результативного показателя.
Коэффициент множественной детерминации – 0,85. Это значит, что изменение уровня рентабельности на 85% зависит от изменения исследуемых факторов, а на долю неучтенных факторов приходится 15% вариации результативного показателя. Значит, данное уравнение связи можно использовать для практических целей, а именно:
а) расчета влияния факторов на прирост результативного показателя;
б) подсчета резервов повышения уровня исследуемого показателя;
в) планирования и прогнозирования его величины.
Влияние каждого фактора на изменение (отклонение от плана) результативного показателя рассчитывается следующим образом:
Допустим, что уровень материалоотдачи на анализируемом предприятии по плану на отчетный год – 2,5 руб., фактически – 2,4 руб. Из-за этого уровень рентабельности продукции ниже планового на 0,365%.
Аналогичным образом подсчитывают резервы роста результативного показателя. Для этого планируемый прирост факторного показателя умножают на соответствующий ему коэффициент регрессии в уравнении связи:
Предположим, что в следующем году намечается рост материалоотдачи с 2,4 до 2,7 руб. За счет этого рентабельность повысится на
Подобные расчеты делаются по каждому фактору с последующим обобщением результатов анализа.
Результаты многофакторного регрессионного анализа могут быть использованы также для планирования и прогнозирования уровня результативного показателя. С этой целью необходимо, в полученное уравнении связи, подставить плановый прогнозный уровень факторных показателей:
Источник