Допустимый коэффициент корреляции

У этого термина существуют и другие значения, см. Корреляция (значения).

Сюда перенаправляется запрос «Коэффициент корреляции Пирсона». На эту тему нужна отдельная статья.

Корреля́ция (от лат. correlatio «соотношение, взаимосвязь») допустимый коэффициент корреляции корреляционная зависимость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми).

При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.[1]

Математической мерой корреляции двух случайных величин служит корреляционное отношение[2] либо коэффициент корреляции (или )[1].

В случае если изменение одной случайной величины не ведёт к допустимый коэффициент корреляции изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].

Впервые в допустимый коэффициент корреляции оборот термин корреляция ввёл французскийпалеонтологЖорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков.

В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.[4]

Корреляция и взаимосвязь величин[править | править код]

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для допустимый коэффициент корреляции выборки иметь причинно-следственный характер.

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить допустимый коэффициент корреляции высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной.

Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад[5].

Корреляция двух величин может свидетельствовать о существовании общей причины, хотя сами явления напрямую допустимый коэффициент корреляции взаимодействуют. Например, обледенение становится причиной как роста травматизма из-за падений, так и увеличения аварийности среди автотранспорта. В этом случае две величины (травматизм из-за падений пешеходов и аварийность автотранспорта) будут коррелировать, хотя они не связаны друг с другом, а лишь имеют стороннюю общую причину — гололедицу.

В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие допустимый коэффициент корреляции отсутствие связи, а во втором — также и её направление. Если предполагается, что на допустимый коэффициент корреляции переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением.

При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение допустимый коэффициент корреляции переменной связано с увеличением другой переменной. Допустимый коэффициент корреляции также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

Показатели корреляции[править | править код]

Метод вычисления допустимый коэффициент корреляции корреляции зависит от вида шкалы, к которой относятся переменные. Допустимый коэффициент корреляции, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений).

Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или (тау) Кендалла.

В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими — четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

Параметрические показатели корреляции[править | править код]

Ковариация[править | править код]

Основные статьи: Ковариация, Неравенство Коши — Допустимый коэффициент корреляции характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент).

Ковариация является совместным центральным моментом второго порядка.[6] Ковариация определяется как математическое ожидание произведения отклонений случайных величин[7]:

,

где  — математическое ожидание (в англоязычной литературе принято обозначение от expected value).

Свойства ковариации:

  • Ковариация двух независимых случайных величин и равна нулю[8].

Доказательство  

Так как и — независимые случайные величины, то их отклонения и также независимы.

Пользуясь тем, что математическое ожидание произведения независимых случайных величин допустимый коэффициент корреляции произведению математических ожиданий сомножителей, допустимый коэффициент корреляции математическое ожидание отклонения равно нулю, имеем

  • Абсолютная величина ковариации двух случайных величин и не превышает среднего геометрического их дисперсий: [9].

Доказательство  

Введём в рассмотрение случайную величину (где — среднеквадратическое отклонение) и найдём её дисперсию .

Выполнив выкладки получим:

Любая дисперсия неотрицательна, поэтому

Отсюда

Введя случайную величину , аналогично

Объединив полученные неравенства имеем

Или

Итак,

Данная особенность ковариации затрудняет её использование в целях корреляционного анализа[8].

Линейный коэффициент корреляции[править | править код]

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Допустимый коэффициент корреляции, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века.

Коэффициент корреляции рассчитывается по формуле[10][8]:

где ,  — среднее допустимый коэффициент корреляции выборок.

Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы[11].

Доказательство  

Разделив обе части двойного неравенства на получим

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости: где  — коэффициент регрессии,  — среднеквадратическое отклонение соответствующего факторного признака[12].

допустимый коэффициент корреляции

Непараметрические показатели корреляции[править | править код]

Коэффициент ранговой корреляции Кендалла[править | править код]

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и допустимый коэффициент корреляции им ранги.

допустимый коэффициент корреляции

Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

,

где .

 — допустимый коэффициент корреляции число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.

 — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y.

(равные ранги не учитываются!)

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

 — число связанных рангов в ряду X и Y соответственно.

Коэффициент ранговой корреляции Спирмена[править | править код]

Степень зависимости двух случайных величин (признаков) и может характеризоваться на основе анализа получаемых результатов .

Каждому показателю и присваивается ранг. Ранги значений

Для графического представления корреляционной связи можно допустимый коэффициент корреляции прямоугольную систему координат с осями, которые соответствуют обеим переменным.

Каждая пара значений маркируется при помощи определённого символа. Допустимый коэффициент корреляции график называется диаграммой рассеяния.

Источник: https://ru.wikipedia.org/wiki/Корреляция