Теснота линейной связи между случайными величинами. Теснота связи между случайными величинами. Свойства операций вычисления количественных характеристик случайных переменных

В компании работают 10 человек. В табл.2 приведены данные по стажу их работы и

месячному окладу.

Рассчитайте по этим данным

- величину оценки выборочной ковариации;
- значение выборочного коэффициента корреляции Пирсона;
- оцените по полученным значениям направление и силу связи;
- определите, насколько правомерно утверждение о том, что данная компания использует японскую модель управления, заключающуюся в предположении, что чем больше времени сотрудник проводит в данной компании, тем выше должен быть у него оклад.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Для расчета параметров регрессии построим расчетную таблицу.

Выборочные средние.

Выборочные дисперсии:

Оценочное уравнение регрессии будет иметь вид

y = bx + a + е,

где ei - наблюдаемые значения (оценки) ошибок еi, а и b соответственно оценки параметров б и в регрессионной модели, которые следует найти.

Для оценки параметров б и в - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a?x + b?x2 = ?y*x

Для наших данных система уравнений имеет вид

10a + 307 b = 33300
307 a + 10857 b = 1127700

Домножим уравнение (1) системы на (-30.7), получим систему, которую решим методом алгебраического сложения.

-307a -9424.9 b = -1022310
307 a + 10857 b = 1127700

Получаем:

1432.1 b = 105390

Откуда b = 73.5912

Теперь найдем коэффициент «a» из уравнения (1):

10a + 307 b = 33300
10a + 307 * 73.5912 = 33300
10a = 10707.49

Получаем эмпирические коэффициенты регрессии: b = 73.5912, a = 1070.7492

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 73.5912 x + 1070.7492

Ковариация.

В нашем примере связь между признаком Y фактором X высокая и прямая.

Следовательно, можно смело утверждать, что чем больше времени сотрудник работает в данной компании, тем выше у него оклад.

4. Проверка статистических гипотез. При решении этой задачи первым шагом необходимо сформулировать проверяемую гипотезу и альтернативную ей

Проверка равенства генеральных долей.

Проведено исследование по вопросам успеваемости студентов на двух факультетах. Результаты по вариантам приведены в табл.3. Можно ли утверждать, что на обоих факультетах одинаковый процент отличников?

Простая средняя арифметическая

Проводим проверку гипотезы о равенстве генеральных долей:

Найдём экспериментальное значение критерия Стьюдента:

Число степеней свободы

f = nх + nу - 2 = 2 + 2 - 2 = 2

Определяем значение tkp по таблице распределения Стьюдента

По таблице Стьюдента находим:

Tтабл(f;б/2) = Tтабл(2;0.025) = 4.303

По таблице критических точек распределения Стьюдента при уровне значимости б = 0.05 и данному числу степеней свободы находим tкр = 4.303

Т.к. tнабл > tкр, то нулевая гипотеза отвергается, генеральные доли двух выборок не равны.

Проверка равномерности генерального распределения.

Руководство университета хочет выяснить, как со временем менялась популярность гуманитарного факультета. Анализировалось количество абитуриентов, подавших заявление на этот факультет, по отношению к общему количеству абитуриентов в соответствующем году. (Данные приведены в табл.4). Если считать число абитуриентов репрезентативной выборкой из общего количества выпускников школ года, можно ли утверждать, что интерес школьников к специальностям данного факультета не изменяется с течением времени?

Вариант 4

Решение: Таблица для расчета показателей.

Середина интервала, xi	Накопленная частота, S	Частота, fi/n

Для оценки ряда распределения найдем следующие показатели:

Средняя взвешенная

Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.

R = 2008 - 1988 = 20 Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 2002.66 в среднем на 6.32

Проверка гипотезы о равномерном распределении генеральной совокупности.

Для того чтобы проверить гипотезу о равномерном распределении X,т.е. по закону: f(x) = 1/(b-a) в интервале (a,b) надо:

Оценить параметры a и b - концы интервала, в котором наблюдались возможные значения X, по формулам (через знак * обозначены оценки параметров):

Найти плотность вероятности предполагаемого распределения f(x) = 1/(b* - a*)

Найти теоретические частоты:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Сравнить эмпирические и теоретические частоты с помощью критерия Пирсона, приняв число степеней свободы k = s-3, где s - число первоначальных интервалов выборки; если же было произведено объединение малочисленных частот, следовательно, и самих интервалов, то s - число интервалов, оставшихся после объединения. Найдем оценки параметров a* и b* равномерного распределения по формулам:

Найдем плотность предполагаемого равномерного распределения:

f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0.0456

Найдем теоретические частоты:

n1 = n*f(x)(x1 - a*) = 0.77 * 0.0456(1992-1991.71) = 0.0102

n5 = n*f(x)(b* - x4) = 0.77 * 0.0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.

Поэтому критическая область для этой статистики всегда правосторонняя: {2 - 12}

и вопрос о доверии к коэффициенту корреляции сводят к доверительным интервалам для случайной величины W, которые определяются стандартными таблицами или формулами.

В отдельных случаях системного анализа приходится решать вопрос о связях нескольких (более 2) случайных величин или вопрос о множественной корреляции .

Пусть X , Y и Z - случайные величины, по наблюдениям над которыми мы установили их средние M x , M y ,Mz и среднеквадратичные отклонения S x , S y , S z .

Тогда можно найти парные коэффициенты корреляции R xy , R xz , R yz по приведенной выше формуле. Но этого явно недостаточно - ведь мы на каждом из трех этапов попросту забывали о наличии третьей случайной величины! Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать т. н. частные коэффициенты корреляции - например, оценка виляния Z на связь между X и Y производится с помощью коэффициента

R xy.z = {2 - 13}

И, наконец, можно поставить вопрос - а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляции R x.yz , R y.zx , R z.xy , формулы для вычисления которых построены по тем же принципам - учету связи одной из величин со всеми остальными в совокупности.

На сложности вычислений всех описанных показателей корреляционных связей можно не обращать особого внимания - программы для их расчета достаточно просты и имеются в готовом виде во многих ППП современных компьютеров.

Достаточно понять главное - если при формальном описании элемента сложной системы, совокупности таких элементов в виде подсистемы или, наконец, системы в целом, мы рассматриваем связи между отдельными ее частями, - то степень тесноты этой связи в виде влияния одной СВ на другую можно и нужно оценивать на уровне корреляции.

В заключение заметим еще одно - во всех случаях системного анализа на корреляционном уровне обе случайные величины при парной корреляции или все при множественной считаются "равноправными" - т. е. речь идет о взаимном влиянии СВ друг на друга.

Так бывает далеко не всегда - очень часто вопрос о связях Y и X ставится в иной плоскости - одна из величин является зависимой (функцией) от другой (аргумента).

Регрессионного анализа

Обработка результатов эксперимента методом

При изучении процессов функционирования сложных систем приходится иметь дело с целым рядом одновременно действующих случайных величин. Для уяснения механизма явлений, причинно-следственных связей между элементами системы и т.д., по полученным наблюдениям мы пытаемся установить взаимоотношения этих величин.

В математическом анализе зависимость, например, между двумя величинами выражается понятием функции

где каждому значению одной переменной соответствует только одно значение другой. Такая зависимость носит название функциональной .

Гораздо сложнее обстоит дело с понятием зависимости случайных величин. Как правило, между случайными величинами (случайными факторами), определяющими процесс функционирования сложных систем, обычно существует такая связь, при которой с изменением одной величины меняется распределение другой. Такая связь называется стохастической , или вероятностной . При этом величину изменения случайного фактора Y , соответствующую изменению величины Х , можно разбить на два компонента. Первый связан с зависимостью Y от X , а второй с влиянием "собственных" случайных составляющих величин Y и X . Если первый компонент отсутствует, то случайные величины Y и X являются независимыми. Если отсутствует второй компонент, то Y и X зависят функционально. При наличии обоих компонент соотношение между ними определяет силу или тесноту связи между случайными величинами Y и X .

Существуют различные показатели, которые характеризуют те или иные стороны стохастической связи. Так, линейную зависимость между случайными величинами X и Y определяет коэффициент корреляции.

где – математические ожидания случайных величин X и Y .

– средние квадратические отклонения случайных величин X и Y .

Линейная вероятностная зависимость случайных величин заключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или убывать) по линейному закону. Если случайные величины X и Y связаны строгой линейной функциональной зависимостью, например,

y=b 0 +b 1 x 1 ,

то коэффициент корреляции будет равен ; причем знак соответствует знаку коэффициента b 1 .Если величины X и Y связаны произвольной стохастической зависимостью, то коэффициент корреляции будет изменяться в пределах

Следует подчеркнуть, что для независимых случайных величин коэффициент корреляции равен нулю. Однако коэффициент корреляции как показатель зависимости между случайными величинами обладает серьезными недостатками. Во-первых, из равенства r = 0 не следует независимость случайных величин X и Y (за исключением случайных величин, подчиненных нормальному закону распределения, для которых r = 0 означает одновременно и отсутствие всякой зависимости). Во- вторых, крайние значения также не очень полезны, так как соответствуют не всякой функциональной зависимости, а только строго линейной.

Полное описание зависимости Y от X , и притом выраженное в точных функциональных соотношениях, можно получить, зная условную функцию распределения .

Следует отметить, что при этом одна из наблюдаемых переменных величин считается неслучайной. Фиксируя одновременно значения двух случайных величин X и Y , мы при сопоставлении их значений можем отнести все ошибки лишь к величине Y . Таким образом, ошибка наблюдения будет складываться из собственной случайной ошибки величины Y и из ошибки сопоставления, возникающей из-за того, что с величиной Y сопоставляется не совсем то значение X , которое имело место на самом деле.

Однако отыскание условной функции распределения, как правило, оказывается весьма сложной задачей. Наиболее просто исследовать зависимость между Х и Y при нормальном распределении Y , так как оно полностью определяется математическим ожиданием и дисперсией. В этом случае для описания зависимости Y от X не нужно строить условную функцию распределения, а достаточно лишь указать, как при изменении параметра X изменяются математическое ожидание и дисперсия величины Y .

Таким образом, мы приходим к необходимости отыскания только двух функций:

Зависимость условной дисперсии D от параметра Х носит название сходастической зависимости. Она характеризует изменение точности методики наблюдений при изменении параметра и используется достаточно редко.

Зависимость условного математического ожидания M от X носит название регрессии , она дает истинную зависимость величин Х и У , лишенную всех случайных наслоений. Поэтому идеальной целью всяких исследований зависимых величин является отыскание уравнения регрессии, а дисперсия используется лишь для оценки точности полученного результата.

Между изменениями 7 и X. Для оценки тесноты связи между случайными переменными величинами используются показатели

Как мы уже говорили, одно из главных отличий последовательности наблюдений, образующих временной ряд, заключается в том, что члены временного ряда являются, вообще говоря, статистически взаимозависимыми. Степень тесноты статистической связи между случайными величинами Xt и Xt+T может быть измерена парным коэффициентом корреляции

Оценку генерального параметра получают на основе выборочного показателя с учетом ошибки репрезентативности . В другом случае в отношении свойств генеральной совокупности выдвигается некоторая гипотеза о величине средней , дисперсии, характере распределения, форме и тесноте связи между переменными. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими (теоретическими). Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных. Основой проверки статистических гипотез являются данные случайных выборок. При этом безразлично, оцениваются ли гипотезы в отношении реальной или гипотетической генеральной совокупности . Последнее открывает путь применения этого метода за пределами собственно выборки при анализе результатов эксперимента, данных сплошного наблюдения, но малой численности. В этом случае рекомендуется проверить, не вызвана ли установленная закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых находится изучаемая совокупность.

При этом оказывается, что корреляционные и регрессионные характеристики схемы (, т]) могут существенно отличаться от соответствующих характеристик исходной (неискаженной) схемы (, л)- Так, например, ниже (см. п. 1.1.4) показано, что наложение случайных нормальных ошибок на исходную двумерную нормальную схему (, т) всегда уменьшает абсолютную величину коэффициента регрессии Ql в соотношении (В. 15), а также ослабляет степень тесноты связи между ит (т. е. уменьшает абсолютную величину коэффициента корреляции г).

Влияние ошибок измерения на величину коэффициента корреляции. Пусть мы хотим оценить степень тесноты корреляционной связи между компонентами двумерной нормальной случайной величины (, TJ), однако наблюдать мы их можем лишь с некоторыми случайными ошибками измерения соответственно es и е (см. схему зависимости D2 во введении). Поэтому экспериментальные данные (xit i/i), i = 1, 2,. .., л, - это практически выборочные значения искаженной двумерной случайной величины (, г)), где =

Метод Р.а. состоит в выводе уравнения регрессии (включая оценку его параметров), с помощью которого находится средняя величина случайной переменной , если величина другой (или других в случае множественной или многофакторной регрессии) известна. (В отличие от этого корреляционный анализ применяется для нахождения и выражения тесноты связи между случайными величинами71.)

В изучении корреляции признаков, не связанных согласованным изменением во времени, каждый признак изменяется под влиянием многих причин, принимаемых за случайные. В рядах динамики к ним прибавляется изменение во времпш каждого ряда. Это изменение приводит к так называемой автокорреляции - влиянию изменений уровней предыдущих рядов на последующие. Поэтому корреляция между уровнями динамических рядов правильно показывает тесноту связи между явлениями, отражаемыми в рядах динамики , лишь в том случае, если в каждом из них отсутствует автокорреляция. Кроме того, автокорреляция приводит к искажению величины среднеквадратических ошибок коэффициентов регрессии , что затрудняет построение доверительных интервалов для коэффициентов регрессии , а также проверки их значимости.

Определенные соотношениями (1.8) и (1.8) соответственно теоретический и выборочный коэффициенты корреляции могут быть формально вычислены для любой двумерной системы наблюдений они являются измерителями степени тесно- ты линейной статистической связи между анализируемыми признаками. Однако только в случае совместной нормальной рас-пределенности исследуемых случайных величин и ц коэффициент корреляции г имеет четкий смысл как характеристика степени тесноты связи между ними. В частности, в этом, случае соотношение г - 1 подтверждает чисто функциональную линейную зависимость между исследуемыми величинами, а уравнение г = 0 свидетельствует об их полной взаимной независимости. Кроме того, коэффициент корреляции вместе со средними и дисперсиями случайных величин и TJ составляет те пять параметров, которые дают исчерпывающие сведения о