Уровень значимости. Критическая область
В любой научно-практической ситуации эксперимента (обследования) исследователи могут исследовать не всех людей (генеральную совокупность, популяцию), а только определенную выборку. Например, даже если мы исследуем относительно небольшую группу людей, например страдающих определенной болезнью, то и в этом случае весьма маловероятно, что у нас имеются соответствующие ресурсы или необходимость тестировать каждого больного. Вместо этого обычно тестируют выборку из популяции, поскольку это удобнее и занимает меньше времени. В таком случае, откуда нам известно, что результаты, полученные на выборке, представляют всю группу? Или, если использовать профессиональную терминологию, можем ли мы быть уверены, что наше исследование правильно описывает всю популяцию , выборку из которой мы использовали?
Чтобы ответить на этот вопрос, необходимо определить статистическую значимость результатов тестирования. Статистическая значимость {Significant level , сокращенно Sig.), или /7-уровень значимости (p-level) - это вероятность того, что данный результат правильно представляет популяцию, выборка из которой исследовалась. Отметим, что это только вероятность - невозможно с абсолютной гарантией утверждать, что данное исследование правильно описывает всю популяцию. В лучшем случае по уровню значимости можно лишь заключить, что это весьма вероятно. Таким образом, неизбежно встает следующий вопрос: каким должен быть уровень значимости, чтобы можно было считать данный результат правильной характеристикой популяции?
Например, при каком значении вероятности вы готовы сказать, что таких шансов достаточно, чтобы рискнуть? Если шансы будут 10 из 100 или 50 из 100? А что если эта вероятность выше? Что можно сказать о таких шансах, как 90 из 100, 95 из 100 или 98 из 100? Для ситуации, связанной с риском, этот выбор довольно проблематичен, ибо зависит от личностных особенностей человека.
В психологии же традиционно считается, что 95 или более шансов из 100 означают, что вероятность правильности результатов достаточна высока для того, чтобы их можно было распространить на всю популяцию. Эта цифра установлена в процессе научно-практической деятельности - нет никакого закона, согласно которому следует выбрать в качестве ориентира именно ее (и действительно, в других науках иногда выбирают другие значения уровня значимости).
В психологии оперируют этой вероятностью несколько необычным образом. Вместо вероятности того, что выборка представляет популяцию, указывается вероятность того, что выборка не представляет популяцию. Иначе говоря, это вероятность того, что обнаруженная связь или различия носят случайный характер и не являются свойством совокупности. Таким образом, вместо того чтобы утверждать, что результаты исследования правильны с вероятностью 95 из 100, психологи говорят, что имеется 5 шансов из 100, что результаты неправильны (точно так же 40 шансов из 100 в пользу правильности результатов означают 60 шансов из 100 в пользу их неправильности). Значение вероятности иногда выражают в процентах, но чаще его записывают в виде десятичной дроби. Например, 10 шансов из 100 представляют в виде десятичной дроби 0,1; 5 из 100 записывается как 0,05; 1 из 100 - 0,01. При такой форме записи граничным значением является 0,05. Чтобы результат считался правильным, его уровень значимости должен быть ниже этого числа (вы помните, что это вероятность того, что результат неправильно описывает популяцию). Чтобы покончить с терминологией, добавим, что «вероятность неправильности результата» (которую правильнее называть уровнем значимости) обычно обозначается латинской буквой р. В описание результатов эксперимента обычно включают резюмирующий вывод, такой как «результаты оказались значимыми на уровне достоверности (р (р) менее 0,05 (т.е. меньше 5%).
Таким образом, уровень значимости (р ) указывает на вероятность того, что результаты не представляют популяцию. По традиции в психологии считается, что результаты достоверно отражают общую картину, если значение р меньше 0,05 (т.е. 5%). Тем не менее это лишь вероятностное утверждение, а вовсе не безусловная гарантия. В некоторых случаях этот вывод может оказаться неправильным. На самом деле, мы можем подсчитать, как часто это может случиться, если посмотрим на величину уровня значимости. При уровне значимости 0,05 в 5 из 100 случаев результаты, вероятно, неверны. 11а первый взгляд кажется, что это не слишком часто, однако если задуматься, то 5 шансов из 100 - это то же самое, что 1 из 20. Иначе говоря, в одном из каждых 20 случаев результат окажется неверным. Такие шансы кажутся не особенно благоприятными, и исследователи должны остерегаться совершения ошибки первого рода. Так называют ошибку, которая возникает, когда исследователи считают, что обнаружили реальные результаты, а на самом деле их нет. Противоположные ошибки, состоящие в том, что исследователи считают, будто они не обнаружили результата, а на самом деле он есть, называют ошибками второго рода.
Эти ошибки возникают потому, что нельзя исключить возможность неправильности проведенного статистического анализа. Вероятность ошибки зависит от уровня статистической значимости результатов. Мы уже отмечали, что, для того чтобы результат считался правильным, уровень значимости должен быть ниже 0,05. Разумеется, некоторые результаты имеют более низкий уровень, и нередко можно встретить результаты с такими низкими /?, как 0,001 (значение 0,001 говорит о том, что результаты могут быть неправильными с вероятностью 1 из 1000). Чем меньше значение р, тем тверже наша уверенность в правильности результатов .
В табл. 7.2 приведена традиционная интерпретация уровней значимости о возможности статистического вывода и обосновании решения о наличии связи (различий).
Таблица 7.2
Традиционная интерпретация уровней значимости, используемых в психологии
На основе опыта практических исследований рекомендуется: чтобы по возможности избежать ошибок первого и второго рода, при ответственных выводах следует принимать решения о наличии различий (связи), ориентируясь на уровень р п признака.
Статистический критерий (Statistical Test) - это инструмент определения уровня статистической значимости. Это решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью .
Статистические критерии обозначают также метод расчета определенного числа и само это число. Все критерии используются с одной главной целью: определить уровень значимости анализируемых с их помощью данных (т.е. вероятность того, что эти данные отражают истинный эффект, правильно представляющий популяцию, из которой сформирована выборка).
Некоторые критерии можно использовать только для нормально распределенных данных (и если признак измерен по интервальной шкале) - эти критерии обычно называют параметрическими. С помощью других критериев можно анализировать данные практически с любым законом распределения - их называют непараметрическими.
Параметрические критерии - критерии, включающие в формулу расчета параметры распределения, т.е. средние и дисперсии (^-критерий Стью- дента, F-критерий Фишера и др.).
Непараметрические критерии - критерии, не включающие в формулу расчета параметров распределения и основанные на оперировании частотами или рангами (критерий Q Розенбаума, критерий U Манна - Уитни
Например, когда мы говорим, что достоверность различий определялась по ^-критерию Стьюдента, то имеется в виду, что использовался метод ^-критерия Стьюдента для расчета эмпирического значения, которое затем сравнивается с табличным (критическим) значением.
По соотношению эмпирического (нами вычисленного) и критического значений критерия (табличного) мы можем судить о том, подтверждается или опровергается наша гипотеза. В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, хотя есть критерии (например, критерий Манна - Уитни или критерий знаков), в которых мы должны придерживаться противоположного правила.
В некоторых случаях расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке, обозначаемое как п. По специальной таблице мы определяем, какому уровню статистической значимости различий соответствует данная эмпирическая величина. В большинстве случаев одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в исследуемой выборке (п ) или от так называемого количества степеней свободы , которое обозначается как v (г>) или как df (иногда d).
Зная п или число степеней свободы, мы по специальным таблицам (основные из них приводятся в приложении 5) можем определить критические значения критерия и сопоставить с ними полученное эмпирическое значение. Обычно это записывается так: «при п = 22 критические значения критерия составляют t St = 2,07» или «при v (d ) = 2 критические значения критерия Стьюдента составляют = 4,30» и т.н.
Обычно предпочтение оказывается все же параметрическим критериям, и мы придерживаемся этой позиции. Считается, что они более надежны, и с их помощью можно получить больше информации и провести более глубокий анализ. Что касается сложности математических вычислений, то при использовании компьютерных программ эта сложность исчезает (но появляются некоторые другие, впрочем, вполне преодолимые).
- В настоящем учебнике мы подробно не рассматриваем проблему статистических
- гипотез (нулевой - Я0 и альтернативной - Нj) и принимаемые статистические решения,поскольку студенты-психологи изучают это отдельно по дисциплине «Математическиеметоды в психологии». Кроме того, необходимо отметить, что при оформлении исследовательского отчета (курсовой или дипломной работы, публикации) статистические гипотезыи статистические решения, как правило, не приводятся. Обычно при описании результатовуказывают критерий, приводят необходимые описательные статистики (средние, сигмы,коэффициенты корреляции и т.д.), эмпирические значения критериев, степени свободыи обязательно р-уровень значимости. Затем формулируют содержательный вывод в отношении проверяемой гипотезы с указанием (обычно в виде неравенства) достигнутого илинедостигнутого уровня значимости.
Выборочные параметры распределения, определяемые по серии измерений, являются случайными величинами, следовательно, и их отклонения от генеральных параметров также будут случайными. Оценка этих отклонений носит вероятностный характер - при статистическом анализе можно лишь указать вероятность той или иной погрешности.
Пусть для генерального параметра а получена из опыта несмещенная оценка а * . Назначим достаточно большую вероятность b (такую, что событие с вероятностью b можно считать практически достоверным) и найдем такое значение e b = f (b), для которого
Диапазон практически возможных значений ошибки, возникающей при замене а на а * , будет ±e b . Большие по абсолютной величине ошибки будут появляться только с малой вероятностью
называемой уровнем значимости . Иначе выражение (4.1) можно интерпретировать как вероятность того, что истинное значение параметра а лежит в пределах
. (4.3)
Вероятность b называется доверительной вероятностью и характеризует надежность полученной оценки. Интервал I b = a * ± e b называется доверительным интервалом . Границы интервала a ¢ = a * - e b и a ¢¢ = a * + e b называются доверительными границами . Доверительный интервал при данной доверительной вероятности определяет точность оценки. Величина доверительного интервала зависит от доверительной вероятности, с которой гарантируется нахождение параметра а внутри доверительного интервала: чем больше величина b, тем больше интервал I b (и величина e b). Увеличение числа опытов проявляется в сокращении доверительного интервала при постоянной доверительной вероятности или в повышении доверительной вероятности при сохранении доверительного интервала.
На практике обычно фиксируют значение доверительной вероятности (0,9; 0,95 или 0,99) и затем определяют доверительный интервал результата I b . При построении доверительного интервала решается задача об абсолютном отклонении:
Таким образом, если бы был известен закон распределения оценки а * , задача определения доверительного интервала решалась бы просто. Рассмотрим построение доверительного интервала для математического ожидания нормально распределенной случайной величины Х с известным генеральным стандартом s по выборке объемом n . Наилучшей оценкой для математического ожидания m является среднее выборки со стандартным отклонением среднего
.
Используя функцию Лапласа, получаем
. (4.5)
Задавшись доверительной вероятностью b, определим по таблице функции Лапласа (приложение 1) величину . Тогда доверительный интервал для математического ожидания принимает вид
. (4.7)
Из (4.7) видно, что уменьшение доверительного интервала обратно пропорционально корню квадратному из числа опытов.
Знание генеральной дисперсии позволяет оценивать математическое ожидание даже по одному наблюдению. Если для нормально распределенной случайной величины Х в результате эксперимента получено значение х 1 , то доверительный интервал для математического ожидания при выбранной b имеет вид
где U 1-p /2 - квантиль стандартного нормального распределения (приложение 2).
Закон распределения оценки а * зависит от закона распределения величины Х и, в частности, от самого параметра а . Чтобы обойти это затруднение, в математической статистике применяют два метода:
1) приближенный - при n ³ 50 заменяют в выражении для e b неизвестные параметры их оценками, например:
2) от случайной величины а * переходят к другой случайной величине Q * , закон распределения которой не зависит от оцениваемого параметра а , а зависит только от объема выборки n и от вида закона распределения величины Х . Такого рода величины наиболее подробно изучены для нормального распределения случайных величин. В качестве доверительных границ Q¢ и Q¢¢ обычно используются симметричные квантили
, (4.9)
или с учетом (4.2)
. (4.10)
4.2. Проверка статистических гипотез, критерии значимости,
ошибки первого и второго рода.
Под статистическими гипотезами понимаются некоторые предположения относительно распределений генеральной совокупности той или иной случайной величины. Под проверкой гипотезы понимают сопоставление некоторых статистических показателей, критериев проверки (критериев значимости ), вычисляемых по выборке, с их значениями, определенными в предположении, что данная гипотеза верна. При проверке гипотез обычно подвергается испытанию некоторая гипотеза Н 0 в сравнении с альтернативной гипотезой Н 1 .
Чтобы решить вопрос о принятии или непринятии гипотезы, задаются уровнем значимости р . Наиболее часто используются уровни значимости, равные 0.10, 0.05 и 0.01. По этой вероятности, используя гипотезу о распределении оценки Q * (критерия значимости), находят квантильные доверительные границы, как правило, симметричные Q p /2 и Q 1-p /2 . Числа Q p /2 и Q 1-p /2 называются критическими значениями гипотезы ; значения Q * < Q p /2 и Q * > Q 1-p /2 образуют критическую
область гипотезы (или область непринятия гипотезы) (рис. 12).
Рис. 12. Критическая область Рис. 13. Проверка статистических
гипотезы. гипотез.
Если найденное по выборке Q 0 попадает между Q p /2 и Q 1-p /2 , то гипотеза допускает такое значение в качестве случайного и поэтому нет оснований ее отвергать. Если же значение Q 0 попадает в критическую область, то по данной гипотезе оно является практически невозможным. Но поскольку оно появилось, то отвергается сама гипотеза.
При проверке гипотез можно совершить ошибки двух типов. Ошибка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна . Вероятность такой ошибки не больше принятого уровня значимости. Ошибка второго рода состоит в том, что гипотеза принимается, а на самом деле она неверна . Вероятность этой ошибки тем меньше, чем выше уровень значимости, так как при этом увеличивается число отвергаемых гипотез. Если вероятность ошибки второго рода равна a, то величину (1 - a) называют мощностью критерия .
На рис. 13 приведены две кривые плотности распределения случайной величины Q, соответствующие двум гипотезам Н 0 и Н 1 . Если из опыта получается значение Q > Q p , то отвергается гипотеза Н 0 и принимается гипотеза Н 1 , и наоборот, если Q < Q p .
Площадь под кривой плотности вероятности, соответствующей справедливости гипотезы Н 0 вправо от значения Q p , равна уровню значимости р , т. е. вероятности ошибки первого рода. Площадь под кривой плотности вероятности, соответствующей справедливости гипотезы Н 1 влево от Q p , равна вероятности ошибки второго рода a, а вправо от Q p - мощности критерия (1 - a). Таким образом, чем больше р , тем больше (1 - a). При проверке гипотезы стремятся из всех возможных критериев выбрать тот, у которого при заданном уровне значимости меньше вероятность ошибки второго рода .
Обычно в качестве оптимального уровня значимости при проверке гипотез используют p = 0,05, так как если проверяемая гипотеза принимается с данным уровнем значимости, то гипотезу, безусловно, следует признать согласующейся с экспериментальными данными; с другой стороны, использование данного уровня значимости не дает оснований для отбрасывания гипотезы.
Например, найдены два значения и некоторого выборочного параметра, которые можно рассматривать как оценки генеральных параметров а 1 и а 2 . Высказывается гипотеза, что различие между и случайное и что генеральные параметры а 1 и а 2 равны между собой, т. е. а 1 = а 2 . Такая гипотеза называется нулевой , или нуль-гипотезой . Для ее проверки нужно выяснить, значимо ли расхождение между и в условиях нулевой гипотезы. Для этого обычно исследуют случайную величину D = – и проверяют, значимо ли ее отличие от нуля. Иногда удобнее рассматривать величину / , сравнивая ее с единицей.
Отвергая нулевую гипотезу, тем самым принимают альтернативную, которая распадается на две: > и < . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется односторонней , и для ее проверки применяют односторонние критерии значимости (в отличие от обычных, двусторонних ). При этом необходимо рассматривать лишь одну из половин критической области (рис. 12).
Например, р = 0,05 при двустороннем критерии соответствуют критические значения Q 0.025 и Q 0.975 , т. е. значимыми (неслучайными) считаются Q * , принявшие значения Q * < Q 0.025 и Q * > Q 0.975 . При одностороннем критерии одно из этих неравенств заведомо невозможно (например, Q * < Q 0.025) и значимыми будут лишь Q * > Q 0.975 . Вероятность последнего неравенства равна 0,025, и, следовательно, уровень значимости будет равен 0,025. Таким образом, если при одностороннем критерии значимости использовать те же критические числа, что и при двустороннем, этим значениям будет соответствовать вдвое меньший уровень значимости.
Обычно для одностороннего критерия берут тот же уровень значимости, что и для двустороннего, так как при этих условиях оба критерия обеспечивают одинаковую ошибку первого рода. Для этого односторонний критерий надо выводить из двустороннего, соответствующего вдвое большему уровню значимости, чем тот, что принят . Чтобы сохранить для одностороннего критерия уровень значимости р = 0,05, для двустороннего необходимо взять р = 0,10, что дает критические значения Q 0.05 и Q 0.95 . Из них для одностороннего критерия останется какое-нибудь одно, например, Q 0.95 . Уровень значимости для одностороннего критерия равен при этом 0.05. Этому же уровню значимости для двустороннего критерия соответствует критическое значение Q 0.975 . Но Q 0.95 < Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.
В таблицах результатов статистических расчётов в курсовых, дипломных и магистерских работах по психологии всегда присутствует показатель «р».
Например, в соответствии с задачами исследования были рассчитаны различия уровня осмысленности жизни у мальчиков и девочек подросткового возраста.
Среднее значение |
U-критерий Манна-Уитни |
Уровень статистической значимости (p) |
||
Мальчики (20 чел.) |
Девочки (5 чел.) |
|||
Цели |
28,9 |
35,2 |
17,5 |
0,027* |
Процесс |
30,1 |
32,0 |
38,5 |
0,435 |
Результат |
25,2 |
29,0 |
29,5 |
0,164 |
Локус контроля - «Я» |
20,3 |
23,6 |
0,067 |
|
Локус контроля - «Жизнь» |
30,4 |
33,8 |
27,5 |
0,126 |
Осмысленность жизни |
98,9 |
111,2 |
0,103 |
* - различия статистически достоверны (р ≤ 0,05)
В правом столбце указано значение «р» и именно по его величине можно определить значимы различия осмысленности жизни в будущем у мальчиков и девочек или не значимы. Правило простое:
- Если уровень статистической значимости «р» меньше либо равен 0,05, то делаем вывод, что различия значимы. В приведенной таблице различия между мальчиками и девочками значимы в отношении показателя «Цели» - осмысленность жизни в будущем. У девочек этот показатель статистически значимо выше, чем у мальчиков.
- Если уровень статистической значимости «р» больше 0,05, то делается заключение, что различия не значимы. В приведенной таблице различия между мальчиками и девочками не значимы по всем остальным показателям, за исключением первого.
Откуда берется уровень статистической значимости «р»
Уровень статистической значимости вычисляется статистической программой вместе с расчётом статистического критерия. В этих программах можно также задать критическую границу уровня статистической значимости и соответствующие показатели будут выделяться программой.
Например, в программе STATISTICA при расчете корреляций можно установить границу «р», например, 0,05 и все статистически значимые взаимосвязи будут выделены красным цветом.
Если расчёт статистического критерия проводится вручную, то уровень значимости «р» выявляется путем сравнения значения полученного критерия с критическим значением.
Что показывает уровень статистической значимости «р»
Все статистические расчеты носят приблизительный характер. Уровень этой приблизительности и определяет «р». Уровень значимости записывается в виде десятичных дробей, например, 0,023 или 0,965. Если умножить такое число на 100, то получим показатель р в процентах: 2,3% и 96,5%. Эти проценты отражают вероятность ошибочности нашего предположения о взаимосвязи, например, между агрессивностью и тревожностью.
То есть, коэффициент корреляции 0,58 между агрессивностью и тревожностью получен при уровне статистической значимости 0,05 или вероятности ошибки 5%. Что это конкретно означает?
Выявленная нами корреляция означает, что в нашей выборке наблюдается такая закономерность: чем выше агрессивность, тем выше тревожность. То есть, если мы возьмем двух подростков, и у одного тревожность будет выше, чем у другого, то, зная о положительной корреляции, мы можем утверждать, что у этого подростка и агрессивность будет выше. Но так как в статистике все приблизительно, то, утверждая это, мы допускаем, что можем ошибиться, причем вероятность ошибки 5%. То есть, сделав 20 таких сравнений в этой группе подростков, мы можем 1 раз ошибиться с прогнозом об уровне агрессивности, зная тревожность.
Какой уровень статистической значимости лучше: 0,01 или 0,05
Уровень статистической значимости отражает вероятность ошибки. Следовательно, результат при р=0,01 более точный, чем при р=0,05.
В психологических исследованиях приняты два допустимых уровня статистической значимости результатов:
р=0,01 - высокая достоверность результата сравнительного анализа или анализа взаимосвязей;
р=0,05 - достаточная точность.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты).
Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.
Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.
Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.
Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.
Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)
Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.
Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.
Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.
Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.
До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).
Правило отклонения Hо и принятия h1
Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 .
Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H 0 отклоняется и принимается Н 1 .
Исключения : критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.
Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.
Критические значения критерия обозначены как Q о,о5 и Q 0,01, эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.
Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0 , 01 и, следовательно, безусловно, значимые.
Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.
Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп. =8;
Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н 0), но еще не можем принять гипотезы об их достоверности (H 1).
Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ 2 r Фридмана, L Пейджа, φ* Фишера.
Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.
При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.
Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.
Уровень значимости – вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идет об отклонении нулевой гипотезы.
1. 1-й уровень значимости: α ≤ 0,05.
Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны.
2. 2-й уровень значимости: α ≤ 0,01.
Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны.
3. 3-й уровень значимости: α ≤ 0,001.
Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это - самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны.
В области ФК и спорта достаточен уровень значимости α = 0,05, более серьезные выводы рекомендуется давать, используя уровень значимости α = 0,01 или α = 0,001.
7.2. F- критерий Фишера
Оценка генеральных параметров с помощью выборочных данных производится с помощью F - критерия Фишера. Данный критерий указывает о наличии или отсутствии достоверного различия в двух дисперсиях. Критерий Фишера - показатель достоверности влияния изучаемых факторов на полученный результат.
Пример 4. В экспериментальной группе школьников средний прирост результатов в прыжках в длину с разбега, после применения новой методики обучения, составил 10 см ( 10 см). В контрольной группе, где применялось традиционная методика, 4 см ( 4 см). Исходные данные:
Экспериментальная группа (x i): 17; 11; 3; 8; 9; 12; 10; 13; 10; 7.
Контрольная группа (y i): 8; 1; 6; 2; 3; 0; 4; 7; 5; 4.
Можно ли утверждать, что нововведения эффективнее повлияли на процесс формирования изучаемого двигательного действия по сравнению с традиционной методикой?
Для ответа на поставленный вопрос воспользуемся F - критерием Фишера:
1) Задаемся уровнем значимости α = 0,05.
2) Вычисляем исправленные выборочные дисперсии из нашего примера по формуле:
3) Вычисляем значение F - критерия по формуле, причем, в числитель ставится большая дисперсия, в знаменатель – меньшая:
4) Из таблицы 3 приложения при α =0,05; df 1 = n 1 – 1 = 9; df 2 = n 2 – 1 = 9; находим F 0,05 = 3,18
5) Сравниваем между собой значения F и F 0,05 .
Вывод. Поскольку F < F 0.05 (2,1 < 3,18), то на уровне значимости α = 0,05 различие дисперсий статистически недостоверно, т.е. можно сказать, что школьники при обеих системах подготовки не отличаются по признаку вариативности результатов.
7.3. t - критерий Стьюдента
Общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. t -статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе - выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии.
Устанавливает доказательство достоверного различия или, наоборот, отсутствие различия в двух выборочных средних значениях для независимых выборок. Рассмотрим последовательность вычислений, используя пример 4 :
1) Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены данные. Формулируем гипотезы:
Нулевая гипотеза H o: = .
Альтернативная гипотеза: H 1: ≠ .
Задаемся уровнем значимости α = 0,05.
2) В результате предварительной проверки при использовании критерия Фишера установлено, что различие дисперсий статистически недостоверно: D(x) = D(y).
3) Так как генеральные дисперсии D(x) и D(y) одинаковы, а n 1 и n 2 – объёмы малых независимых выборок, то наблюдаемое значение критерия равно:
Вычисляем число степеней свободы по формуле
Нулевая гипотеза отвергается, если │ │ ˃ , Из таблицы 1 приложения находим критическое значение t – критерия при α = 0,05; =18: = 2,101
Вывод: поскольку > (4,18 ˃ 2,101), то на уровне значимости 0,05 мы отвергаем гипотезу Н 0 и принимаем альтернативную гипотезу Н 1 .
Таким образом, нововведения успешнее решают задачу обучения школьников прыжкам в длину с разбега, чем традиционная методика.
Условия применения – разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами .
Пример 5 . Группа 10 школьников в течение летних каникул находилась в летнем оздоровительном лагере. До и после сезона у них измеряли жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, достоверно ли изменился этот показатель под влиянием физических упражнений на свежем воздухе.
Исходные данные до эксперимента (x i ; мл) 3400; 3600; 3000; 3500; 2900; 3100; 3200; 3400; 3200; 3400, т.е. объем выборки n = 10.
После эксперимента (y i ; мл): 3800; 3700; 3300; 3600; 3100; 3200; 3200; 3300; 3500; 3600.
Порядок вычислений:
1) Находим разность связанных пар результатов измерения d i :
;
2) Формулируем гипотезы:
Нулевая гипотеза H o: =
Альтернативная гипотеза: H 1: ≠ 0.
3) Задаемся уровнем значимости α = 0,05
4) Вычисляем - (среднее арифметическое), s d - (стандартное отклонение). = 160(мл); s d = 150,6 (мл)
5) Значение t- критерия определяем по формуле для связанных пар:
Из таблицы 1 приложения находим критическое значение t – критерия при α = 0,05; = n – 1 = 9: = 2,262
Вывод: Поскольку t > t кр (3,36 > 2,262)наблюдаемое различие по показателю ЖЕЛ является статистически достоверным на уровне значимости α=0,05.
1. Афанасьев В.В. Основы отбора, за и контроля в спорте / В.В. Афанасьев, А.В. Муравьев, И.А. Осетров. – Ярославль: Изд-во ЯГПУ, 2008. − 278 с.
2. Биленко, А.Г. Основы спортивной метрологии: Учебное пособие /А.Г. Биленко, Л.П. Говорков; СПб ГУФК им. П.Ф. Лесгафта. – СПб., 2005. – 138 с.
3. Губа В.П. Измерения и вычисления в спортивно- педагогической практике: учебное пособие для студентов высших учебных заведений/ В.П. Губа, М.П.Шестаков, Н.Б. Бубнов, М.П. Борисенков. – М.: ФиС, 2006. – 220 с.
4. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. - М: Высшая школа, 2004. – 404 с.
5. Коренберг, В.Б. Спортивная метрология: учебник / В.Б. Коренберг – М.: Физическая культура, 2008. – 368 с.
6. Начинская, С. В. Спортивная метрология. Учебное пособие для студ. высш. учеб. заведений / С. В. Начинская.– М.: Издательский центр «Академия», 2005. – 240 с.
7. Начинская С.В. Применение статистических методов в сфере физической культуры / Начинская С.В – СПб., 2000. – 260 с.
8. Смирнов, Ю. И. Спортивная метрология: учеб. для студ. пед. вузов / Ю. И Смирнов, М. М. Полевщиков. – М.: Издат. центр «Академия», 2000. – 232 с.
ПРИЛОЖЕНИЕ