Ложная корреляция

Так, в случае утверждения, что среди всех умерших, большинство употребляли помидоры и огурцы в свежем виде, произошло простое временное наложение двух плоскостей – «все умершие» и «потребляющие в свежем виде помидоры и огурцы». Первая плоскость как бы вобрала в себя вторую плоскость, если посмотреть на них так сказать «сверху». Но стоит изменить угол наклона «визуального» восприятия и сразу же становится ясно, что это две независимые плоскости. Жалко только, что нельзя продемонстрировать математически, поэтому приходится прибегать к образному представлению.

Определение корреляции как ложной или как истинной можно наверно только при одном условии, когда имеющая связь установлена в более общем для них контексте, истинность и ложность которого однозначно определена. Для этого очень эффективен метод факторного анализа и его вариации, при котором устанавливается корреляционная зависимость между рядом однопорядковых показателей. Если один из них или несколько показали слабую корреляцию, то имеется большое основание утверждать, что возможна причинно-следственная зависимость остальных и тем более основных признаков.

Так слово «служащий», имеет ряд синонимов, например, клерк, конторщик, работник, сотрудник, чиновник и пр. которые достаточно полно описывают данное смысловое поле. Так же как и имеются синонимы слова «защитник», (адвокат, апологет, борец, заступник, оборонитель, покровитель, страж и др.), которые так же хорошо описывают данное смысловое поле. Таким образом мы установили два смысловые поля с четко обозначенными показателями.

Если между явлениями «чиновник» и «защитник» не обнаружилось тесной корреляционной связи, то можно ее проверить на серии других корреляционных связей между их синонимами, которые могут подтвердить или не подтвердить исходный вывод. Правда, жизненный опыт подсказывает, как не крути и какой сложный статистический аппарата не применяй, связи здесь не найдешь никакой, поскольку ее в природе чиновничества не существует и не может существовать по определению. Так же как в смысловом поле «защитник» отсутствуют какие-либо элементы смыслового поля «чиновник».

В статистике используется еще один, очень хороший метод, это сжатие информации, что позволяет провести более четкое определение тренда или направления развития события, интересующего исследователя. При большой разбросанности признаков и их слабом проявлении, такой способ весьма впечатлителен. Хорош он даже при небольшой наполняемости признака. Обозначается данный метод словом коэффициент.

Коэффициентов в статистике описано довольно много, которые, чаще всего, характеризуют типовые тренды. Подстановка того или иного типового коэффициента (формулы расчета), позволяет быстро получить интересующий результат – есть ли тренд или нет, имеется ли тенденция или нет и в какую сторону он развивается и пр. Более того позволяет относительно просто автоматизировать процесс вычисления коэффициента и соответственно тренда. Система автопилот в самолете тому образец.

Так, если признаков смыслового поля «офицер» и смыслового поля «защитник Родины» мало, наполнение соответствующими понятиями (словами и словообразованиями), явно не достаточно для простого корреляционного ряда, тогда прибегают к сжатию информации. Выявляют серию специальных показателей, например, синонимов и устанавливая, например, их весовой коэффициент, например, по шкале значимости, можно довольно надежно утверждать, что связь между ними имеется и возможно очень хорошая.

Но применять его надо очень осторожно, ибо требует довольно четкой идентификации интересующих исследователя признаков. В противном случае есть опасность попадания в поле статистического анализа иных по содержанию признаков. При малой наполняемости это может быть роковым — получить неверный тренд. Но и при большой наполняемости частотного проявления признаков неприятностей не избежать: может возникнуть смещение признаков в смежном широком смысловом поле.

Другая реально существующая неприятность – определение содержания степени сжатия информации. Ее можно так сжать, что никого тренда не получишь, поскольку природа явления при этом может сильно измениться. Или же растянуть до неузнаваемости, когда статистическое поле будет, как говориться, «рваться», появятся «провалы», «выбросы» и пр., что может весьма сильно затруднит анализ.

Что бы избежать подобного варианта, необходимо сразу же условиться о степени сжатия, исходя из природы явления и решаемой задачи. Правда сделать это чаще всего оказывается возможным или в типовой ситуации, когда смысловое поле известно или же в результате многократных опытов и проигрывании на каких-либо моделях или уже проверка на практике. Приговор последней обжалованию уже не подлежит, и если что-то сделано не правильно, то исправить уже ничего нельзя и все придется начинать с начала.

Наглядно этот процесс можно представить таким образом: если в неком визуальном статистическом поле, частотные точки признака сгруппировались в одном месте, в одном отсеке «шкафа», при допустимой статической погрешности, приведшей к небольшому разбросу, то тренд налицо и его можно спокойно описывать каким-либо приемлемым для данного случае коэффициентом. Если частотные точки группируются в разных позициях статистического поля, то, или же тренда нет, или же частотный анализ проведен не корректно. В статистике все это хорошо описано и показано.

Текст такое же статистическое поле как и любое другое. Если корреляционная зависимость слабая, то имеет смысл ввести дополнительные показатели, что бы усилить возможную зависимость и тем самым определить тренд. Так, зависимость между частотным проявлениям признака-слова «офицер» и частотным проявлениям признака-слова «защитник Родины» может быть по разным причинам слабая, но введя другие показатели данного смыслового поля, можно с большей или меньшей уверенностью или обоснованностью утверждать, что в тексте данная связь присутствует или ее нет.

В данном разделе, мы показали только самые общие моменты статистического анализа. Это особая область исследования, тем более, что практика статистического анализа текста, как особая область статистического анализа, точнее статистического анализа особого рода реальности, может подсказать и особые статистические приемы анализа, как это бывает с иными областями объективной реальности, куда добралась статистика. Но об этом в следующей главе.

Рубрики: | Дата публикации: 26.07.2010

Нужна курсовая или дипломная?