Группировки и сочетания слов-понятий

Далее, мы выделим несколько больших смысловых блоков, которые, по нашему мнению, отражают основные области внимания авторов посланий. Понятно, что в этом случае мы будем пользоваться субъективным предпочтениями, определяя важность того иного слова-понятия, исходя из наших задач и не более того. Все, ниже приведенные группировки — чистый «субъективизм» исследователя. При этом количественный критерий не будет столь активно использоваться.

Но никакого другого подхода или способа нет и не может быть. Количественный или статистический аппарата, нужен только для того, что бы подтвердить или не подтвердить, (но ни как не опровергнуть), субъективные гипотезы исследователя. Другое дело, что некоторые математические зависимости, тесная корреляция каких-либо явлений, неожиданно появившаяся в ходе анализа, могут подтолкнуть к новому направлению исследования и соответственно, разработки новых гипотезы, в несколько или принципиально иную область бытия. Но это уже другая тема.

Поэтому, сначала, из общего списка использованных слов (2600), исключим слова–связки и местоимения как не важные для решения наших задач. И выберем те слова, которые являются, с нашей точки зрения, и только с нашей точки зрения, ключевыми, важными, имеющие, по нашему мнению, большую смысловую значимость в рамках данного текста. При этом их частотное использование нами практически не будет учитываться. То или иное слово вообще может использоваться только один раз, тем не менее, значимость его, в рамках данного текста, может быть весьма высокая.

Необходимо отметить, что смысловая значимость слов определяется в данном случае, неким наиболее общим контекстуальным представлением о значимости того или иного слова и без привязки к тексту, который выступает конкретным, частным контекстом. Так слова Россия, президент, конституция, армия, правительство, дума, общество, экономика, русский и пр. являются для нас как бы априори значимыми словами, имеющие определенный общий смысл. И мы можем их в таком качестве рассматривать, предполагаю, вполне обосновано, что авторы посланий так же оперирует этими же словами в неком общем контекстуальном поле как значимыми и содержащие примерно такой же смысл.

Мы можем быть уверенны в этом только потому, что и я, как автор данного текста и авторы посланий живем и работаем в одной и той же общей смысловой парадигме, в едином пространстве и времени, т.е. на одной территории, в одном месте и в одно и тоже время. Для них вышеприведенные слова так же являются значимыми, (должны быть значимыми), как и для меня в рамках решения своих частных и общих задач.

Иначе наверное и быть не может, в противном случае мы просто бы не понимали друг друга, хотя такое и случается нередко со стороны власти и других субъектов общества. Понятно, что те же самые слова в какой-то иной стране возможно не были бы столь значимыми и имели бы иной смысл. Все это дает право, воспринимать многие слова посланий в рамках некой общей смысловой парадигмы как значимых и смыслообразующих слов.

Таких слов у нас набралось 264. Возможно их несколько больше, может быть некоторые слова мы не приняли как значимые. Но может быть и меньше, поскольку наверняка отдельные слова мы напрасно приняли как важные. Только контекст может показать истинное значение слова в структуре предложения. Но в целом, надо полагать, основных ключевых слов насчитываться именно такое количество, примерно 10%, что в целом соответствует их возможному количеству для любого текста. И вот почему.

Cструктура предложения всегда содержит основные смыслообразующие и вспомогательные слова, (в том числе слова-связки). Первые составляют до трех слов, остальные, т.е. вспомогательные слова, составляют в среднем 10-12 слов в предложении. Так, если всего предложений в тексте насчитывается немногим больше 2500 и если каждое предложение содержит от одного до трех ключевых слова, то получается, примерно, 240-260 слов или те же 10%.

Как видно, имеется определенная зависимость между частями предложений и структурными блоками текста в целом, которые и определяют устойчивость количественных выражений блоков практически любого текста. Примерно одинаковое количество оригинальных и эксклюзивных, значимых слов и вспомогательных слов, слов-связок и их примерно одинаковое процентное выражение.

И так, анализируемый текст, – послания, представляет собой следующее количественное распределение.

Всего слов в тексте, примерно, — 40 000.

Оригинальных слов,(со словоформами и производными) — 9 500 или 23,8%.

Эксклюзивных слов (без словоформ и производных) — 2600 или 6,5% от общего числа или 27,4% от общего числа оригинальных слов.

Значимых слов, примерно, 264 или 10% от общего числа эксклюзивных слов или 0,65% от общего числа слов.

Вспомогательных слов, вместе со словами-связками — 2340.

Ключевых слов – 19.

Доминанта – чаще всего одна, но может быть несколько.

Как видно оригинальных слов со словоформами не много, (9500) еще меньше эксклюзивных слов,(2500) т.е. с учетом словоформ, который выступает, еще раз напомним, основным словарным составом авторов посланий. Совсем не много значимых слов, (264), которые авторы употребляют чаще всего. Немного и ключевых слов, (19) описывающие блоки текста, фактически это доминанты. Больше всего вспомогательных слов различной конфигураций, например, слов-связок, (2340). Так всегда и бывает.

Вспомогательная слова есть своеобразная свита короля (значимых слов), которые и определяют их сущность, смысловое содержание. Правильнее сказать, уточняют тот аспект основного понятия, которое используется в тексте в рамках решения автором своей задачи. А все вместе они работают на доминанту или доминанты. Но об этом на конкретных примерах мы будем говорить подробнее чуть позже.

Теперь определим ключевые слова, формирующие, опять же только по нашему мнению, смысловые блоки текста посланий, например, армия, закон, власть, общество и др. Они же будут определять значимость и характер слов, находящиеся в данной понятийной области. При этом, ключевое слово, само по себе, может не присутствовать в тексте. В данном случае ключевое слово является только наименованием понятийной области, описываемой текстом. Формирования блоков, (его наполнение), будет осуществляться на основе списка значимых слов.

Способ определения понятийного поля и, соответственно, его ключевых слов относительно прост: будем исходить из того, что некоторые слова можно объединить естественно, субъективно, по некоторому общему для них смысловому признаку, (но не по смыслу, поскольку смыслы слов могут быть разными, но обладать одним смысловым признаком, что нас может и интересовать в данном случае).

Таким образом мы формируем смысловые блоки текста из слов, исходя из их значения. При этом, конечно, мы будем исходить из того, что выбранные ключевые слова являются значимыми для данного текста. В противном случае какое-либо объединение теряет смысл. Таких ключевых слов может быть немного, в зависимости от сложности и многогранности текста. У нас получилось 19 слов, формирующие понятийные блоки.

Естественно, сначала, предварительно и гипотетически выдвигаем несколько возможно ключевых слова, которые могут содержать в себе и ими определяемые, значимые или смысловые слова. При этом значимые слова, в принципе, могут повторяться в различных блоках ключевых слов, поскольку они могут участвовать в смыслоформировании различных ключевых блоков. Но в данном случае мы использовали значимое слово только в какой-то одной группировке.

Но еще раз отметим, что группировка проходила по тем общим понятиям, которые приняты в данном сообществе. При этом понятно, что возможны некоторые разночтения с содержанием слова в тексте. Так, например, слово наркомания может быть использовано применительно к «медицине», куда мы и отнесли его, но так же может быть использовано и в контексте «угрозы». Слово депутат может быть отнесено к группе «власть» (законодательная власть), но с равным успехом и к группе «демократия» и т.д.

Более того, в каким-то специальном контексте то или иное слово может приобретать особый смысл, отличный и от общепринятого и даже от, так скажем, узкопринятого содержания. Например, слово и понятие «структура» имеет много самых разнообразных значений, (как своих признаков), но в данном тексте мы отнесли его к блоку госаппарат, как обладающий признаком аппаратного структурного образования в рамках государственного управления.

Но в каждом конкретном случае, содержание используемого слова определяется задачей, поставленной исследователем. Исследуя тщательно, подробно широкий или узкий контекст данного слова, можно установить его истинное содержание, т.е. то содержание, которое вкладывал автор в данное слово, причем независимо от того, осуществлялось это у него интуитивно или осознанно.

Мы постарались, по мере возможности, очень аккуратно, корректно провести группировку и сформировать значимые для данного текста блоки. При этом исходили прежде всего из решения своих задач. Одна из них — продемонстрировать возможный метод статистического анализа частотного распределения слов-признаков в тексте.

Понятно, что приведенная группировка смысловых блоков может не соответствовать задачам, поставленным авторами текст посланий. Так же как другим исследователем может быть предложена своя смысловая классификация слов-понятий. Но каждая из них может быть вполне приемлемой и истинной, (в определенных рамках, конечно), поскольку решает свои специальные задачи.

Теперь попытаемся подобрать к выделенным ключевым словам, слова-понятия. Ниже приведено 19 блоков со своими словами-показателями, которые и образуют в совокупности необходимое понятийное пространство, описывающие, достаточно полно для данного текста, смысловой блок. Понятно, что таких блоков может быть намного больше, но мы ограничились, точнее вынуждены были ограничиться из-за объема работы, приведенными ниже смысловыми блоками. Но как нам кажется для решения нашей задачи, демонстрации метода, этого вполне достаточно.

1. Армия: военный – 43; армия – 38; оружие – 35; служба – 21; вооруженный – 18; военнослужащий – 11; оборона — 10; Вооруженные силы – 5; ветераны – 5; боеготовность – 4; призыв – 3; войска – 3; командование – 2; призывники — 2; победа — 2; офицер — 2; воин — 1; пехота – 1; сухопутный — 1; солдаты — 1; сержанты — 1; десантники – 1.

Всего 22 слова, которые были использованы 210 раз.

2. Власть: государственный – 360; власть – 147; правительство – 80; полномочия – 38; дума – 26; депутат – 25; исполнительная — 24; парламент – 15; права – 11; управление – 10; держава – 8; председатели – 7; Кремль – 5; губернаторы – 4; начальство -1; господство -1; внутригосударственных – 1. Всего 17 слов; 763 использований.

3. Закон: право – 119; закон – 82; законодательство – 50; конституция – 24; норма — 15; акты — 5; указ — 3; установление – 4; директивно – 2; правило — 1.

Всего: 10 слова; 305 использований.

4. Международные отношения: внешнего – 28; европейский – 25; содружество — 11; внешнеполитический – 9; зарубежные – 8; внешнеэкономическая – 6; США – 2; американцы — 1; СНГ – 1. Всего: 9 слов; 91 использований.

5. Госуправление, чиновники: структура – 35; ведомство – 22; чиновники – 18; бюрократия – 18; министерство – 16; госаппарат – 18; государственная служба – 5; полпред – 5; мэры – 4; государственные служащие – 3; госорганы – 3; президиум – 2; чиновничий аппарат – 2; управленцы – 2. Всего 14 слова; 153 использований.

6. Демократия: самоуправление — 64; демократия — 50; совет – 29; коллегиальный – 27; собрание – 26; партии — 23; республики – 21; избираемых – 11; представителей — 11; профсоюзы – 9; референдум — 4; предвыборной — 3; многопартийность — 3; суверенитет – 2; народовластие – 2. Всего: 15 слов; 285 использований.

7. Медицина: медицина – 33; здоровье – 18; здравоохранение -13; лекарство — 7; наркомания – 4; лечение — 3. СПИД -1. Всего: 7 слов; 79 использований.

8. Национальное: национальный и др. – 75; Чеченец -19; Русских – 4; Ингуш – 2; россияне — 3; Всего: 5 слов; 103 использований.

9. Общество: гражданин – 162; люди – 88; общество- 55; свобода — 54; стабилизация – 34; народ – 33; общественный — 30; интеграция — 22; сообщество — 18; массовый — 17; согласие — 14; держава — 3; Родина – 5. Всего: 17 слов; 536 использований.

10. Образование, наука, культура и духовное: образование — 54; наука — 46; профессиональный – 21; цивилизованный – 12; культура – 11; специалисты – 8; интеллектуальный — 9; духовный — 7; вузы -7; квалификация – 5; исследование – 5; журналисты – 4. религиозной – 1; бог -1. Всего: 14 слов; 191 использований.

11. Правоохранительные органы: органы – 67; судебная – 41; защита — 40; правоохранительные – 9; уголовно – 7; надзор – 8; процессуальный – 6; наказание – 6; арбитраж – 6; юридические – 6: прокуратура — 5; пресекать — 4; охрана – 4; милиция — 3; преследование – 3; юстиция – 2; аресты – 1; правосудие – 1. Всего: 18 слов; 219 использований.

12. Политика: политика – 153; дипломатично — 3; внутриполитическое – 1.

Всего: 3 слов; 157 использований.

13. Позитив: важны – 90; основа – 87; возможен — 67; создавать – 65; собственный – 61; качество – 52; реально – 50; принципиальный — 43; проведение — 41; продолжаем — 41; масштаб – 36; способен — 35; использовать – 33; норматив – 32; современная – 32; повысила – 27; приоритеты – 24; сокращение — 23; совершаемые – 23; друг – 22; программа – 19; проект — 19; договор -18; великие — 13; перспектив — 12; прогресс – 9; прогнозы – 7; продуманная — 5; соединение – 6; подъем – 6; процветание – 4; содействие 4; соревнование – 4; кандидат – 2; продиктована – 1. Всего: 35 слов; 1013 использований.

14 Процессы: будем — 229; должен – 221; мир — 108; развитие — 120; проблемы — 93; другие — 65; вопрос – 62; прошлое – 42; исполнение – 24; формировать – 22; внутреннего – 20; информация – 20; формы – 14; процесс — 14; способы — 7; революция – 8; идеология — 3.

Всего: 17 слов; 1072 использований.

15. Социальное: работа — 148; жизнь — 88; социальное – 83; жилье — 51; пенсионеры – 40; благополучие – 34; будущее — 17; богатые — 13; бесплатно — 11; старость – 10; справедливость — 9; бедные – 9; прожиточный – 7; безработица — 7; процветание – 4; равенство — 3; занятость – 2; малоимущие — 2; забастовка – 1. Всего: 19 слов; 539 использований.

16. Территории: Россия — 296; страна – 226; федерация – 173; регион – 98; Чечня — 14; территория — 27; земель – 13; Москва – 7; Кавказ – 6; Петербург – 2. Всего: 10 слов; 862 использований.

17. Экономика: экономика – 253; реформа — 56; конкуренция – 56; предприниматель – 41; ресурсы — 28; предприятия – 27; бизнес – 26; строительство – 25; планируется – 24; монополии – 19; товары — 12; страхование – 12; частный — 12; отрасли — 11; расходы – 8; производительный — 8; банкротство – 5; имущество – 3; фирмы – 1. Всего: 19 слов; 627 использований.

18. Финансы: налог — 66; финансирование – 49; бюджет – 39; доход – 35; инвестировать – 21; кредит – 15; оплата -12; банки – 10; деньги – 10; ипотека — 9; инфляция – 3; казна — 4. Всего: 12 слов; 273 использований.

19. Безопасность: террор – 55; угрозы – 36; безопасность – 30; преступления — 18; опасения — 16; кризис — 16; неэффективность — 12; конфликт — 11; коррупция – 10; катастрофа – 6; дезинтеграция – 5; запреты – 5; взятки – 5; выжить – 3; кровь – 3; контрреволюция – 2; криминал – 2; репрессии — 1; банды – 1. Всего: 19 слов; 237 использований.

Ниже приводится сводная таблица понятийных блоков значимых слов с указанием коэффициента значимости каждого отдельного облака.

№ Смысловые блоки Всего слов Количество

использований Коэффициент

использования, %

Государственные органы

1 Армия 22 210 10,48

2 Правоохранительные органы 18 219 8,22

3 Власть 17 763 2,29

4 Закон 10 305 3,28

5 Госуправление, чиновники 14 153 9,15

6 Политика 3 157 1,91

7 Международные отношения 9 91 9,89

Всего: 93 1898 4,99

Социальное

1 Социальное 19 539 3,53

2 Демократия 15 285 5,75

3 Медицина 7 79 8,86

4 Национальное 5 103 4,85

5 Общество 17 536 3,17

6 Образ., наука, культура и пр. 14 191 7,33

Всего: 77 1709 4,51

Экономика

7 Экономика 19 672 2,83

8 Финансы 12 273 4,39

Всего: 31 945 3,28

1 Позитив 35 1013 3,45

2 Процессы 17 1072 1,59

1 Территория 10 862 1,16

2 Безопасность 19 237 8,02

Имеется еще весьма интересное, с нашей точки зрения, основание для классификации. Это деление слов на, так называемые, фактологические, т.е. те, которые описывают совершенное действие и оценочные. Из 264 значимых слов 244 являются фактологическими и только 20 слов оценочные. Вот эти слова:

благополучие – 34; боеготовность — 4; важны — 90; великие — 13; повысила- 27; неэффективность — 12; цивилизованный — 12; справедливость — 9; способен — 35; принципиальный — 43; приоритеты — 24; процветание — 4; продуманная — 5; равенство — 3; развитие — 120; малоимущие — 2; массовый — 17; духовный — 7; дипломатично — 3; директивно — 2.

Это, конечно, приблизительное распределение, поскольку не всегда удается выявить адекватное значение слова. Но общая тенденция ясна: авторы посланий явно избегаю оценочных суждений, чаще всего пользуются словами, которые описывают уже свершившееся событие. В принципе любой текст по большей части оперирует фактологическими данными, но в большей степени это относится, как нам кажется, к официальными документам.

Кроме того, разные люди ориентированы по преимуществу на тот или иной характер слов. Возможно это связано с профессиональной деятельностью или же зависит от психологического склада человека, интеллектуальной ориентации и пр. К оценочным словам склонны гуманитарии, созерцатели (во всяком случае по складу характера), т.е. люди, которые любят действовать в неопределенной ситуации.

Как видно, из вышеприведенной таблицы, более всего слов набрали блоки под условным названием «государственные органы» и «социальное». На третьем месте блок «экономика» совместно с финансами. Если послания есть обращение одного субъекта власти к другому субъекту власти, то вполне естественно, что блок власти набирает большое число слов.

При этом сам блок «власть» был описан всего 17 словами, но использовали их 763 раз. Блок «закон» — 10 слов, но использовали их – 305 раз. Меньше всего слов набрала «политика» — 3 слова, но использовали эти слова 157 раз. Так же мало слов набрал блок «национальное» — 5 слов и использовали их 103 раза. А вот блок «территория» содержит всего 10 слов, но использовали их аж 862 раз, вот какова его важность.

Резонно предположить, что количество слов в блоке и их частотное распределение должно быть как-то зависимы друг от друга: блок с большим число использованием слов должен содержать и большое количество слов и наоборот. Но здесь этого нет. Так, блок «общество» содержит 17 слов и использовали их 536 раз. А блок «образование, наука и пр.» содержит 14 слов и 191 использование.

Этому может быть много причин: недостаточный словарный запас по отдельным блокам, авторы не следили за частотой использования слов, выделенные блоки сами по себе описываются ограниченным количеством слов, не точность формирования ключевых слов в блоке, плохо проведенная исследователем группировка слов-понятий и т.д. Но это тема отдельного разговора.

Теперь посмотрим на коэффициенты использования, которые позволят нам, хотя бы приблизительно составить рейтинг каждого понятийного блока и их некой совокупности. «Коэффициент использования», применяемый в данном анализе вычисляется путем соотношения количества слов к общему количеству их использования по данному блоку. Так, если небольшое количество слов использовалось много раз, то это значит, что данный блок описан бедно, например, блок «политика» и «власть». И наоборот, если блок описан большим количеством слов относительно их использования, то это означает, что данный блок описан хорошо и полно.

Так, как видно из вышеприведенной таблицы, лучше всего описаны блок «Армия» — 13,07, «Правоохранительные органы» — 8,22 и «Госуправление, чиновники» — коэффициент использования — 8,57. Но коэффициент использования в блоках «власть», «закон», «политика» оказывается не большой. Это связано с тем, что небольшое количество слов использовалось много раз.

Можно сказать, что армия, правоохранительные органы, т.е. силовые структуры и чиновники пользуются большем вниманием, чем, собственно, закон и власть. Даже политика и зарубежье, авторов данного текста заботят не много. Но установление значимости блоков зависит только от задач текста, определяемой его авторами. Нам остается только согласиться с этим или не согласиться.

И в целом общий блок «государственное управление» набрал самый высокий коэффициент использования – 4,99 балла. Это означает, что 93 слов использовались 1898 раз. Блок «социальное» набрал немногим меньше – 4,51 балла. Это означает, что 77 слов были использованы 1709 раз. Блок «экономика» – 3,28 балла. т.е. 31 слова было использовано 945 раз. (См. вышеприведенную таблицу).

Еще раз повторим, данный коэффициент описывает не значимость блоков, а только то, насколько полно представлен в тексте, хотя, конечно, косвенно указывает и на их значимость. Так, если блок «политика» описан всего 3 словами, то наверно можно сделать предварительный вывод, что данное понятийное образование не очень волнует авторов, оно не является основным для текста, так же как блок «Международные отношения», «Национальное» и др. Впрочем данный вывод требует отдельного исследования.

Рубрики: | Дата публикации: 26.07.2010

Нужна курсовая или дипломная?