Общий статистический анализ текста

Любой частотный анализ начинается с общих количественных характеристик. Поэтому и мы сначала проведем и представим общие количественные распределения слов в тексте. Количество слов, которое содержит анализируемый нами текст, равно примерно 40 000. Но каждое слово может употребляться в тексте от 1 раза и больше.

Здесь можно выделить две группы слов: одинаковые слова по смыслу и по написанию и слова одинаковые по содержанию, но имеющие свои словоформы и производные. И тех и других из 40 000 набирается 9500 слов. После того, как словоформы были сгруппированы по общему для них признаку получилось 2600 слов.

Поскольку основания для группировок всегда в кокой-то степени субъективны, (так же как в какой-то степени и объективны), количество оригинальных слов не может быть абсолютно точным. Но колебания в 5-10% в принципе не меняет общей картины и может быть приемлемо для статистического анализа.

Таким образом мы с полным основанием можем оперировать в дальнейшем анализе цифрой в 2600 слов. Это то общее количество оригинальных слов, включая словоформы, которые использовали авторы посланий. Мы сейчас не имеем возможности говорить много это или мало, поскольку в данном случае, для этого нет никаких сравнительных материалов.

Но в научной литературе отмечают, что среднее количество слов современного образованного человека составляет примерно 3000 слов. Может быть и так, но в любом случае это число всех слов: от обыденного повседневного языка до профессионального словаря. По всей видимости данного количества слов в принципе достаточно для решения не только повседневных, но и разнообразных профессиональных задач. Тем более, что узкопрофессиональный словарь, как правило, бывает не большим по количеству слов. Авторы посланий пользовались в основном профессиональным словарем.

Но для нас больший интерес представляет структура текста, которая определяется составом оригинальных слов, т.е. примерно 2600 слов для нашего текста. Структура текста, в свою очередь, содержит разные блоки слов, и соответственно, выполняющих разнообразные функции. Можно выделить в самом общем виде четыре блока: слова-доминанты, ключевые слова, обслуживающие слова и слова, выполняющие роль связки слов.

Мы начнем анализ с последнего блока – со слов-связок. В разных текстах их может быть больше или меньше, но всегда ограниченное количество. Это происходит в силу того и только того, что функции их весьма ограниченные — осуществление смысловой связи отдельных слов и предложений или частей предложений в тексте.

В данном тексте слов-связок немного, всего 51, но вот их общее количество употреблений довольно большое, примерно – 3500 раз. Другими словами, 51 слово было использовано в тексте три с половиной тысячи раз, что составляет около 30% от общего количества оригинальных слов со словоформами, (9500), или 8,9% от общего числа слов, (40 000). Ниже приводится таблица общей численности слов-связок и частоты их употребления в тексте.

1.эта, это — 600

2.не, нет, ни — 498

3. для — 229

4. по — 166

5.за — 146

6. только — 115

7. из — 103

8.от — 104

9. уже — 87

10.еще — 84

11.которая — 83

12. при — 81

13. так — 71 14. всем – 73

15. также — 65

16. такие — 65

17. будет — 65

18. кроме того — 61

19. бы — 61

20. очень — 56

21. то — 51

22. была — 50

23. между — 50

24. чтобы — 47

25. тем — 46

26. чем — 38 27. том — 38

28. без — 38

29. когда-либо- 47

30. или — 36

31. может — 36

32. другие — 35

33. если — 35

34. же — 34

35. однако — 32

36. кто — 32

37. где — 25

38. лишь — 24

39. даже — 23 40. хотя — 23

41.некоторые- 21

42.до сих пор- 20

43. почти — 19

44. тех — 19

45. поэтому — 18

46. самой — 17

47. пока — 16

48. потому — 16

49. те — 14

50. под — 12

51. через — 10.

Итого: 3500

Как видно из таблицы, чаще всего употребляется частицы: «эта», «это» – 600; отрицание «не», «нет», «ни» — 498; «для» — 229; «за» — 146 и др. Всего восемь слов, (частота употреблений до ста), использовались — 1961 раз или 56%. Можно предположить, что и в других текстах, (скорее всего во всех текстах), они употребляются так же часто, поскольку являются, в силу разных причин, самыми расхожими словами-связками.

Каждое из этих (и других) слов-связок и их производных выполняет, как правило, одну устойчивую функцию: «это» – указание на что-то, («это было не эффективно»); «не», «ни», «нет» — отрицание чего-либо, («у нас нет другого выхода»); «для» — принадлежность чему-либо, («для принятия решения»); «по» — по направлению, («по порядку»); «за» — за чем-то, («за неимением иного»); «только» — ограничение, («и только от нас зависит»), «из» — извлечение, («некоторые из приоритетов»); «от» — отказ, отделение, точка отсчета и пр. («это от нас не уйдет»).

Имеет смысл выделить в отдельный блок обслуживающие слова из группы местоимений. Это особые слова, и выполнять они могут разные функции, чаще всего роль слов-связок. Нередко местоимения, например, «я», «мы», «они» и пр. становятся доминантами или ключевыми словами. Но чаще всего они выполняют функцию связки слов в блоке вспомогательных или основных слов-признаков. Более четкое их разделение или точнее определение содержание по функциям зависит уже от поставленной задачи.

1. мы — 218

2. их — 105

3. все — 92

4. нас — 80

5. нам — 77

6. я — 76

7. наших — 74

8. они — 61 9. ее — 55

10. нашей — 50

11. его — 38

12. наша — 33

13. она — 33

14. он — 26

15. многие — 25

16. вместе — 24 17. нашего — 21

18. вами — 18

19. них — 18

20. себя — 15

21. им — 16

22. одним — 16

23. своих — 16

24. своей — 16 25. себе — 13

26. свои — 12

27. нами — 12

28. вы — 11

29. наш — 11

30. оно — 11

31. ним — 10

Всего: 1259

Как видно из приведенной выше таблице всего таких слов набирается 31 с общим количеством использований – 1259 слов. Это составляет от общего количества слов – 14,8%. Чаще всего употребляется слово «мы» — 218 раз, и слово «их» — 105 раз. Множественное число употребляется намного чаще — 899 раз и 360 раз единственное число. Слово «я» употребляется 76 раз. Мы сейчас не даем никакой содержательной оценки, а только определяем группы слов, как оригинальные структурные элементы текста.

Следующий блок – это слова, которые в тексте употребляются чаще всего, минимум 10 раз. Всего их набирается 233 слов. Фактически это те слова, которые составляют основной словарный состав данного текста. Они и содержат наибольшее количество употреблений – 6455, (включая и некоторые важные словоформы). Среди них много обслуживающих и ключевых слов, но об этом мы поговорим ниже.

В повседневной жизни и профессиональной занятости, при решении частных задач, каждый из нас пользуется не всем запасом слов, а их ограниченном количеством. В литературе пишут 300-500 слов, при решении простых задачи и больше, если задачи сложные. Словарь индивидуального пользования вполне укладывается в некую усредненную норму.

Но вот только 14 слов используются от 100 и выше раз, и в общей численности они набирают 2103 применения. Чаще всего использовались такие слова как: Россия – 296; государство – 252; экономика – 222; должны – 218; год – 149; нужно -140; власть – 135; граждан — 121; страна – 120; политика – 120; работа – 120; фактически – 107; сегодня — 103; будем -101. То, что эти слова набрали самое большое число употреблений может свидетельствовать, но только свидетельствовать, о том, что они выступают основными, ключевыми и может быть даже смысловыми словами. Но это можно однозначно определить только в контексте.

То, что слово Россия используется чаще всего – 296 раз, еще не говорит о том, что оно является ключевым, так же как, например, и слово государство, которое так же использовалось довольно много — 252 раза. В равной степени это относится и к другим словам, набравших большое число использований. Но то, что эти и другие слова применяются часто, уже говорит о том, что они могут быть значимыми.

И еще один блок, слова которого используются так же часто — от 99 до 50 раз. Таких слов набирается – 20, и использовали их 1430 раз. Вот эти слова: решать – 93; система – 91; задача – 88; люди — 81; развитие – 81; правительство – 73; более – 70; жизнь — 70; мир – 70; социальное – 68; проблемы – 67; рынок – 66; рост – 63; хотел – 62; органами – 60; является – 57; всего – 56; надо – 56; права – 55; обеспечение – 52; условия – 51.

Данный ряд слов так же без сомнения можно отнести к разряду ключевых, основных и возможно смысловых. Все-таки частота использования определяется и таким важным фактором как его важность, значимость в тексте. Правда, еще раз отметим, их значение и роль в тексте можно определить только исходя из контекста употребления.

Визуально видно, что эти два ряда частотного распределения слов отличаются друг от друга. Если в первом частотном блоке используются, так скажем, глобальные слова, или, точнее, наиболее общие понятия, применительно к задачам данного текста, то во втором частотном ряду, используются понятия уже ниже рангом, меньшей общности, во всяком случае, так нам представляется.

В первом ряду используются такие общие понятия как: Россия, государство, власть, экономика, политика, граждане, страна, работа. Во втором частотном ряду: система, задачи, люди, развитие, правительство, жизнь, рынок, социальное, органы, права. Можно не соглашаться с предложенным разделением этих групп слов по уровню понятийной общности, но что таковое понятийное разделение всегда присутствует в текстах, вряд ли требует доказательства.

Разница или общность данных частотных блоков можно продемонстрировать более точно, если вычислить средневзвешенный коэффициент. Как и ожидалось первый блок, получил больший коэффициент — 5,29; второй – 4,80. Это означает, что первый блок по значимости оказывается выше второго блока. Но в данном случае значимость показателя определялась, как мы уже говорили, только частотой их использования в тексте. Но можно предположить: как выстраивали авторы данного текста значимость этих блоков, так оно и получилось.

Весовой

коэффициент

показателя

V(1-8) Показатели Количество

употреблений

Y(1-8) Весовое

значение

Sz(1-8) Средне

взвешенный

коэффициент

G

8

7

6

5

4

3

2

1 Россия

государство

экономика

власть

граждане

страна

политика

работа

296

252

222

135

121

120

120

120 2368

1764

1332

675

484

360

240

120 (Sz)

(SY)

Средняя: 7343

Средняя: 1386

(Sy) Средняя:1386

(Sz) Средняя: 7343 5.29

Весовой

коэффициент

показателя V(1-8) Показатели Количество

употреблений

Y(1-8) Весовое

значение

Sz(1-8) Средневзвешенный

коэффициент

G

8

7

6

5

4

3

2

1 система

люди

правительство

жизнь

мир

социальное рынок

права 91

81

73

70

70

68

66

55 728

567

438

350

280

204

132

55 Sz)

(SY)

Средняя: 2757

Средняя: 574

(SY) Средняя: 574 (Sz) Средняя:

2757 4,80

Но если мы придадим весовое значение показателя не по количеству употребления, а по весовому значению самого показателя, (предложенный исследователем), то разница может быть несколько иной. У нас получилось 4,78 и 4,46. В первом случае по критерию частоты использования слов первая группа оказалась более весомее чем вторая, (разница 0,49 балла). По второму критерию,(весовой коэффициент показателя), первая группа, хотя и сохранила свое весовое преимущество, но уже не намного, по сравнению со второй группой (разница — 0,30).

Понятно, что субъективный показатель весового значения, приписываемый исследователем, весьма уязвим для критики, но при определенных ситуациях его вполне успешно можно использовать. Другими словами, его можно использовать с большой уверенностью тогда, когда показатели и их весовые значения получили одобрение в некой конвенциальной группе, например, со стороны участников данного исследования или какой-либо экспертной группы.

При строгом научном подходе обычно так и делается, который безусловно обеспечивает с большой долей вероятности, что полученные данные имеют объективное звучание, в обязательном порядке для решения поставленной задачи. Но только для данной задачи, вне которой любые результаты исследования теряют всякий смысл. Потому он и называется «смысл», что имеет всегда конкретное выражение.

Весовой

коэффициент

показателя

V(1-8) Показатели Количество

употреблений

Y(1-8) Весовое

значение

Sz(1-8) Средне-

взвешенный

коэффициент

G

8

7

6

5

4

3

2

1 Россия

страна

граждане

работа

государство

экономика

власть

политика

296

120

121

120

252

222

135

120

2368

840

726

600

1008

666

270

120 (Sz)

(SY)

Средняя: 6598

Средняя: 1386

(Sy) Средняя:

1386

(Sz) Средняя:

6598 4,76

Весовой

коэффициент

показателя V(1-8) Показатели Количество

употреблений

Y(1-8) Весовое

значение

Sz(1-8) Средне-взвешенный

коэффициент

G

8

7

6

5

4

3

2

1 люди

жизнь

мир

социальное права

правительство

рынок

система

81

70

70

68

55

73

66

91 648

490

420

340

220

219

132

91 Sz)

(SY)

Средняя: 2560

Средняя: 574

(SY) Средняя: 574 (Sz) Средняя:

2560 4,46

Можно провести анализ слов, которые употребляются от 49 до 25 раз. Таких слов уже набирается 40 и используются они 1453 раза. В среднем каждое слово использовалось 36 раз. Но и по важности, с нашей точки зрения, их можно отнести к третьему ряду, но не все. Из общего числа (40), 32 слова можно отнести к обслуживающим, например, уважаемые, здесь, часто, необходимо и пр. Но 9 слов можно отнести к весьма важным, с нашей точки зрения, словам: закон — 48; региональный — 47; качество — 41; общество — 40; образование — 38; население – 32; организации — 26; человек — 26; доход — 25. Так же как и в списке 20-ти последних слов, которые использовались в тексте по 10 раз, имеются слова, которые, с нашей точки зрения, являются весьма важными, например: финансовые – 10, президент – 10, конституция – 10, партии – 10, институты – 10.

В целом среди 233-х наиболее употребительных слов, только 67 являются, с нашей торчки зрения, значимыми, исходя из некоторого наиболее общего контекста. Эти слова и в самом деле использовались больше всего — 3258 раз, что составило ровно половину 50,4% от числа всех слов, набравших более десяти использования. В среднем каждое слово использовалось 49 раз.

1. Россия 296

2. государство 252

3. экономика 253

4. властей 135

5. граждан 121

6. страны 120

7. политика 120

8. работа 120

9. система 91

10. задач 88

11. людей 81

12. развитие 81

13. правительства 80

14. жизни 70

15. мира 70

16. социально 68

17. проблем 67

18. рынка 66

19. рост 63

20. органами 60

21. прав 55

22. обеспечение 52

23. условий 51 24. закон 48

25. региональных 47

26. качества 41

27. общества 40

28. образование 38

29. населения 32

30. человек 26

31. доходов 25

32. самоуправления 24

33. ответственности 22

34. собственности 21

35. свободы 20

36. безопасности 24

37. налогов 20

38. международного 20

39. реформы 19

40. исполнительной 19

41. депутаты 18

42. порядок 18

43. предприятий 17

44. деятельности 17

45. думы 16

46. управления 16 47. народа 14

48. бизнеса 14

49. внешней 14

50. ВТО 14

51. стабильность 14

52. бюджета 13

53. информации 13

54. армии 12

55. сообщества 12

56. финансирования12

57. инфраструктуры 11

58. конкуренции 11

59. медицинской 11

60. угрозу 10

61. финансовых 10

62. цель 10

63. президента 10

64. массовой 10

65. конституции 10

66. институтов 10

67. партии 10

Итого: 3258

По всей видимости и в самом деле частота использования того или иного слова имеет хорошую связь со его текстовой значимостью. Если не мудрствовать лукаво над текстом и не прятать какие-либо тайные мысли, то частотное распределения слов-понятий может отражать смысл текста, или хотя бы его границы. Но, в зависимости от поставленных задач, частотное наполнение даже значимых слов может и не отражать, во всяком случае в полном объеме, смысл текста. И это всегда надо иметь ввиду.

Рубрики: | Дата публикации: 26.07.2010

Нужна курсовая или дипломная?