Текст
[Заметки о языке]

Текст
язык в себе и для себя

Не поминайте всуе имена несчастных грешников.

Когда некто чересчур эрудирован, у него все силы уходят на то, чтобы эту эрудицию в хозяйстве разместить, чтобы ее регулярно подпитывать, и чтобы ее демонстрировать. Понятно, что на обдумывание вещей, за рамки эрудиции выходящих, морально-временных ресурсов уже и нет. Каждый день выходят в свет сотни книг по любой, даже очень узкой тематике. Попробуйте быть в курсе! — и не просто знать о чужих деяниях, а еще и — хотя бы одной фразой — об этом публично обмолвиться. Это ад. Так что не будем строго судить бедолаг: они уже получили свое.

Альтернативно: любая отсылка к человеку публичному попахивает, с одной стороны, стремлением к примазаться к чужой известности, а с другой — создает иллюзию демонической личности, якобы взявшей на себя грехи всего человечества. Не виноватые мы, это все он, Иисус Шайтанович напутал... А за чужой счет — что же не запутаться? Хотя главный греховодник — лицо сугубо формальное, по своей доверчивости не заметившее криминальных последствий привычки выбалтывать модные суеверия. Выборная должность — не только теплое место, это еще и риск оказаться ритуальной козлятиной. Вероятно, среди избранных тоже встречаются чистопородные подлецы — но за околонаучным обывателем в этом искусстве угнаться нелегко.

О чем это я? См. заголовок.

С некоторых пор лингвистика рядится в математические одежды, изо всех сил пытаясь уподобиться удачливым родичам, многие из которых явились миру позже — а уже застолбили почетное место в эмпиреях "точного" и "строгого" знания... Но если математика (она же физика и астрономия), вслед за торговлей и правом, начиналась с установления (постулирования) формальных (общеобязательных) предписаний, на основе чего можно выдвигать гипотезы о правильности и неправильности, — вульгарная математизация прочих наук довольствуется поношенными одежонками математической статистики, из которых сама эта наука давно и безвозвратно выросла. Подлинно научная теория — это технология порождения гипотез: теоретик лишь предполагает, что могло бы наблюдаться, если все необходимые для этого условия соблюдены; человек порядочный не станет выдавать абстракции за непреложность. Гипотезы надо проверять на практике; когда что-то не клеится, тут зачастую не теория виновата, а всего лишь наше неумение разглядеть границы ее предмета. Если я от всех болезней глотаю одни и те же таблетки — настанет день, когда панацея не сработает, и надо быстренько ваять другую схему — или молча откинуть копыта.

Статистика — это внешний вид, один из способов группировки данных в надежде усмотреть нечто более фундаментальное, чем и оправдывалась бы наша привычка группировать факты именно так. Поскольку различных статистик не меньше, чем исходных данных, — всяк волен воображать себе что-то свое; пока это не выдают за науку — любая игра допустима и полезна. Когда общество устроено таким образом, что одним приходится заботиться о впечатлении, производимом на других, статистика утрачивает собственно научные достоинства и становится средством манипуляции. Это ее беда, а не вина. Заметим, что академическая наука, воплощенная в иерархии учреждений, правовых актах и ходячих предрассудках, — лишь косвенным образом имеет отношение к науке как уровню аналитической рефлексии, к научному творчеству: официальная научность паразитирует на творческих личностях, околонаучные бюрократы эксплуатируют подлинных ученых (даже если то и другое парадоксальным образом совмещается в одном физическом лице).

Как могла бы выглядеть лингвистическая математика? Вместо разглядывания пестрой цифири (от простого усреднения до многомерных OLAP-кубов) и рисования красивых картинок для бизнес-отчета — один простой закон, связывающий реально измеримые величины, осмысленные (то есть практически реализуемые) количественные характеристики. Из этого закона мы выводим любую статистику — а вовсе не наоборот. Есть в современной лингвистике вещи, которые мы не просто умеем оцифровать, а еще и построить лингвистическое явление с указанными параметрами? И да, и нет. Например, когда изучение грамматики приводит к нормализации грамматических форм, — это пример практического построения теоретически предсказанных структур. Если теория достаточно грамотна, такая нормализация приживается, идет в массы — и порождает множество вторичных явлений, которые вполне укладываются в рамки той же теории. Напротив, попытки навязать народу чуждые ему языковые привычки лишь косвенно меняют язык, путем перерастания широкого сопротивления в собственную противоположность. Однако до сих пор, насколько мне известно, лингвистические теории оперируют лишь качественными различиями — и только так сопоставляют одни языковые явления с другими. Разумеется, качества без количества не бывает, и где-то в глубине возможность тонких градаций остается — но без ощутимого выхода на уровень собственно измерения, практически значимых численных оценок. А нет измерения — нет и статистики, или (что то же самое) любая статистика права. Действительно, когда мы отмеряем кусок холста, взвешиваем авоську с картошкой или определяем число дней в году — это практически значимые действия, от которых многое в нашей жизни зависит. Измерение массы какого-нибудь гиперона и оценка расстояний до галактик — продолжение того же осмысленного действия в область, непосредственному измерению недоступную, но (предположительно) качественно однородную с тысячами бытовых мер. Если же мы опубликуем в ученой книжке частотности фонем, слов или грамматических конструкций в каких-то говорах — ну и что? Пусть даже каждый в этом плане индивидуален — важна нам на хоть какой-нибудь практике подобная мера? Разве только по очень большому счету, как эмпирическая основа узнаваемости диалектов. Но и здесь важнее броские качественные различия, характерные интонации, воспроизвести которые мы можем без всякой цифири. Откуда берутся такие шкалы — обсудим чуть позже.

Важно понять: качественная наука ничем не хуже вычислительной. Более того, вовсе не обязательно явно формулировать знания — во многих случаях достаточно просто знать. Можно в тончайших деталях расписать динамику какого-нибудь танцевального элемента, — но хороший танцор воспроизводит движение, даже не зная названия, и не вникая в тонкости физики или физиологии. Знание — свет, но слишком много света — верный путь к слепоте. А статистика, с ее необозримой цифирью, — один из популярнейших методов самоослепления.

В сущности, интуиция и опыт — одна из форм бытования той же статистики. Вместо закорючек на бумаге — память, "зарубки на носу", индивидуальные и неповторимые последовательности возбуждения нейронных ансамблей. Чем это принципиально отличается от записи тех же чисел в компьютерной памяти? Отсюда иллюзия, что можно наделить машину человеческой ментальностью, запихивая в нее все без разбору и позволяя переваривать это на ее усмотрение в некоем технологическом реакторе. Результат мы возвышенно именуем "искусственным интеллектом" и готовы доверять ему больше чем себе — хотя прекрасно знаем, что программисты ошибаются ничуть не реже неискушенных чайников.

Вывод: научность не в способе представления знаний, а в том, что их делает знаниями, — в отличие от случайных мнений и формалистической игры. А эта движущая и определяющая сила никак не может принадлежать самому движимому и определяемому: ее стихия — иерархия материальной и духовной культуры, и прежде всего — способ производства. Только поместив себя в надлежащий культурный контекст, можно надеяться перерасти детские увлечения ради всеобщих (культурно обусловленных) результатов. В частности, одну и ту же науку возможно преподносить и как нагромождение формалистических условностей — и в виде (якобы) легкого трепа по поводу. Чем я здесь беззастенчиво пользуюсь.

Перейдем к иллюстрациям.

По "ученой" лингвистике бродит немало вульгарных предрассудков. Текстология не исключение. Вроде бы вменяемые люди на полном серьезе заявляют, и пытаются убедить публику в том, что художественное произведение можно достоверно датировать на основе формальных подсчетов — да еще и автора вычислить, в качестве бонуса. Неважно, идет ли речь о художественной литературе, философском трактате, музыкальном произведении, картине — или каком-то ином "тексте". Когда на ту же тему рассуждают филологи, споря и сомневаясь по каждой мелочи, — это, конечно же, за рамками солидной науки... Как тут удержаться и не поддеть "недоученых" очередным анекдотом про ловкого мошенника, умудрившегося втереть очки сотне признанных "экспертов" — но эффектно разоблаченного каким-нибудь аспирантом с калькулятором!

С одной стороны, досадные ляпы маститых филологов — достоверный факт. Чего стоит хотя бы присуждение двух гонкуров еврею российского происхождения! Но как не вспомнить одного из далеких от науки литераторов:

Факты — хлеб клеветника. Без них клевета не выглядела бы так убедительно.

Устранение конкурента вовремя выложенным компроматом — в традициях буржуазного политиканства, и очень к лицу "количественной" науке, в которой факты еще и статистически орнаментированы, систематизированы, — в духе раскладки музейных экспонатов, альбомов филателиста, или библиотечных рубрикаторов. Но (см. выше) если выводы теории оказались сомнительны, это может быть ошибкой интерпретации, и никак не умаляет достоинств теории. Тут во всей красе выступает склонность "строгого" знания всех мерить на свой аршин, лезть со своим уставом в чужой монастырь и мычать совершенно не существу. Оставляя в стороне точность математически ряженой лингвистики и достоверность ее текстологических выводов, заметим, что филология несколько отличается от криминалистики, и в ее задачи вовсе не входит выведение кого бы то ни было на чистую воду. Речь идет о характерных особенностях стиля — а таковые равно присущи и подлинному творчеству, и подделке, и компьютерной компиляции. В этом смысле текстология с филологическим уклоном гораздо последовательнее формальной лингвистики: она исходит из текста как данности, из самого факта существования и целостности; важно понять, на что это похоже, — а не докапываться до пикантностей биографии. Разумеется, честный исследователь привлечет все доступные сведения об источнике. Чем больше зацепок, тем лучше. Однако бытовые реалии служат здесь чем-то вроде архетипов, дают систему опорных точек при характеристике реальности иного уровня, литературного явления. Получается, что именно филология дает лингвистике точки опоры, базовый набор категорий, под который (сознательно или нет) подгоняют всевозможную статистику. И в этом плане "расплывчатые" качественные оценки бывают точнее академической "нумерологии": они позволяют обнаружить градации там, где статистическая обработка валит все в одну кучу. Если по жизни нам важно именно качество — точнее та наука, которая говорит об этом качестве, а не о теоретически возможных вариациях.

Еще раз вспомним: наука сама по себе ничего не утверждает и ничего не доказывает. Сколь угодно развитая текстология — лишь предоставляет интересующимся набор формальных характеристик текста, своего рода профиль (структурный или статистический). Что с этим делать дальше — вопрос политики. Выводы на основе статистики могут быть правильны — но могут и не быть. Логика науки не заменяет собой науку.

Например, можно сравнивать наши обобщения с какими-то другими профилями и оценивать степень родства. Полученная таким образом математическая оценка, в свою очередь, подлежит интерпретации — например, методом сравнения с другими техниками оценивания. И так далее. Громкие слова о подлинности или подделке — там, где наука закончена, и пора с нее наваривать дивиденды.

Формалистическая лингвистика целиком вырастает из бредового предположения: есть некий стандарт языка, которого придерживаются все носители, а неносителя легко выявить по нарушениям стандарта. Даже признавая очевидный факт историчности всех на свете языков (включая искусственные), лингвист держится за соломинку локальной устойчивости, когда одна эпоха отличается от другой характерными (читай: количественными) особенностями языка. Ничего дурного в подобном подходе, конечно же, нет — если не выдавать приблизительность и условность за глас единственной истины. Чтобы изучить нечто качественно определенное, ученому надо временно абстрагироваться от прочих качеств, выделить эффект "в чистом виде". Иногда это в какой-то мере удается сделать на практике — но случается, что опереться, кроме мысленного эксперимента, в общем-то и не на что. Вот тут и приходится идти на поклон к статистике, выдирать кусочки целого из тысяч индивидуальных воплощений.

Когда пора задуматься о практических действиях, одной науки недостаточно. Надо подумать о специфике времени и места, вспомнить о географии, истории, физике и археологии, материаловедении или ботанике. Как часть истории — история науки, и литературоведение — где именно филологи правят бал. Только всем сообща открывается всеобщее содержание единичного текста; а спесь "математизированного" лингвиста — профессиональный кретинизм.

Реальный текст — единство самых разных тенденций, в нем и пережитки прошлого, и зачатки будущего... Сколько-нибудь устойчивые, ярко выраженные сочетания воспринимаются как стиль, индивидуальные особенности или диалектизмы. Но есть и смешение стилей как намеренный прием, и вынужденная стилизация под господствующую доктрину... Никакая статистика не передаст всей драматичности индивидуального, исторически конкретного творчества. В этом смысле любой выдранный из жизни текст — статистически недостоверен. Сколь угодно объемистый — не говоря уже о разрозненных фрагментах. Формальные результаты существенно зависят от неформальных установок, от выбора уровня анализа.

Возьмем хотя бы относительно свежую моду — увлечение теорией информации. Разговоров среди гуманитариев много. А что? Звучит красиво, загадочно; а поскольку никто не знает, что это такое, велик соблазн пристроить флигель к величественному зданию формальной текстологии и затыкать неизвестно чем оставшиеся от прочей математики дыры. Пресловутая формула Шеннона

связывает количество информации с частотностями ("вероятностями") элементов целого, и тем самым (хотя бы терминологически) возвращает нас к уже привычной статистике. С другой стороны, здесь налицо выход за рамки сугубо статистического описания — что, казалось бы, выводит нашу формалистику на качественно иной уровень. Даже с точки зрения математики — есть над чем задуматься. Например, количество информации, с точностью до коэффициента (величина которого определяется выбором единицы измерения), можно переписать в виде

А что такое вероятность в вероятностной степени — загадка природы. Тут возможен веер интерпретаций, каждая из которых порождает особую математическую теорию. Поскольку частотности естественно связываются в комбинаторике с количеством вариантов (при равенстве возможностей, вероятность p ~ 1/n), можно заметить, что со школы знакомая асимптотика nn для факториала (количества способов перебора) в каком-то смысле обратна "информационной" асимптотике (1/n)1/n  — как корень степени n противоположен возведению в степень n. На ум тут же приходят внутренние ("спинорные") размерности квантовых систем, и прочие забавные метафоры.

Количество информации — величина особого рода, непохожая на обычные, "физические" величины. Когда говорят о передаче информации — это поэтическая вольность. На самом деле информация ниоткуда никуда не предается! Мы можем оценить количество информации в сигнале — но это вовсе не означает, что в источнике сигнала информации убыло на это количество, а в приемнике настолько же прибавилось. Более того, передача сигнала может привести к возрастанию энтропии получателя — то есть, формально, к уменьшению его информативности. В этом контексте попытки некоторых (мистически настроенных) физиков связать количество информации с энергией выглядят, мягко выражаясь, странно. Скорее можно заподозрить, что информация не свойство объекта как такового, а характеристика нашего (или чьего-то еще) отношения к объекту. В квантовой механике подобная интерпретация оказалась излишней, когда поняли, что "коллапс" волновой функции в момент наблюдения — всего лишь логическая неувязка, попытка подменить один уровень описания другим. Поскольку же идея вероятности предполагает сопоставление разных уровней иерархии (элементарные события vs. аггрегаторы), вторжение "наблюдателя" в картину наблюдений оказывается естественным, отвечающим самой природе вещей.

Но это всего лишь заметки на полях. А здесь мы присматриваемся к идее о возможности информационной оценки произведений искусства или их частей с целью построения еще и информационного профиля (в дополнение к статистическому), что, предположительно, может существенно улучшить точность текстологической оценки.

Даже если мы не знаем толком, что мы измеряем, подставляя статистику в формулу Шеннона, развлекаться подобным образом никто нам не запретит: пока нет настоящей, динамической теории, одна числовая характеристика не хуже другой. Если игра с числами вдруг выявит устойчивые закономерности, это прекрасный повод заняться поиском стоящей за этим фундаментальности — или собственной способности привнести в мир еще один артефакт.

Вот и давайте, в качестве мысленного эксперимента, оценим доставшийся нам от кого-то "поэтический" текст:

Кошка съела бутерброд —
ей теперь не нужен кот.

Поскольку мы не отвлекаемся на ненаучные мнения филологов, и тем более литературоведов, смыл, содержание и художественность нас волновать не должны: любой акт коммуникации связан с определенным количеством информации, носителем которой выступает энное количество языковых единиц, взятых в некоторой пропорции и расположенных определенным образом. От порядка пока абстрагируемся; в отдельно взятом тексте этот аспект вообще излишество, ибо только после отнесения текста к одной из известных категорий возможно серьезно обсуждать специфику употребления тех или иных конструкций. Однако даже в простейшем случае, чтобы применить формулу Шеннона, требуется определиться с тем, что мы считаем элементами текста, — а иначе как считать их частотности? И тут вылезает неудобный факт: при каждом способе расчленения текста на элементы количество информации оказывается своим, варьирует в широких пределах:

1. В компьютерной памяти текст представляется последовательностью нулей и единиц — например, в кодировке Windows, кодовая страница 1251, — и можно оценить соответствующее этой последовательности количество информации в 3.3 бит.

2. Можно посмотреть на шестнадцатеричное представление той же последовательности, группируя нули и единицы по четыре; в этом случае формула для количества информации содержит шестнадцать слагаемых и в итоге дает приблизительно 5.6 бит.

3. Если оценивать количество информации по частотности различных символов в тексте, включая для полноты пробелы знаки препинания, мы получаем величину около 14 бит.

4. Допустимо также считать минимальное единицей слово — и это, если абстрагироваться от частотности и сочетаемости слов в русском языке, приводит к очевидной оценке в 3 бита (или 3.17, если пожелаем учесть также разбивку на строки).

Уровни 1–4 можно назвать "низшими", или "внутренними" поскольку они рассматривают лишь собственные статистические характеристики текста. Человек в этом плане не отличается от машины. На "высших" уровнях для информационно-статистической оценки текста требуется знание контекста, и здесь мы тоже различаем очень разные трактовки одного и то же. Так, на уровне связи слов в языке можно говорить об осмысленности фразы — и здесь уже появляется идея семантической информации, непосредственного значения речи; в принципе возможно предложить и количественную оценку. Следующий уровень учитывает, в каких условиях текст передается от одного человека другому; при этом текст уже не расчленяется на отдельные элементы, а берется целиком. Например, в одном контексте это полная чепуха, в другом — условный сигнал (помните? — "Над всей Испанией безоблачное небо"; или: "В Сантьяго идет дождь"). Можно рассмотреть этот текст и на более высоком уровне, как явление культуры. Здесь у человека возникают многочисленные оценки по новизне, жанровой и культурологической принадлежности, по отношению с другими культурными явлениям, по отношению к искусству в целом, по степени бездарности или гениальности и т. д. Эти оценки также возможно связать с мерой информации, что, конечно же, никак не исчерпывает сути дела.

Заметим, что, при сохранении высших уровней, низшие могут в значительной степени варьироваться. Например, тот же текст можно записать в другой кодировке (скажем, КОИ-8). На уровне 1 (по случайному совпадению?) получается практически тот же результат (3.32 вместо 3.31); однако на уровне 2 мы имеем заметное различие: 10.7 против 5.6. С точки зрения уровня 3 не меняется ничего. На практике перекодирование может существенно влиять на высшие уровнях: если человек не знает кодировки КОИ-8, для него полученный текст окажется пустым набором символов, и семантическая информация будет утрачена. Разумеется, опытный адресат сумеет расшифровать такое сообщение. Но тут появляется еще одна степень свободы — и дополнительная информация об используемой кодировке. Возможны также кодировки с перестройкой иерархии — например, сжатие; в компьютерном деле различают методы сжатия с полным и неполным восстановлением — но по жизни полноту от неполноты иногда отличить практически невозможно. В "строгой" науке есть понятие оптимальной кодировки, и, казалось бы, можно сравнивать тексты, приводя код к оптимальному. Засада в том, что оптимальность связана с частотными характеристиками (распределением вероятностей элементов) — а логика не разрешает сравнивать тексты в разной кодировке.

Наш мысленный эксперимент показывает, что количество информации в любом случае зависит от уровня рассмотрения, причем полученные величины никак не коррелируют с уровнем "обобщенности", с размером предполагаемых элементов. Впрочем, закономерность отследить все же удается: чем абстрактнее кодировка, чем меньше она связана с содержанием текста, тем меньше числовая оценка. Двоичное кодирование и тупая нумерация слов — две крайности, равно "оптимизирующие" формальное представление текста, и мы получаем сходные количественные оценки (около тройки). Всякий алфавит — это уже некое внетекстовое действо, и количество информации в привязке в известному языку резко возрастает.

Адепты "вычислительной" лингвистики могут возразить, что для надежных оценок следует взять что-нибудь попредставительнее, что очень уж короткие фрагменты не годятся для статистического анализа, а малые объемы неизбежно приводят к разбросу различных оценок. Вот если взять длинный трактат — а еще лучше, корпус текстов... В нашем примере битовый уровень ближе к статистике: много нулей и единиц — устойчивые частотности. Однако на практике чаще всего приходится изучать именно осколки и обрывки; с другой стороны, кто будет оценивать степень представительности? На основании каких данных?

По большому счету, подобные выкладки не слишком полезны в искусствоведении (или языкознании). Теория информации возникла в связи с проблемами несовершенных средств связи, когда надо не потерять текст сообщения — но и не очень потратиться в процессе передачи. То есть, мы больше думаем о канале связи, чем о тексте. В лингвистике и филологии задача прямо противоположная: нам важно в тексте прежде всего то, что не связано с материальным носителем. Материальная культура влияет на способ кодирования — и надписи на черепаховых панцирях будут отличаться от наскальных надписей, а металлические сосуды требуют иного слога, нежели длинные папирусы или связки дощечек. Не говоря уже об отличии типографской книги от сетевого гипертекста. Но при изучении языка (и литературы) нас интересуют не сами материалы и технологии, и даже не связанные с ними культурные пласты, а отражение всего этого на строении языка, в идиоматике и стилистике. Так, древнеримская эпитафия на камне породила (в контексте соответствующих экономических отношений) своеобразную систему сокращений и условностей, которая не только обыгрывается в литературе, но и врезается в подсознание носителей языка как идиома, клише, способ говорить о жизни и смерти. Вот это и есть полезная информация, которую мы добываем путем непростых изысканий, привлекая самые разные методы в тесной кооперации — а не противопоставляя одно другому.

Не секрет, что само по себе слово не означает ровным счетом ничего. Это всего лишь звучание, элемент графики, кодовая последовательность — или еще какой-нибудь материальный процесс. Мы используем слова (и прочие материальные носители) для обозначения того, чего в словах нет, — а существует оно в некоторой особой сфере, как культурное явление, устойчивый способ воспроизводства человека как разумного существа. Даже если словами мы говорим о словах. Вот такое, встроенное в культуру нечто (любой природы: слово, знак препинания, жест, выразительный взгляд, вздох, — звезда или цветок, — или классовая борьба) и есть текст. Как встраиваем — о том он и будет говорить.

Одно и то же, по мере надобности, становится знаком разных культурных явлений. Разграничивать области словоупотребления — это и есть задача всякой науки.

Возьмем хотя бы ходячее словечко "информация". О чем это? Интуитивно ясно, что текст кому-то о чем-то говорит (пусть даже это и не единственный способ его бытования). Тогда говорят: получена информация. Вероятно, этот факт можно обозначить каким-то числом — "количеством информации". Очевидно, такое число — еще один текст, и он тоже кому-то о чем-то говорит. Пикантность ситуации в том, что каждому текст говорит о чем-то своем. То есть, несет информацию (или чушь?) не абсолютным образом — а весьма и весьма относительно. Соответственно, и количественные оценки "информативности" существенно зависят от целей и задач оценивания. Мы уже видели, как выбор масштаба (а он всегда и индивидуален, и культурно обусловлен) влияет даже на простейшую числовую меру. Что уж говорить о высших уровнях общения, где о комбинаторике и повторяемости речи совсем нет! Слить в канализацию слишком водянистый термин? Не будем спешить: есть риск вместе с водой выплеснуть и здоровую идею.

Слова (а тем более термины) возникают не случайно. Они отражают (или выражают) сложившееся явление культуры, практику. И если мы употребляем слово в контексте разных деятельностей, предполагается, что за этим стоит единство способа воспроизводства всех этих частностей, их внутреннее родство. Понять слово (текст) можно только собираясь нечто вполне конкретное совершить; однако понимание самой текстуальности — нечто иное, и тут надо сопоставлять варианты, задействовать (не всегда формализованный) исторический опыт.

С другой стороны, сама возможность обозначить культурное явление словом (или иным текстом) предполагает существование особой деятельности, мотивом которой становится воспроизводство именно этой культурной реальности. Спрашиваем: какая деятельность стоит за термином "информация"?

Тут уместно вспомнить об истоках теории. Возникла она в контексте передачи сигналов. Напрашивается мысль: информация — характеристика "сигнальности". И относится это понятие к любой деятельность в той мере, в которой предполагается обмен сигналами (чем, разумеется, никакая деятельность не исчерпывается). Можем мы трактовать текст как сигнал — флаг нам в руки, давайте подсчитывать количество информации.

Уместный вопрос: а что такое сигнал? Не попадаем ли мы опять в логический круг, пытаясь определить информацию через информирование? Конечно же попадаем! Поскольку всякий словарь — сплошная циркулярность, а реальные определения — не в словесах, а в живом действии. Но если обратиться к представлениям о происхождению языка из практики обмена деятельностями в первобытном обществе, легко заметить, что элементарной ячейкой такого обмена служит особое действие (жест), с культурно закрепленным значением: я закончил работу, пора приступать тебе. Как передача эстафетной палочки. Вот она, материализация одного бита информации! Любой поступок становится сигналом, если речь идет о сохранении строения деятельности при замене одного субъекта другим. Потом все это развивается в метаморфозы иерархических структур, для сравнения которых одного числа уже недостаточно... Однако изначальная интерсубъектность никуда не денется; возможность использования статистических методов при анализе текстов — формальное выражение коллективности (и общекультурной значимости) человеческой деятельности.

Еще раз: всякий публичный акт становится сигналом (и несет информацию), если предполагается связывание технологических цепочек. Во всех иных отношениях то же деяние сигналом не является. Например, если дикий предок наелся и блаженно почесывает пузо — ничего информативного в этом нет, пока кто-нибудь не заметит и не интерпретирует этот текст в смысле дозволенности причаститься к остаткам пиршества. Пока мы занимаемся любовью просто так — это лишь разновидность аэробики; если же потом пойдут дети — факт передачи "генетической информации" налицо...

Прекрасно. Информирование как деятельность понять можем. Но как быть с сигналами живых существ, или в неодушевленной материи? Казалось бы, информативность налицо, — а деятельного субъекта на этих уровнях по определению нет. Ответ легко найти в истории науки: практически всегда ее исходные понятия антропоморфны, и слова, используемые для обозначения научных абстракций заимствованы из бытовой лексики; чтобы освободиться от чрезмерной иллюстративности и выработать терминологическое мышление потребовались века напряженной работы с участием лучших умов человечества. Потом к терминам привыкают; их происхождение из человеческой деятельности начисто забыто: о корнях таких физических терминов как "давление" или "поле" мы еще помним — но попробуйте реконструировать историю терминов "точка" или "вращение"! Потом на одну абстракцию накручивается другая, и словоупотребление становится совершенно условным. Популяризатор науки может говорить о спине элементарной частицы как о "внутреннем вращении" — но для физика важно лишь формальное сходство: частица ведет себя так, как если бы внутри что-то вращалось... Точно так же следует относиться и к якобы сигнальности происходящего в неживой природе и в органике: происходит нечто, внешне похожее на обмен информацией в деятельности людей — и можно для удобства назвать это тем же словом; однако метафоричность такого словоупотребления следует неизменно держать в уме. Потом, возможно, найдутся более подходящие термины (вроде той же энтропии — не как "негинформации", а самой по себе). Или мы привыкнем к тому, что одни и те же слова обозначают разное в разных контекстах. А пока — некоторым ушлым господам удается замазывать различия, подменять науку идеологически ангажированной софистикой и причесывать ее под богословие (или уголовный кодекс).

Как только мы связали информативность с сохранением чего-то в деятельности, возможно определить и количество информации как меру изменчивости структур в рамках целого. В силу иерархичности деятельности, таких мер может быть много, и на каждом уровне иерархии они свои. Однако в любом тексте есть нечто инвариантное — и зоны возможных вариаций, не меняющих смысла, но способны существенно повлиять на восприятие (вплоть до полной утраты текстуальности). Например, в нашем тестовом опусе простая перестановка слов ("Съела кошка...") — может изменить смысл фразы, или ее тон, или окраску. С другой стороны, замена прописных букв на строчные в большинстве случаев меняет количество информации, но не меняет семантики (значений и смысла). Арабы и китайцы вообще не заморачиваются размерами; да и для русских это больше элемент дизайна, графическое украшение, а не языковая реальность. Насчет знаков пунктуации — тут бабушка надвое сказала: иногда оно без разницы — а где-то реально вопрос жизни и смерти ("казнить нельзя помиловать"); в художественной литературе (там, где это действительно искусство) знаки препинания передают характерные интонации, без чего авторский замысел начисто выветривается из текста.

Но самое интересное начинается там, где мы преодолеваем притяжение текста и выходим настоящий, очень большой мир. Оказывается, понимание информации как соответствия глобальной структуре деятельности — не пустой звук: чтобы текст стал сигналом, он обязан вписываться в определенный контекст. В другом контексте — это уже о чем-то другом. Причем не только по смыслу, но даже, бывает, и формально-грамматически. Например, в общеизвестном оригинале строчка

Души прекрасные порывы!

есть прямое дополнение, тогда как в изоляции это запросто можно понять как повеление и призыв. Иногда писатели (особенно поэты) намеренно задействуют встроенную в язык неоднозначность — от этого текст насыщенней, глубже и толще. Головная боль для переводчика. При переводе, как правило, приходится из многих возможностей прочтения выбирать одно. Если же в языке-цели нет ни одного похожего контекста — переводчику приходится не просто переносить нечто из одного места в другое (разновидность информирования, перекодировка) — но еще и строить с нуля аналог культуры оригинала; на компьютерном языке, это вроде исполнения программы на виртуальной машине. Если экзотика приживается в языке-цели, последующие переводы того же самого опираются уже на его собственные коннотации, и могут сильно отличаться от первых (кажущихся неуклюжими) попыток.

В теории искусства существуют модели, где такое развитие присутствует в явном виде. Например, формула Голицына-Авдеева

говорит о том, что информация зависит не только от частотности элементов текста (распределение f1), но и от того, на каком фоне мы будем текст воспринимать (распределение f0). При этом оказывается, что этот самый фон отнюдь не случаен, и не безграничный произвол: возможные "шкалы" (упорядоченные наборы представлений) складываются в каждом обществе исторически, и нет однозначного соответствия одного уклада другому — как нет и безусловной предпочтительности, — в каждом своя прелесть.


Начнем подводить итоги.

На примере информационной трактовки текста мы увидели, что количественный анализ сам по себе практически не интересен — а статистическая достоверность никаким боком не связана с достоверностью теоретических выводов. Для того, чтобы стали возможны количественные оценки, нужно определиться с качеством. То есть, по сути, заранее предположить то, что мы пытаемся количественно доказать.

Например, установление авторства по статистическому профилю текста заранее предполагает, что автор таки был. Но для большинства древних текстов это заведомо не так, да и современные тексты зачастую представляют собой не очень гладкие компиляции. Аналогично, датировать текст определенной эпохой можно только при условии, что сравниваются тексты одного культурного уровня, из одной местности, отдельно от процессов миграции. Сомневаюсь, что хоть один вычислительный лингвист всерьез задумывался над проблемой однородности выборки. Скорее наоборот, стараются намешать побольше различий, колоритов, — во имя абстрактно понимаемой объективности...

В живописи известны "индустриальные" технологии, когда один портрет рисовали разные люди, каждый специализировался на определенных деталях. Кто автор? Точно так же, были писательские "мануфактуры": эксплуатация литературных рабов — общеизвестный факт. Сегодня командными методами делают сценарии для фильмов (в результате чего сценарии становятся массовым продуктом, теряют индивидуальность, — а фильмы превращаются в бесконечные сериалы). Наконец, искусственный интеллект разрастается семимильным галопом, и скоро компьютеры не только смогут воспроизвести какую угодно стилистику, но и начнут диктовать людям правила игры.

В принципе, игра с числами — это не самое предосудительное занятие, и количественные модели имеют право на существование и собственную нишу в лингвистической науке. Однако посмотришь со стороны: как это убого! У всех все одинаково: научились парочке приемов — и лезем с ними куда надо и куда незачем. Главный порок — вульгарное подражание естественным наукам, которые, якобы, представляют собой лишь обобщение эмпирических закономерностей, формальное выражения фундаментальных свойства природы, заданных кем-то на все времена. Способность (и обязанность) разума творчески преобразовывать природу, направлять развитие мира, а не пассивно следовать ему, — это пока ересь. На практике оказывается, что такая "объективность" легко превращается в академический произвол — и наука скатывается в болото субъективизма. Маятник в другую сторону — и бывшие эмпирики вдохновляются идеями априорного знания, провозглашая свои теории мистической основой всякого бытия. Так устроен философский позитивизм: ему все равно, из чего и что построено, — лишь бы не задумываться, как там на самом деле.

В лингвистике позитивизм уперся в текст — и не знает, что с ним делать. Можно сводить язык к набору текстов — можно, наоборот, формально выводить тексты из априорных структур. Большой разницы нет. Сущность и явление — одно и то же.

Да, без текста языка нет — и текст невозможен вне языка. Именно поэтому, в частности, проект МФА изначально обречен на провал: он не видит рождения фонологии (и письменности как ее первичного осознания) из стихии языка — и потому не может ничего сказать о влиянии фонологической системы на языковые процессы. Но если на миг задуматься о месте текста в деятельности людей — естественным образом намечаются несколько взаимодополнительных направлений исследования, разные способы говорить об одном и том же. Текст как объект — это одно, текст как продукт — совсем другое; наконец, можно считать, что в тексте внешним образом зафиксированы фундаментальные черты субъекта деятельности. В первом случае мы вправе использовать традиционную методологию естественных наук, включая феноменологические модели и законы динамики. Рассматривая текст как продукт, мы должны понять его как часть всеобщего процесса воспроизводства культуры, его общественную необходимость. Здесь филология даст сто очков вперед любой "строгой" науке. Наконец, в субъективном плане, неизбежно придется рассматривать противоположные определенности текста, отвечающие его объектности и культурной обусловленности: с одной стороны, следует объяснить процесс восприятия текста, а с другой — процесс его порождения. И то, и другое отражается на форме текста, и предстоит понять, как наши количественные оценки и культурологические выводы соотносятся с внутренним строением субъекта. Но есть еще и то, что связывает противоположные стороны субъекта, опосредует перетекание одного в другое. Внешним образом это проявляется как акт коммуникации (в частности, передача информации); внутренняя связь восприятия и намерения есть мысль.

Понятно, что для всего можно придумать упрощенные количественные модели. Так, порождение текста пытаются иногда обсуждать в терминах стохастической динамики, обсуждают вероятности переходов (марковские процессы), ближний и дальний порядок, внутри субъектные и групповые корреляции, и т. д. Но точно так же, допустимо филологическое рассуждение о соотношении авторского стиля и нормативности, исследование тонкостей звукописи или игры слов... Восприятие текста, с одной стороны, определяется конкретными формами материализации разума на планете Земля и объективными возможностями выделения перцептивных шкал; но кроме этого есть история разных культур, классовые корни, личные обстоятельства. Вся эта сложность вместе взятая — и есть текст.

Но даже столь универсально понятый — текст не исчерпывает идеи языка. По сути, текстуальность есть разновидность пространственного описания — и должна быть дополнена столь же фундаментальной концепцией лингвистического времени. Приходит на ум модное словечко "дискурс"; интуитивно, дискурсивность противоположна единомомоментному бытию текста — и может стать хорошим кандидатом на роль лингвистического времени. При условии, что дискурс воспроизводит иерархию текста, вытекает из него и соотносится с ним.

Этимологически, слово "текст" восходит к производству тканей (ср.: текстура); это своего рода переплетение разных нитей. Тогда как "дискурс" — всего лишь публичное выступление (даже если в качестве публики — сам выступающий), рассуждение, следование вдоль одной из возможных нитей. Иногда дискурс становится нитью Ариадны — и позволяет выбраться из немыслимой сложности текста в целом; текст при этом обогащается новыми интерпретациями и толкованиями, иначе включается в культурный контекст. Бывает и наоборот: рассуждение обрастает оговорками и короллариями, приобретает иерархическую структурность — и превращается в текст. Различить процесс и его следы возможно только на одном из уровней иерархии, при определенном ее развертывании. Но сама противоположность языка как "вещи в себе" и языка как "словоблудия" (вещь для себя)— принципиально неустранима. Живой язык — преодоление крайностей, сведение их в одно и снятие противоречий. Мы не всегда умеем выйти за рамки профессиональной ограниченности и принять правоту оппонента как собственную правоту. Но, по крайней мере, уважать друг друга и ценить чужой труд — мы должны.


[Заметки о языке] [Унизм]