Корпус и анима
[Заметки о языке]

Корпус и анима

Может быть, в фантастическом будущем покажется странным, как наши современники выгрызают себе сколько-нибудь мирских благ (или хотя бы морального удовлетворения) сбывая что ни попадя, чем удалось по случаю разжиться за чужой счет. А где базар — там и реклама. Задурить мозги обывателю, прорезать на энную сумму богатенькое начальство... Классика русской поэзии, "Евгений Онегин". В советские времена рынок продолжал править бал — а уж после переворота поторговаться при случае сам бог велел. Скромники нынче не в цене. Ради звонкой монеты пиарщики от науки плодят звонкие сенсации, подбирают формулировочки из репертуара дурных блокбастеров, вместо высокой науки. Оно, конечно, можно понять: ученым тоже кормиться надо. Диссертации на соискание, заявки на гранты... Но иногда соискателей зашкаливает. Какую-нибудь никчемнейшую фигушку преподносят — ни много ни мало — как революцию в науке. Ну хорошо, пусть даже из этой вещицы проистекает какая-то польза — меру таки надо знать! Как говорится, хорошая вещь — в рекламе не нуждается.

На роль очередного переворачивателя науки претендует корпусная лингвистика. Дескать, без необозримости наших коллекций — вашим изысканиям грош цена. А тут за сносные деньги игрушка-погремушка: электронная, репрезентативная, полностью размеченная, прагматически ориентированная... Налетай, торопись!

Казалось бы, и вправду: ведя речь о языке, неплохо бы иметь под рукой удобный источник красноречивых примеров, на каждый житейский случай. Опять же, как в народе: ко всякому слову свое присловье. Но что мы имеем по факту? Закачали в одно место миллиард примеров словоупотребления — а найти один самый главный по-прежнему дело благосклонной судьбы. Ну да, компьютер умеет быстренько сосчитать, какой процент предложений сомнительного стиля содержит слова на букву "х". И нарисует змеистые графики, цветастые диаграммы... Зачем это? Могу я на основании вашего корпуса понять, из-за чего лишился премии или потерял любовь? Ах, не могу? Так в гробу я видал такую науку!

Настоящая наука не сводится к статистике; никакие, сколь угодно представительные и сбалансированные выборки не родят ни единого понятия, не подскажут внутреннего закона. Сначала надо хорошенько подумать — а уже потом подбирать к обнаженной мысли приличные платьица. И вовсе не обязательно, чтобы шкафы ломились. Живая душа в чем есть хороша.

Статистика пуста. Рыночная цена товара — ничего не говорит о полезности и качестве изготовления. На рынке фигурируют не вещи, а их абстрактные призраки. Точно так же, всякие там средние, корреляции, доверительные интервалы и регрессии — антураж, рекламный трюк. Суть науки в другом: ей надо вырабатывать универсальные приемы деятельности, которым всякий при желании может научиться — и других научить. Это и называется: знание. Нужны миллиарды примеров, чтобы освоить передовую агротехнику или технологию континуального интеграла? Вовсе нет. Достаточно пары-тройки типовых. Медитация над гипермассивом данных ничуть не эффективнее пристального внимания к одному-единственному выразительному факту. Более того, сенсорные излишества склонны отвлекать от главного — как изящная мелодия теряется в жутко виртуозных вариациях.

С другой стороны, а что, собственно, мы коллекционируем? На основании чего отделяем зерна от плевел? Для всякой коллекции нужен общий принцип. За которым стоят определенные представления об устройстве мира и наличном бытии того, что мы собираемся собирать. То есть, создание корпуса — результат, итог науки, а вовсе не ее начало. В каждом лингвистическом корпусе воплощены чьи-то взгляды на природу языка, и вовсе не факт, что другие с такой трактовкой согласятся. Кто-то коллекционирует чайники, кто-то самовары. Науке о самоварах нет большой пользы от науки о чайниках — даже если в чем-то они и пересекаются. И отличаем мы одно от другого вовсе не по статистике бытового использования.

В силу специфики предмета, одни и те же факты языка могут по-разному использоваться в разных разделах языкознания, и даже в одной области, где разные аспекты предмета требуют различных теоретических моделей. Кто угадает, чем заинтересуется ученое сообщество в следующий момент? А готовый корпус нормативен: авторы за всех уже решили, что следует считать существенным, а что нет, — на что обращать внимание. Там, где нужен свежий взгляд и поиск новых путей, разметка корпуса только мешает — встроенный механизм поиска заведомо предпочтет избитую колею. Но на то и наука, чтобы стремиться в неизведанное!

Получается, что гордость корпоростроителей, подробная разметка, — это наименее ценная часть продукта, без которой в большинстве случаев можно обойтись. Безусловно, субтитры облегчают поиск в мультимедийных коллекциях, а контурная графика повышает эффективность распознавания типовых образов. Но это еще не разметка, это просто перевод. Настоящая разметка предполагает интерпретацию, отнесение элемента текста к одной или нескольким категориям. А интерпретации, как известно, дело очень относительное. Даже, казалось бы, такая безобидная операция как отнесение к определенной части речи — может обернуться дурным произволом. Например, в тех языках, в которых вообще нет такого явления как "часть речи". Попробуйте парсить программы на Python, математические формулы, радиоэлектронные схемы или строительные чертежи! Да и естественные языки далеко не все дружат с европейскими представлениями о грамматике. Наконец, даже там, откуда вся эта частеречная идеология произросла, формальная категоризация запросто может дать петуха. Морфология — не аргумент. Например, предикативные обороты по сути играют роль глаголов — хотя могут быть выражены именной группой, да и вообще чем угодно. В предложении "Он, видать, совсем того" слово "видать" явно относится к наречиям, а слово "того" играет роль глагола, хотя морфологически на это ничто не указывает. Формальная разметка в таких ситуациях (а их в разговорной речи большинство) заведомо врет — а нам оно надо? Конечно, никто не мешает усложнять программы до бесконечности; однако пока мы этим занимаемся — язык придумает еще какую-нибудь выкрутасину, от которой наши суперпарсеры жестоко ступорит.

Еще тяжелее с оценкой коммуникативных функций или выразительных интонаций. Когда солидный дядя на полном серьезе начинает размечать фразы киногероев как нейтральные, радостные, озабоченные или иронические — сразу хочется такого деятеля нехорошо назвать. Несомненно, стилевые стандарты в каждом языке есть. Но существуют они лишь виртуально, в рамках определенной системы общественных связей — которая может возникать и распадаться по прихоти случая (хотя и опирается, по большому счету, на конкретно-исторические формы материального производства). Пока дружная команда в поте лица строит очередной ресурс, стилистика речи десять раз поменяется, и толку от их вдохновенного труда — ровный ноль. Об этом хорошо знают авторы словарей идиом: включение того или иного словечка часто сопряжено с трудными решениями по поводу его актуальности — и в любом словаре часть статей все равно окажется невпопад. А по жизни — интереснее всего говорят как раз те, кто свободно обращается со стилевыми шаблонами, запросто выдавая один за другой, в зависимости от индивидуальных намерений. Язык у них становится искусством.

Но мы тут, вроде бы, занимаемся не искусством, а наукой. Вот и давайте посмотрим, как тут обстоит дело с высокими научными стандартами.

Понятно, что вручную размечать мегатонны сырых текстов никто не отважится. Процесс поручают умной автоматике или искусственному интеллекту. Возникает парадокс: чем умнее автоматы, тем меньше им нужны люди. Соответственно, чем лучше программа разметки, тем дальше она от человеческих нужд. Допустим, что мы как-то уговорили программу послужить на благо общества и согласились принять ее выводы как нечто разумное. Не секрет, что в любой, даже самой совершенной программе (включая наши мозги), имеются ошибки. Но, положа руку на сердце, проверяет кто-нибудь машинную разметку на предмет глюкавости? Вряд ли. Это опять вернуло бы нас к нудному ручному труду. Ну, ткнуть в пару записей наугад, мы, конечно, не поленились — и если там что-то не так, поправили. А кто поручится за остальные миллиарды? Научная ценность такой разметки стремится к нулю. Как признают сами же поборники прогресса, методы автоматического парсинга все еще далеки от совершенства. И годятся полученные таким способом словари разве что для рекламы, когда выйдет смешно: "отвоюйте себе возможность совершенно зреть!"

Заметим, что программы начинает лихорадить в двусмысленных, противоречивых или сомнительных ситуациях — то есть, там, где только и можно вляпаться в научное открытие. Вот и получается, что научному творчеству грандиозные сооружения корпусной лингвистики — как мертвому припарка. Многознание не научает уму.

Зато на денежные мешки длинные числа действуют просто завораживающе. Это у них природное, от привычки отмерять нулями капитал. Если добавить эффектные демонстрации, в стилистике биржевых трендов, кому-то сразу захочется куда-то вложиться.

Соискатели чего угодно давно уже выработали корпус специфически рекламных приемов, и язык просителя денег вполне может стать предметом особой лингвистической науки. Для привлечения инвесторов все сгодится: и высокопарная лексика, и деловой напор, и политические амбиции... Но жаждущих всегда больше, чем дающих, — и приходится прикидываться вожаком стаи, первым верблюдом каравана. Демонстрировать научную революционность.

Но так ли уж нова идея корпусной лингвистики? Вспомним хотя бы о великом корпусе астрономических наблюдений, который складывался сотни, и даже тысячи лет. Не просто коллекция чисел — а еще и особая "разметка", позволяющая пересчитывать старые данные по мере уточнения опорных точек и унификации стандартов. Когда не было компьютеров — использовали подручные средства и хранили в бумаге. Сейчас все оцифровано — да так, как лингвистическим базам и не снилось. Разумеется, подводные камни все те же: неправильная интерпретация может завести не туда. Но здесь уже есть опыт преодоления системных ошибок, а корпусная лингвистика еще слишком молода, она грешит, не думая о расплате.

Есть и другие примеры старинных "корпусов". Например, на этом стоит биологическая таксономия. Любой гербарий, собрание чучел и скелетов — чем не специализированный корпус? А в биологии на каждую таксономическую единицу навешено огромное количество разметки: анатомия и физиология, ареалы и биоценозы, этология и геном... Причем по честному, руками, а компьютерные штучки — только часть инструментария. Возможно, кому-то потребуется наводить статистику по встречаемости признаков у разных видов — на здоровье. Наука это допускает — но этим не ограничивается.

Точно так же в истории есть корпус материальных следов и документальных свидетельств, и есть особая наука — источниковедение — чтобы не абсолютизировать ценность единичной интерпретации. История давно уже осознала относительность понятия "документ", и серьезный исследователь не станет делать выводы на основании чего-то, что вполне может оказаться заблуждением или политической игрой. Здесь как нигде важен "корпусной" характер данных, с учетом привходящих обстоятельств и различий в идеологии.

В теории и практике юриспруденции кодификация восходит, как минимум, к таблицам Хаммурапи. Национальные своды законов — специализированные корпуса, уходящие корнями в далекое прошлое. Сегодня и сюда вторгаются компьютеры, и нынешний юрист или бухгалтер не мыслит себя без регулярно обновляемых электронных справочных систем. Здесь интересный пример, когда развитие корпуса оперативно следует за развитием предмета — лингвистике еще расти и расти.

Про всякие справочники, энциклопедии, обзоры и т. д. — и говорить нечего. Обратимся хотя бы к столь презираемой лингвистами филологии. Тысячи лет живет практика компиляций комментированных текстов на заданную тему. В средние века это вообще был чуть ли не основной литературный жанр. К этому сводится вся теология — и в ее составе особые "науки", вроде патристики. Составление всяческих хрестоматий — исконно филологическая дисциплина, из которой, по большому счету, и выросли современные лингвистические корпуса — как бы ни открещивались они от своих корней.

Наконец, есть музейное дело и наука библиографии. Библиотеки существовали задолго до корпусной лингвистики, а любая библиотека (музей) — материализация корпуса культурных достижений в самом широком смысле; нынешние мультимедийные собрания — лишь имитация этой почтенной деятельности, и ее часть. В библиотеке единицы хранения тщательно и систематически разнесены по рубриками, снабжены специальными кодами, расставлены по полкам в продуманном порядке. Сегодня к этому широко привлекаются компьютерные системы. Над поддержанием и развитием этого корпуса работают многочисленные институты (например, в советское время всякая публикация в обязательном порядке проходила через ВИНИТИ). Издревле публиковались библиографические справочники по самые разные темы.

Любая наука (и не только наука) порождает корпус специальных знаний. И существует все это не только (и не столько) в текстовом виде, а еще и в особой организации соответствующей отрасли и способах ее взаимодействия с культурой в целом. Картины Хогарта или Малевича, музыка Альбинони или Шнитке — все это можно оцифровать, закачать в компьютер... Но помимо таких репродукций останется нечто, непередаваемое никаким текстом, требующее индивидуального творчества в каждом акте общения. Человеку мало неодушевленных тел. Он одушевляет тела, даруя им частицу своей души. Когда-то это умение называли богом...

Спустимся еще раз на землю. Когда апологеты корпусной лингвистики революционно предлагают нам вместо живой действительности изучать сконструированных ими роботов — это продолжение старой философской традиции, отделяющей плоды рук (и умов) человеческих от неподвластной пока человеческому контролю природы и объявляющей эти вторичные вещи единственно постижимой реальностью. Другая сторона того же самого — отказ от теории, от осознания того, что стоит за корпусом наших наблюдений. Да, в этот свод "фактов" встроена какая-то теория — но она, вроде как, не относится к делу; буржуазная статистика прикидывается нейтральной, буржуазная математика якобы стоит над земными страстями, вне добра и зла. Дали вам кучу слегка подкрашенных текстов, насыпали песка — и ковыряйтесь в этой песочнице, лепите куличи — и не надо грустных мыслей. Идея, прямо скажем, не самая безобидная.

Лихо объявляя современную лингвистику сплошь корпусной, корпорация собирателей подсовывает публике пошленький эталон сугубо наблюдательной науки, единственная цель которой — обобщение (читай: статистическая обработка) сырых данных с целью выявления в них каких-то закономерностей (читай: статистических трендов). Получается, что революция в лингвистике сводится к утверждению ползучей эмпирии — и это шаг назад по сравнению со старой, пусть умозрительной, но все-таки теоретической лингвистикой. По большому счету, человеку предлагают отказаться от роли преобразователя природы, ограничиться животным приспособлением. Или, что то же самое, поселиться в клетке с кондиционером, и переправлять остатки нормализованной пищи в нормальный унитаз.

Бурное развитие информационных технологий порождает иллюзию всемогущества и подпитывает соблазн вседозволенности. В какой-то мере это важно для освобождения от цепей рыночной экономики. Но в рефлексии природные отношения часто предстают в перевернутом виде, и надо немало потрудиться, чтобы научиться корректировать наивное восприятие. Первые базы данных (и первые веб-сайты) были незамысловато-прямолинейны, просто склад всякой всячины, с минимальными подсказками для любителей бродить по цифровому миру в поисках новых впечатлений. С увеличением объемов пришлось пересмотреть способы организации и представления данных; случайные блуждания уступили место целенаправленному поиску — тут-то и вклинились между пользователем и миром всевозможные посредники, способные не только помочь — но и заботливо направить... Разработчики компьютерных систем гордо заявляют о переходе от обработки данных (data processing) к управлению знаниями (knowledge management). Как водится, зерно упало на благодатную почву: кому-то очень хочется управлять чужими знаниями, и за это они готовы хорошенько заплатить. Впрочем, и сами искатели мало-помалу прониклись рекламными фантазиями и приписали своим программами способность порождать новые знания, открывать глаза изумленному человечеству... Идеология тупого эмпиризма плодит тупых невежд.

На самом же деле, как бы ни крутились шарики в компьютере, никаких новых знаний из этого никогда не произрастет. По той простой причине, что знание — это не текст, и не метод его обработки; знание — это общественное отношение. Способ организации культуры. Станут роботы полноправными членами общества — милости просим, делитесь с остальными своими догадками и находками. До того — результаты компьютерной самодеятельности останутся лишь исходным материалом, в лучшем случае полуфабрикатами, пока человек их не заметит и не пристроит к общественно полезному делу. Машина ничего не "знает" — знают люди. И хранятся во всевозможных компьютерных "корпусах" не знания, а лишь указатели на знание, ярлыки, обозначения того, что лежит вне информатики как таковой. То есть, по сути, все тот же текст. Как его люди используют, и используют ли вообще, — компьютеру дела нет. Другими словами, разметка не выводит нас за рамки традиционных представлений о самих себе, это лишь один из уровней языка вообще, искусственный язык — который может изучать лингвистическая наука, но изучение которого никак не отменяет необходимости заниматься всем остальным. С тем же успехом можно говорить о языке математики, языке балета или языке больного шизофренией.

Вероятно, исследовать способы порождения одних структур другими в больших базах данных нужно и важно для решения главной задачи человечества — порождения новых форм разума. На этом пути мы вложим в компьютерные тела не только душу, но и дух. Только, вот, к науке о языке это не относится.


[Заметки о языке] [Унизм]