М.А. ПРОБСТ Исследование неизвестных текстов


М.А. Пробст

ИССЛЕДОВАНИЕ НЕИЗВЕСТНЫХ ТЕКСТОВ

(Забытые системы письма. - М., 1982. - С. 11-22)


Одним из важнейших вопросов развития средств информации на современном этапечеловеческой культуры является проблема автоматизации преобразования информации,сжатия информации, извлечения из текста заданной информации. Это особенно важносейчас, когда поток информации буквально захлестывает человечество. Изучениеисторических систем письма можно рассматривать прежде всего как задачу извлеченияиз неизвестного нам текста информации о структуре самого текста, что являетсяосновой дешифровки исторических систем письма.
Имеется осмысленный текст, записанный на неизвестном языке. Нужно, исходяв первую очередь из самого текста, выяснить свойства неизвестного языка и ужезатем путем сопоставления с известными языками и привлечения с большой осторожностьювнетекстовой информации (археологических, исторических, филологических и иныхсведений) передать смысл неизвестного текста. Возможность исследовать текстформальными методами перерастает в необходимость, если мы хотим максимальнымобразом исключить субъективный анализ текста. Нас интересует именно этот аспектдешифровки, поскольку он допускает точную постановку задачи, хотя это толькоодна из подзадач при изучении неизвестных текстов.
Прежде чем перейти к уточнению задачи дешифровки исторических систем письма,сделаем два замечания.
Часто дешифровка исторических систем письма ассоциируется с дешифровкой секретныхшифров, что приводит к мысли о применении методов последней для исследованиянеизвестных письменных источников. От этого необходимо всячески предостеречь.Задачи, решаемые криптографией и дешифровкой исторических систем письма, почтипротивоположны, и методы первой могут весьма ограниченно применяться во второй.
Действительно, в криптографии предполагается, что исходный, незакодированныйтекст написан на известном языке, причем обычно либо этот язык хорошо известен,либо круг кандидатов на эту роль из числа хорошо известных языков весьма невелик.Последним обстоятельством объясняется успех американской разведки, которая дляпередачи секретных сообщений использовала редкий язык американских индейцев,мало кому известный, так что сообщения передавались без зашифровки.
Хотя язык текста и криптографии предполагается известным, зашифрованный текстможет быть весьма сложным образом связан с исходным текстом. Цель криптографиисостоит в восстановлении исходного текста по зашифрованному тексту, в которомвсякого рода статические распределения элементов текста могут очень сильно отличатьсяот соответствующих распределений элементов в исходном тексте.
В задачах криптографии известен язык исходного текста, но неизвестно преобразование,благодаря которому возник исследуемый текст. В задачах дешифровки историческихсистем письма неизвестен язык, на котором написан текст, но сам текст не подвергалсяспециальной обработке, имеющей целью затруднить чтение текста; текст записанв соответствии с нормами орфографии данного языка.
Из всего сказанного видно, что методы криптографии могут быть применены дляцелей исследования исторических систем письма весьма ограниченно. Они могутбыть рассмотрены лишь как набор статистических методик обработки текста. В дальнейшеммы не будем касаться вопросов криптографии, и поэтому употребление термина "дешифровка"будет иметь однозначный характер.
Так как при дешифровке объем статистической обработки текста весьма велик,то естественно возникает вопрос, можно ли применить вычислительную технику.
В конца 50-х годов специалисты в области дешифровки исторических систем письмастали придавать большое значение машинной обработке изучаемых текстов. В широкойпрессе появилось выражение "машинная дешифровка". В некоторых популярныхстатьях утверждалось даже, что вычислительная техника, получив неизвестный текст,может "выдать" его транскрипцию (например, латинскими буквами), азаодно и перевод.
Следует отметить, что широко разрекламированные возможности и надежность "машиннойдешифровки" исторических текстов сильно преувеличены. В настоящее времяне существует программ, на основе которых электронно-вычислительные машины (ЭВМ)могли бы устанавливать чтение знаков неизвестного текста, а тем более его переводить.
Тем не менее использование вычислительной техники при дешифровке неизвестныхтекстов имеет большой смысл, так как позволяет осуществить очень громоздкуюобработку, которая "вручную" заняла бы много времени. Разбивка нерасчлененноготекста на блоки, составление прямых и обратных словарей, выявление формальнойграмматики, безусловно, могут и должны (если позволяет размер текста) вестисьс помощью вычислительной техники.
Неизвестный текст вводится в вычислительную машину в цифровой транскрипции,которая составляется вручную. Ошибки, допущенные при составлении цифровой транскрипции,могут сильно исказить результаты машинной обработки и привести к ложным заключениям.Результаты, полученные при машинной обработке неизвестного текста, целиком зависятот программ, которые составляет не сама машина, а специалист-программист. Недостаткиили ошибки программы, естественно, отражаются в полученных данных. До настоящеговремени целью машинной обработки было получение исходных материалов для филологов.Разумеется, ошибки филолога, сделанные при лингвистической интерпретации машинныхматериалов, никоим образом не дают основания отвергать машинную обработку текстоввообще, если она правильно проведена.
В дешифровке, как и в других отраслях знаний, бытуют мифы об "озарениях",приведших к открытиям. Здесь и наитие Г. Гротефенда при дешифровке древнеперсидскихклинописных знаков, и озарение Б. Грозного при работе над хеттскими надписями,так же как история о яблоке Ньютона вкупе с ванной Архимеда. Но при этом забывают,что знаменитое восклицание "Эврика" означает "Нашел!", т.е. что Архимед искал и имел цель поиска. Ньютон, наверное, видел не раз, какпадают яблоки с яблони, и трудно предположить, чтобы открытию им законов тяготенияне предшествовала предварительная большая работа. Также трудно поверить в озарениеБ. Грозного и наитие Г. Гротефенда.
Отличие открытий с помощью "озарений", "наитий" от стандартныхоткрытий лишь в том, что в первом случае не был опубликован "алгоритм открытия"ни до, ни после него, а при стандартных открытиях так или иначе алгоритм хотьчастично публиковался - например, в виде сведения проблемы к серии подпроблем,допускавших более легкое решение, чем вся проблема.
Все это говорится лишь для одной цели: ждать "озарения" без разработкипрограммы нельзя - не будет озарения. "Озарение" может возникнутьлишь иногда при случайном переборе. Нужен общий план поиска, который может уточняться,изменяться в процессе решения, в процессе отбрасывания путей, не ведущих к решению.Кстати, всякое негативное решение задачи, т.е. указание тех случаев, где задачане может быть решена, имеет огромную ценность, так как тем самым сужается областьпоиска решения задачи. все эти рассуждения становятся особенно актуальными теперь,когда пытаются иногда фетишизировать вычислительную технику, а иногда, что почтито же, полностью отрицать разумность применения ее при решении проблем дешифровки.Все зависит от человеческого разума и его применения.
Используя средства вычислительной техники, нужно знать, для чего, для какойцели применяются машины и где и как будут использоваться данные машинной обработки.Делать "просто так", "когда-нибудь пригодится кое-что из"не только не экономично, но приводит к такому обилию материалов, что разобратьсяв них труднее, чем работать без них. Например, если исследуются звукосочетанияв тексте, то бессмысленно получать сведения о всех возможных звукосочетанияхпо три знака. Ведь даже при алфавите в 30 знаков количество тройных сочетанийбудет оцениваться тысячами (их 27 000, но не все могут быть реализованы в тексте).Из них могут быть нужны лишь звукосочетания с некоторыми знаками, звукосочетанияопределенной структуры и т. п.
Перед тем как выполнить некоторую работу с помощью средств вычислительнойтехники, нужно твердо знать, как будут использоваться полученные результаты,иначе они могут оказаться ненужными или даже могут затруднить работу исследователя.В этой связи вспоминается высказывание Б. Паскаля, который, сравнивая математикус жерновом на мельнице, заметил, что от того, как поставлен жернов, зависит,что получится - мука или труха.
Выше отмечалось, что одна из основных задач дешифровки текста состоит в выясненииструктуры текста, принципов его построения и построении формальной грамматикиязыка текста. Отсюда ясно, как велико значение дешифровки в общем цикле семиотическихпроблем, таких, как формализация перевода текста с одного языка на другой, формализацияпроцессов реферирования, сжатия текста и информационного поиска и т. п.
Под формальной грамматикой текста мы понимаем набор структурных элементов,выделенных в тексте, подобных знакам алфавита, морфемам, словоформам, и выведениезаконов взаимодействия внутри наборов и между наборами, правил преобразованийи построений.
При исследовании текста формальными методами можно получить формальное описаниеструктуры текста и формальную грамматику (насколько позволяют объем и характертекста), но нельзя установить смысл текста. Это можно сделать, привлекая материалыизвестных языков.
Прежде чем перейти к изложению общих принципов изучения неизвестных системписьма, нужно уточнить, что мы понимаем под терминами "знак текста"и "текст".
Первой задачей исследования лингвистического текста является составление каталогазнаков текста, выявление аллофонов и т. п. При этом возникает вопрос: что жесчитать знаком текста? Для того чтобы сформулировать формальное понятие "знактекста", выясним, что мы обычно вкладываем в это понятие. Интуитивно мыпредполагаем, что текст является последовательностью некоторых частей, причем"самые мелкие" части текста, из которых состоят другие конструкциитекста (морфемы, словоформы, предложения), и есть знаки текста. Но эти "мелкиечасти" текста еще достаточно велики, чтобы появляться в тексте самостоятельно,без постоянного сопутствующего набора других таких же частей текста.
Таким образом, знаком текста мы будем называть элемент такого разбиения всеготекста, при котором будут выполняться два условия:
а) каждый элемент разбиения текста имеет самостоятельное распределение в тексте,т. е. появление знака в тексте не может однозначно предсказать появление в текстесоседних с ним других знаков;
б) если разбить текст на более мелкие части, то последние не обладают самостоятельнымраспределением (иначе говоря, при фактическом самом мелком разбиении текстана части каждый элемент разбиения должен иметь самостоятельное распределениев тексте).
Очевидно, что судить о распределении частей текста в нем самом можно достаточнонадежно, если текст достаточно велик, т. е. если объем текста - общее числочастей, на которое разбился весь текст, - на порядок больше числа различныхчастей текста.
Мы все время говорили "знак текста", считая, что нельзя поставитьзнак тождества между понятиями "знак текста" и "знак системы".В системе, например, текстов, написанных на русском языке, мы под знаком понимаемзнаки русского алфавита. Но в небольшом тексте некоторые знаки могут встречатьсятолько в паре, и тогда за знак текста нужно принять именно пару, хотя каждыйиз знаков пары может являться знаком системы текстов, т. е. иметь в ней самостоятельноераспределение.
Данное выше определение знака текста как наиболее мелкой части текста, имеющейсамостоятельное распределение, представляется разумным по следующим соображениям.В неизвестном тексте из-за весьма небольших объемов не всегда легко проверитьсамостоятельность распределения частей текста. Поэтому лучше, если есть колебаниямежду более крупным и более мелким разбиениями текста, принять за знак элементболее крупного разбиения и проводить исследования текста, взяв за основу крупноеразбиение. Если же исследование покажет, что появление одного и того же знакав тексте может оцениваться по-разному, если учитывать части знака, и что введениев рассмотрение более мелких частей помогает в изучении текста, то мы можем дополнительноизучить распределение мелких частей и более крупных. Если же идти от более мелкогоразбиения к более крупному, то можно получить такое обилие данных, разобратьсяв котором затруднительно, и, кроме того, все то, что изучалось при более мелкомразбиении, может оказаться излишним в случае, если знаком окажется элемент болеекрупного разбиения текста.
Для лингвистических текстов характерно линейное построение текстов в отличие,например, от живописных или музыкальных. Наличие в тексте конструкции, структурыозначает, что между знаками или группами знаков текста имеются функциональныесоотношения, которые и определяют конструкцию текста. Для лингвистических текстовхарактерно, что большинство этих функциональных соотношений имеет локальныйхарактер, т. е. связи между элементами текста в большинстве случаев относятсяк "близким" по последовательности элементам (самим знакам или группамзнаков): элементы текста, связанные функциональными соотношениями, находятсяв большинстве случаев недалеко друг от друга в тексте.
Система, с которой связан текст, задает не только конструкцию, способы построениятекста, но и все виды, способы преобразования текста, или, как говорят, способыдопустимых преобразований текста, после которых получается снова текст в тойже системе.
Все ранее сказанное о тексте относится к тому, как он устроен, но не к егосмыслу. Конечно, нельзя считать, что между текстом и конструктивно-функциональнойструктурой того же текста нет связи. Но это не такая связь, с помощью которойможно, зная одно (конструкцию или смысл), найти другое (смысл или конструкцию).Это - соответствие между двумя системами, одна из которых определяет конструктивныеи функциональные свойства текстов, а другая - смысл и содержание заданных текстови взаимоотношения между содержанием различных текстов. Большинство простейшихморфологических преобразований слов и предложений мало меняют смысл преобразуемогообъекта. Например, такие преобразования, как изменение слова по падежам, родам,по лицам или по временам, и сходные переходы от одних форм слова к другим маломеняют содержание самого слова. аналогичным образом ведут себя и такие элементарныепреобразования предложения, как конверсия и изменение порядка следования, напримерсуществительного и согласованного определения к нему. Такое небольшое изменениесмысла отличает элементарные преобразования, но уже для композиции элементарныхпреобразований (сложных, составных преобразований) это нехарактерно. Но, по-видимому,нет преобразований в языке, которые хоть в самой малой степени не затрагивалибы, не изменяли смысла преобразуемого объекта.
Из всего этого следует, что хотя и есть определенная коррелятивная зависимостьмежду конструктивной и смысловой стороной текста, но нельзя по конструкции определитьполностью смысл текста, и наоборот.
Подводя итоги, можно сказать, что лингвистический текст есть некоторая линейнаяпоследовательность знаков, построенная по правилам определенной системы, причемтекст обладает смыслом, несводимым к правилам построения текста.
Задачи дешифровки касаются обоих аспектов, но исследование должно проводитьсяпо этапам: на первых этапах нужно выяснить как можно полнее структуру исследуемоготекста и построить, насколько возможно, формальную грамматику языка, на которомнаписан текст. Затем, используя и факты сравнительного языкознания, и дополнительныевнетекстовые данные, нужно конкретизировать грамматику неизвестного языка итолько затем переходить к изучению смысла текста.
Нам представляется, что такое разделение общей задачи изучения текста на этапывызывается не только наличием двух аспектов текста, но и другими причинами.
Данные внетекстового характера об исследуемом письменном памятнике в большинствеслучаев не обладают достаточной достоверностью. Для успешного изучения нужноиметь некоторые бесспорные данные о тексте, с помощью которых можно было быотбросить лишние, недостоверные сведения. Таким "решетом" для отсеиванияи одновременно каркасом для дальнейшего изучения может служить формальная грамматика.
В чисто методическом плане представляется весьма затруднительно составитьплан исследований по дешифровке, не отделив исследования по грамматике от исследованийпо выяснению содержания письменного памятника.
Необходимость общего плана изучения неизвестных текстов вызывается также иочевидной целесообразностью использовать средства вычислительной техники в силуобилия возникающих при этом задач типа перебора. Но, как уже говорилось ранее,использование средств вычислительное техники должно проводиться при заранееизвестном решении о том, как будут использованы полученные результаты. Ни вкоем случае нельзя допускать такую ситуацию, чтобы после машинной обработкитекстов получалось большое обилие данных, из которых трудно выделить важныеи нужные сведения.
Рассматривая вопрос об изучении текста как некоторую совокупность связанныхмежду собой задач, нужно учитывать, что возможность решения отдельных задачопределяется объемом и структурой исследуемого текста.
Например, возможности исследования знаменитого Фестского диска весьма ограниченны:в надписи на нем всего около 250 знаков, и ставить вопрос о построении формальнойграмматики и определении языка на основе этой надписи было бы прожектерством.
Исследование протоиндийских текстов, объем которых порядка 10 000 знаков,может быть проведено в весьма ограниченном объеме, так как основным объектомисследования являются тексты на печатях, содержащих в среднем пять-шесть знаков.Невозможно говорить о построении полной формальной грамматики языка протоиндийскихтекстов на основе таких коротких текстов.
Мы не случайно говорим лишь о формальной грамматике, а не о смысловой интерпретациии переводе неизвестного текста. Мы считаем, что сам текст может лишь дать возможностьвыделить различные классы единиц текста и ряд отношений между классами, частиречи и предложения, но без сравнения с другими языками нельзя перейти к выяснениюсмысла отдельных словоформ и всего текста.
Основным методом изучения неизвестных текстов мы считаем позиционную статистику.Обычно при дешифровке широко используются такие простые статистические методы,как составление частот знаков алфавита, частотные словари и т. п., т. е. такиеприемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте,не связывая частотные характеристики хотя бы и с простейшей структурой текста.Такого рода частотные характеристики могут лишь ответить на вопрос "чегобольше?", но по ним почти нельзя судить о зависимостях, соотношениях, имеющихсяв тексте между различными единицами текста.
Под позиционной статистикой текста мы понимаем такие частотные характеристики,которые связывают единицы текста с некоторой структурой текста, с положением,занимаемым этими единицами в тексте. Мы полагаем, что такого рода частотныехарактеристики позволяют выяснить закономерности, имеющиеся между различнымиэлементами текста.
Действительно, если для двух единиц текста известны данные позиционной статистики,т. е. определены позиция в тексте и известно распределение частот этих единицпо позициям в тексте, то можно выяснить, сравнивая распределения, находятсяли эти единицы в определенной позиции в тексте и вообще как появление однойединицы в определенной позиции в тексте предсказывает появление другой единицыв определенной позиции.
Примером позиционной статистики знаков текста может быть распределение частотзнаков текста в зависимости от положения - позиция знака внутри слова. На основетаких статистических данных можно выявить характерные позиции знака внутри слова(инициальная, медиальная, финальная) и наметить подходы для выявления морфологии.Если аналогичным образом исследовать морфемы внутри слова, то можно выявитьсочетаемость морфем между собой, функциональное соотношение между ними. Применениетакого же приема к исследованию слов внутри предложения может привести к выяснениюзакономерностей сочетания слов внутри предложения. Но что в таком случае считатьпозицией в тексте?
Под позицией в тексте мы понимаем любой способ, указывающий на место в тексте.Например, для знака в тексте позицией знака может быть порядковый номер знакаот начала или от конца текста, указание на порядковый номер слова и расстояниязнака внутри слова от концов слова и много других способов. Очевидно, что, чембольше система, определяющая позицию, связана со структурой текста, тем большесведений о тексте об определяющих его соотношениях мы можем получить на основепозиционной статистики. Поэтому ценность даных позиционной статистики в значительноймере зависит от того, насколько удачно выбрана система, определяющая позициюв тексте.
Основная задача состоит в выяснении законов построения текста, в выяснениисоотношений, определяющих текст. Как уже отмечалось ранее, мы рассматриваемтекст как некоторую совокупность единиц, связанных определенными соотношениями:это связи внутри слова между фонемами, морфемами, между словами в предложениии т. д. Причем для текста характерно, что эти связи действуют в большинствеслучаев "на небольшом расстоянии", для "близких по тексту"единиц текста (мы не исследуем, как связаны между собой, например, слова, находящиесяв далеких частях текста). Исходя из того, что мы рассматриваем текст как структурусвязей, действующих для близких элементов, мы и должны выявить в первую очередьэти "близкие" связи. Для каждого интересующего нас элемента текстасущественно знать, какие элементы находятся рядом или поблизости от него и каковоразнообразие окружений данного элемента в разных местах данного текста. Дляэтого нужно уметь определять позицию элемента в тексте. Отсюда становится ясным,почему мы считаем таким важным инструментом исследования неизвестных текстовпозиционную статистику.
Для многих недешифрованных текстов характерно, что они весьма небольших объемов.При таких объемах, особенно если мы сталкиваемся с алфавитом в несколько сотзнаков, очевидно, что статистика отдельных единиц становится совершенно ненадежнойи малодоказательной. Но в таких случаях сведения о совместном распределениизнаков, групп знаков становятся весьма важным показателем даже при низких частотах.Поэтому для текстов малых объемов позиционная статистика становится, по сутидела, единственным способом получения надежной информации о структуре текста.
Трудно надеяться, что для текстов малых объемов можно полностью решить каждуюзадачу, на которые распадается исследование текста (морфологический анализ,синтаксический анализ и т. п.). Для таких текстов мы должны решать задачу лишьдля надежных элементов и полученные сведения использовать для уточнения сведенийпредыдущих этапов. Исследование неизвестных текстов лишь малых объемов требуетдополнительных приемов, которые могут стать излишними для больших объемов.
Изучение текстов малых объемов приводит сразу к двум трудностям:
1. Всякого рода статистические сведения об изучаемом тексте являются для многихпоказателей весьма ненадежными, и в процессе исследования необходимо тщательноследить за постоянством "уровня" надежности.
2. Многие, если не сказать все, задачи, на которые распадается исследованиенеизвестных текстов, вряд ли можно решить полностью, для всех частей текста.Малые объемы текста позволяют лишь для некоторых единиц текста выделить нужныепоказатели, а именно лишь для тех, чьи характеристики по тексту мы можем считать"надежными в нужных пределах". Так обстоит дело при попытках датьчленение слов на морфемы: лишь для немногих слов удается дать морфемное деление,исходя лишь из текста и не используя данные о синтаксисе, о структурах парадигми другие сведения, которые можно получить также из текста путем дополнительногоисследования.
В силу сказанного выше, мы приходим к необходимости решения отдельных задачне изолированно друг от друга, а путем последовательных приближений. Решая конкретнуюзадачу, разумно выделить лишь те объемы, для которых сведения позиционной статистикиявляются достаточно надежными (нельзя говорить об абсолютном уровне надежности,так как в каждой задаче он может быть свой, и определять уровень нужно каждыйраз исходя из решаемой задачи), т. е. решать поставленную задачу только длятаких объемов, а полученные данные использовать для уточнения характера техобъектов, которые остались не определенными на предыдущих этапах. Для текстовмалых объемов приходится не последовательно решать одну задачу за другой, а,решив задачу лишь для надежных объектов, возвращаться назад, чтобы с помощьюполученных данных уточнить решение предыдущих задач и затем снова вернутьсяк данной задаче и т. д.
Такой итерационный подход дает возможность не смешивать надежные и ненадежныеданные и предохраняет от возможных ошибок. Мы считаем, что все время нужно идти"на поводу у текста" и на первых этапах исследования не использоватьникаких внетекстовых сведений, кроме самых общих лингвистических концепций освойствах человеческих языков. В дальнейшем появляется возможность взаимно корректироватьданные об изучаемом языке, полученные из текста и без обращения к тексту. Нельзязаранее считать более предпочтительной ту или иную интерпретацию и подгонятьпод нее исследование структуры текста, так как такая подгонка может увести слишкомдалеко от истины.
В различных методах исследования неизвестных текстов можно выделить несколькоразных направлений. Одни "идут на поводу" у текста, другие - на поводуу всякого рода побочной информации или вообще используют "интуитивный метод",в котором на самом деле под словом "интуиция" скрывается просто нечеткаяалгоритмическая постановка задачи. С другой стороны, появилось много работ сдостаточно точными алгоритмами для решения конкретных задач по дешифровке, чтово многих случаях вызвано использованием средств вычислительной техники. Нампредставляется, что методика дешифровки, предложенная Ю.В. Кнорозовым, являетсяодной из наиболее удобных для решения конкретных задач дешифровки историческихтекстов.
Таким образом, в начале исследования предполагается, что неизвестный текстзаписан на некотором, пока для нас неизвестном, но естественном языке, предназначендля обмена информацией и не подвергался специальным преобразованиям типа зашифровкис целью затруднить чтение этого текста. Предполагается, что в тексте существуетопределенная структура связей, причем для большинства случаев связи в текстепроявляются на небольшом расстоянии и близкие по тексту элементы находятся внекотором соотношении. Поэтому основной метод - позиционная статистика. Таккак исследуемые тексты часто бывают весьма небольших объемов, обычные статистическиеметоды оказываются малоэффективными. Отсюда основной прием при проведении исследований- итеративный способ поиска решений. В этом случае ищется решение задачи лишьдля наиболее достоверных элементов, затем полученное лишь для части интересующихслучаев решение используется в следующей подзадаче, и решение этой следующейподзадачи, хотя бы и частичное, используется для уточнения решений подзадачпредыдущих этапов. Такой способ важен еще и тем, что дает возможность получатьданные одного уровня надежности.
Перейдем теперь к описанию конкретных задач, определяемых различными этапамиисследования неизвестных текстов.
Одна из первых задач - разбиение непрерывного текста (написанного без пробелов)на отдельные блоки, соответствующие в основном словоформам. В проводимых работахиспользовался следующий прием. Выбиралась некоторая константа h, и рассматривалисьвсевозможные отрезки текста, содержащие h знаков. Каждому такому отрезкутекста сопоставлялось множество пересечений данного отрезка со всеми другимиотрезками текста. Каждое пересечение снабжалось адресом. составлялся каталогвсех пересечений в тексте, и выделялись наиболее частотные пересечения. Адресадавали возможность объединить два пересечения в одно, если они в тексте находилисьрядом. Такой метод позволял выделить в тексте устойчивые знакосочетания, обладающиепеременными знаками при сохранении общей структуры знакосочетания. Отсюда появляласьвозможность исследования не только структуры словоформы, но и синтаксическойструктуры текста.
Следующая задача - анализ морфологии слова. В эту задачу входят разбиениекаждого блока на отдельные части и классификация их с целью выделения постоянныхи переменных частей, соответствующих корневым и служебным морфемам.
Важной и необходимой задачей, сходной с предыдущей, является выяснение структурыпредложения. На основе полученных данных можно ставить задачу о выявлении классовблоков как по морфологической, так и по синтаксической структуре. Иначе говоря,это, с одной стороны, выделение блоков, имеющих одинаковую постоянную часть,т. е. с одним корнем, а с другой - выделение блоков, имеющих один и тот же наборпеременных частей. На основе самого текста отнести блоки к конкретным традиционнымчастям речи без дополнительной внетекстовой информации невозможно, хотя можноучитывать, например, что во многих языках для глагола характерны большее количествословоизменительных форм и большая сочетаемость с формами другого класса, а длясуществительных - малое количество словоизменительных форм и малая сочетаемость.
Для изучения морфологии очень важно составление прямых и обратных словарей,а также словарей, ориентированных по произвольному знаку в блоке.
Очень удобным инструментом является составление конкордансов. Выбираются какбы основные, нечто вроде координат, позиции в тексте и с помощью этих позицийхарактеризуется положение единицы. Например, если мы исследуем положение знакав тексте, а текст разбит на слова и предложения, то мы можем характеризоватьположение знака номером предложения, номером слова и предложения и положениемзнака в слове - расстоянием от начала или конца. Аналогично можно говорить нетолько про знак, но и про морфему, нечто похожее будет при исследовании словав предложении, в абзаце. Используя конкордансы, можно всегда выделить все сочетаниязаданной структуры.
При исследовании как структуры словоформы, как и синтаксической структурытекста удобно использовать прием, названный нами "окружением". В этомслучае для каждого исследуемого элемента текста - это может быть знак текста,группа знаков и т. п. - указываются группы из n элементов текста, которые"окружают" в тексте слева и справа исследуемый элемент. Такие окруженияпозволяют выявить связи между исследуемым элементом и другими "близкимик нему" частями текста.
Все указанные приемы являются конкретными вариантами позиционной статистики.
В заключение хотелось бы отметить, что исследования неизвестных текстов интересныеще и тем, что ставят ряд задач, имеющих и самостоятельное значение. Например,имеются тексты, записанные двумя разными способами: неизвестным иероглифическимписьмом и известным фонетическим, причем есть вероятность, что хотя они и необладают тождественным содержанием, но являются текстами на одну тему, аналогичновариантам одной и той же сказки или другого вида народного творчества. Можноли это выяснить, не зная содержания каждого текста? Такая задача интересна самапо себе, допускает вполне точную постановку, и для нее может быть составленалгоритм. Эта задача возникает и в информатике при выяснении соотношения междутекстом и аннотацией к нему, статьей и ее рефератом и т. д.