АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА — преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория А. о. т. начали создаваться в кон. 50-х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в иеск. разл. приложениях: в системном программиро- программировании, издат. деле и в вычислит, лингви- лингвистике. В системном программировании, предметом к-рого является создание прог- программного обеспечения функционирования ЭВМ и работы пользователей, развива- развивались инструментальные средства разра- разработки программ, т. е. текстов на алгорит- мнч. языках (см. Искусственные языки). В иэдат. деле А. о. т.— одно из направле- направлений автоматизации редакциоиио-издат. процессов. В этих областях термин «А. о. т.» употребляется, как правило, в относи- относительно узком смысле как преобразование формы. В вычислит, лингвистике, пред- предметом к-рой является автоматич. линг- вистич. анализ и синтез текста, а также лингвистич. аспекты общения с ЭВМ на естеств. языке, термин <А. о. т.» пони- понимается в более широком смысле, охваты- охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию по- понятного человеку) текста. В зависимости от целей различают неск. видов А. о. т. Преобразование текста при автоматизированном ре- редактировании заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений; фор- форматирование текста заключается в выделении заголовков, формировании строк и страниц нужного формата, выде- выделении и оформлении разделов и подраз- подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматич. набора и верстки текст, введенный в ЭВМ, преобразуется в представление (код), воспроизводимое полиграфия, оборудованием (напр., фо- фотонаборным автоматом). При л е к с и- к о г р афич. обработке текст преобразуется в лексикография, представ- представление, в к-ром каждому словоупотребле- словоупотреблению соответствует определ. информация в формируемом к этому тексту словаре. В автоматич. лингвистич. анализе текст последовательно пре- преобразуется в его лексемио-морфологич., синтаксич. и семантич. представления. В процессе автоматич. синте- з а производятся обратные преобразова- преобразования: от семантич. представления через синтаксическое и лексемно-морфологиче- ское к собственно текстовому. Системы автоматизиров. редактирова- редактирования (текстовые редакторы) и автоматич. форматирования (ф о р м а- т е р ы), наз. вместе системами А. о. т. в узком смысле (англ. text processing или word processing systems), с кон. 70-х гг. входят в состав системного прог- программного обеспечения практически всех типов ЭВМ. Управление текстовыми ре- редакторами и форматерами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиа- клавиатуры и отображения иа экране электрон- электронно-лучевой трубки обрабатываемого тек- текста). Изменения и дополнения в обрабаты- обрабатываемый текст могут быть внесены непо- непосредственно с помощью указателя по- позиции в тексте (курсора), с помощью алфавитно-цифровой клавиатуры дисп- дисплея, а также с помощью спец. команд, воспринимаемых системой редактирова- редактирования. В последнем случае одно и то же из- изменение может быть внесено одновремен- одновременно во все места текста, где оно небхо- димо (напр., изменение написания собств. имени, расшифровка сокращения или, наоборот, сокращение определ. словосо- словосочетания). Текстовые редакторы и форма- форматеры широко используются как средства подготовки и ввода в ЭВМ программ, программной документации, науч. отче- отчетов и др. данных. В издат. практике системы автоматизи- автоматизиров. редактирования используются, как правило, совместно с системами автома- автоматич. набора и верстки. В качестве состав- составных частей в такие системы входят и нек-рые лингвистич. программы, напр, программы переноса слов в соответствии с орфографией данного языка, проверки и исправления орфографии, транслите- транслитерации и транскрибирования, выделения имей собственных и ключевых слов для автоматич. составления именных и пред- предметных указателей (в последнем случае используются также программы леммати- зации, т. е. преобразования текстовых форм слов в словарные). Автоматизиров. лексикографич. си- системы, т. е. системы автоматизации под- подготовки и использования словарей, вклю- включают в себя программы и справочные дан- данные, необходимые для лексикографич. обработки текстов. В них используются текстовые редакторы для ввода и коррек- коррекции программ, данных и запросов к систе- системе, программы контроля орфографии и разметки входного текста, программы сег- сегментации текста иа слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и под- подсчета статистики словоупотреблений, программы загрузки, поиска и коррек- коррекции данных и др. Введенные в систему тексты и/или словари размещаются в ба- базах данных и снабжаются словоуказателя- словоуказателями и др. индексами, позволяющими по сло- слову или его характеристикам находить его контексты или словарные статьи, в к-рых оно описано. Результатом А. о. т. в авто- автоматизиров. лексикографич. системах яв- являются частотные словари, конкордансы (словоуказатели с контекстами), автома- автоматич. моио- и многоязычные словари, раз- размещаемые в базах данных н используе- используемые программами лексикографич. си- систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматич. слова- р и используются в системах автомати- автоматического перевода, а также в информацион- информационных системах и системах общения с ЭВМ на естеств. языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем. В составе лингвистич. обеспечения ав- автоматизиров. информационных систем различают три группы функций А. о. т.: автоматич. индексирование входных доку- документов, автоматич. составление поиско- поисковых предписаний по тексту запросов и ав- автоматизиров. ведение словарей системы. Ядром лиигвистич. обеспечения автома- автоматизиров. информационных систем явля- являются информационно-поисковые тезау- тезаурусы, в терминах к-рых производится ин- индексирование вводимых в систему тек- текстов. Индексирование текста заключается в составлении к нему поискового «образа», в к-ром указываются понятия, описы- описываемые в тексте, и отношения между ни- ними. Аналогично обрабатываются и запро- запросы к системе. Сравнением поисковых предписаний с поисковыми образами до- документов осуществляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам. Наиболее полно функции А. о. т. раз- развиты в системах автоматич. перевода и системах человеко-машинного общения, где основным является синтаксич., а в системах общения с ЭВМ — семантич. анализ. Эти наиболее сложные формы А. о. т. целиком опираются на формальный аппарат, развитый в рамках математиче- математической лингвистики и вычислит, лиигви- отики. Здесь А. о. т. осуществляется слож- сложными программами, наз. языковыми, или лингвистическими, процессорами (NLP— Natural Language Processor). Центр, функ- функцией языковых процессоров является грам- матич. разбор (parsing). Программы грам- матич. разбора (parser) используют в ка- качестве справочных данных формаль- формальные грамматики и словари то- го языка, тексты к-рого служат объектом анализа или синтеза. В качестве формаль- формальных грамматик используются расширен- расширенные грамматики непосред- непосредственных составляющих (коитекстио-свободиые грамматики), трансформационные грам- грамматики, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляю- составляющих, и др. В качестве формальных слова- словарей используются прикладные (инженер- (инженерные) варианты толково-комбинаторных словарей, т. е. спец. форм семантико-син- таксич. словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о сочетаемостных воз- возможностях на лексич., семантич. и синтак- сич. уровнях с учетом морфологич. огра- ограничений. В иек-рых языковых процес- процессорах систем автоматич. перевода и си- систем общения с ЭВМ такие словари мо- могут быть использованы как для анализа, так и для синтеза текстов. Обычно языко- языковые процессоры содержат морфологич., синтаксич., семантич. (или синтактико- семантич.) и словариую компоненты (под- (подсистемы программ и данных), каждая из к-рых реализует динамич. модель язы- языка на соотв. уровне. Языковые процессо- процессоры систем общения с ЭВМ опираются, как правило, на нек-рую систему пред- представления знаний и взаимодействуют с ней, осуществляя функции логич. (де- (дедуктивного) вывода. Знания часто пред- представляются в виде т. наз. фреймов — языковых моделей определ. фрагментов действительности или семантич. сетей и образуют т. иаз. базы знаний, хранимые в ЭВМ. Эти функции используются так- также и как средство раскрытия неоднознач- неоднозначностей (разрешения омонимии), восста- восстановления эллипсисов, установления ана- анафорических связей в тексте и в др. сложных случаях лингвистического ана- анализа. С 70-х гг. наблюдается тенденция к ин- интеграции всех подходов к конструирова- конструированию систем А. о. т. в рамках искусств, интеллекта — направления в информа- информатике (computer science), связанного с со- созданием сложных человеко-машинных и робототехнич. систем, моделирующих че- человеческую деятельность в разл. сферах и предметных областях. В таких систе- системах текст иа естеств. или искусств, языке является как источником накопления зна- знаний системы, так и источником данных для выбора ее поведения, а также сред- средством взаимодействия системы с челове- человеком. Здесь функции редактирования все больше сливаются с функциями содер- содержат, обработки, образуя единый аппарат понимания текста. Это открывает воз- возможности для автоматизации наиболее сложных областей человеческой деятель- деятельности, требующих затрат прежде всего интеллектуального труда, таких, как ре- дакционио-издат. процессы, извлечение информации из текстов, медицинская и техиич. диагностика, экспертная деятель- деятельность, проектирование машин и сооруже- сооружений, изготовление проектной документа- документации, управление социально-экономич. си- системами. Во всех этих случаях А. о. т. играет первостепенную роль. Однако в таких массовых, «промышленных* при- применениях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизиров. словарных карто- картотек, автоматич. словарей, грамматик и др. форм представления лингвистич. дан- данных в ЭВМ. Разработка таких систем приобретает форму машинных фондов нац. языков, нац. автомати- автоматизиров. лекснкографич. служб и т. п. 9 Лингвистич. обеспечение в системе авто- автоматич. перевода третьего поколения. Пред- Предварит, публикация, М., 1978; X и с а м у т- дииов В. Р., Авраменко В. С, Легонькое В. И., Автоматиаиров, си- система информационного обеспечения разра- разработок, М., 1980; Аидрющеико В. М., Автоматизиров. лексикография, системы, в кн.: Теоретич. и прикладные аспекты вычис- вычислит, лингвистики, М., 1981, с. 71—88; П о- пов Э. В., Общение с ЭВМ на естеств. языке, М., 1982; Б е л о ного в Г. Г., Куз- Кузнецов Б. А., Языковые средства автома- автоматизиров. информационных систем, М., 1983; Модели общения и лингвистич. процессоры, в кн.: Представление знаний в человеко-ма- человеко-машинных и робототехнич. системах. Том А.— Фундаментальные исследования в области представления знаний, М., 1984, с. 183— 210; Борковский А., X е л ь б и г Г., Системы подготовки текста, там же, том В.— Инструментальные средства разработки сис- систем, ориентированных на знания, М., 1984, с. 73—87; Системы общения с ЭВМ на ес- естеств. языке, там же, том С— Прикладные человеко-машинные системы, ориентирован- ориентированные на знания, М.. 1984, с. 36—69; А н д- рющенко В. М., Машинный фонд рус. языка: постановка задачи и практич. шаги, ВЯ, 1985. Jsfe 2; Н а у s D. G., Introduction to computational linguistics, N. Y., [1967]; Bator i I. S., Linguistische Datenverarbei- tung, «Sprache und Datenverarbeitung >, 1977, Jsfe 1, p. 2—11; К n u t h D. E., Tau Epsilon Chi, a system for technical test, Providence, 1979, «SIGART Newsletter», 1982, Jsfe 79; Meyrowitz N.. Dam A. van, Interac- Interactive editing systems, pt 1—2, «Computing Sur- Surveys», 1982, v. 14, Jsfe 3; Furuta R., Scofield J.. Shaw A., Document for- formatting systems, там же. В. М. Андрющенко.
|