ГЛАВНАЯ страница | Регистрация | Вход| RSS Суббота, 11.01.2025, 08:04

Удобное меню
  • ТЕСТЫ
  • В помощь учителям
  • В помощь изучающим
  • Родителям
  • Скачать
  • Развлечения
  • Нашим ученикам
  • ЕГЭ-2010-2011
  • Teachers' Cafe
  • Info
    Поиск
    Категории раздела
    для школьников [1507]
    Видеоматериалы к пособию "Английский для детей" [5]
    видеоуроки [6]
    Наши Будни [36]
    Слово Дня [26]
    Звуковой материал к пособию "Yummy English for Kids" [11]
    Информация
    фотообзоры

    Каталог статей

    Главная » Статьи » для школьников » для школьников

    АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА
    АВТОМАТИЧЕСКАЯ ОБРАБОТКА
    ТЕКСТА — преобразование текста на
    искусственном или естественном языке с
    помощью ЭВМ. Прикладные системы и
    теория А. о. т. начали создаваться в кон.
    50-х гг. 20 в. (США, СССР, Франция,
    ФРГ и др.) и развивались в иеск. разл.
    приложениях: в системном программиро-
    программировании, издат. деле и в вычислит, лингви-
    лингвистике. В системном программировании,
    предметом к-рого является создание прог-
    программного обеспечения функционирования
    ЭВМ и работы пользователей, развива-
    развивались инструментальные средства разра-
    разработки программ, т. е. текстов на алгорит-
    мнч. языках (см. Искусственные языки).
    В иэдат. деле А. о. т.— одно из направле-
    направлений автоматизации редакциоиио-издат.
    процессов. В этих областях термин «А. о.
    т.» употребляется, как правило, в относи-
    относительно узком смысле как преобразование
    формы. В вычислит, лингвистике, пред-
    предметом к-рой является автоматич. линг-
    вистич. анализ и синтез текста, а также
    лингвистич. аспекты общения с ЭВМ на
    естеств. языке, термин <А. о. т.» пони-
    понимается в более широком смысле, охваты-
    охватывающем и процедуры анализа содержания
    и синтеза (по заданному содержанию по-
    понятного человеку) текста.
    В зависимости от целей различают неск.
    видов А. о. т. Преобразование текста при
    автоматизированном ре-
    редактировании заключается во
    внесении в текст, находящийся в памяти
    ЭВМ, исправлений и дополнений; фор-
    форматирование текста заключается
    в выделении заголовков, формировании
    строк и страниц нужного формата, выде-
    выделении и оформлении разделов и подраз-
    подразделов текста для его воспроизведения на
    устройствах печати ЭВМ. В процессе
    автоматич. набора и верстки
    текст, введенный в ЭВМ, преобразуется
    в представление (код), воспроизводимое
    полиграфия, оборудованием (напр., фо-
    фотонаборным автоматом). При л е к с и-
    к о г р афич. обработке текст
    преобразуется в лексикография, представ-
    представление, в к-ром каждому словоупотребле-
    словоупотреблению соответствует определ. информация
    в формируемом к этому тексту словаре.
    В автоматич. лингвистич.
    анализе текст последовательно пре-
    преобразуется в его лексемио-морфологич.,
    синтаксич. и семантич. представления.
    В процессе автоматич. синте-
    з а производятся обратные преобразова-
    преобразования: от семантич. представления через
    синтаксическое и лексемно-морфологиче-
    ское к собственно текстовому.
    Системы автоматизиров. редактирова-
    редактирования (текстовые редакторы)
    и автоматич. форматирования (ф о р м а-
    т е р ы), наз. вместе системами А. о. т.
    в узком смысле (англ. text processing
    или word processing systems), с кон.
    70-х гг. входят в состав системного прог-
    программного обеспечения практически всех
    типов ЭВМ. Управление текстовыми ре-
    редакторами и форматерами осуществляется
    через дисплей (устройство для ввода с
    помощью алфавитно-цифровой клавиа-
    клавиатуры и отображения иа экране электрон-
    электронно-лучевой трубки обрабатываемого тек-
    текста). Изменения и дополнения в обрабаты-
    обрабатываемый текст могут быть внесены непо-
    непосредственно с помощью указателя по-
    позиции в тексте (курсора), с помощью
    алфавитно-цифровой клавиатуры дисп-
    дисплея, а также с помощью спец. команд,
    воспринимаемых системой редактирова-
    редактирования. В последнем случае одно и то же из-
    изменение может быть внесено одновремен-
    одновременно во все места текста, где оно небхо-
    димо (напр., изменение написания собств.
    имени, расшифровка сокращения или,
    наоборот, сокращение определ. словосо-
    словосочетания). Текстовые редакторы и форма-
    форматеры широко используются как средства
    подготовки и ввода в ЭВМ программ,
    программной документации, науч. отче-
    отчетов и др. данных.
    В издат. практике системы автоматизи-
    автоматизиров. редактирования используются, как
    правило, совместно с системами автома-
    автоматич. набора и верстки. В качестве состав-
    составных частей в такие системы входят и
    нек-рые лингвистич. программы, напр,
    программы переноса слов в соответствии
    с орфографией данного языка, проверки
    и исправления орфографии, транслите-
    транслитерации и транскрибирования, выделения
    имей собственных и ключевых слов для
    автоматич. составления именных и пред-
    предметных указателей (в последнем случае
    используются также программы леммати-
    зации, т. е. преобразования текстовых
    форм слов в словарные).
    Автоматизиров. лексикографич. си-
    системы, т. е. системы автоматизации под-
    подготовки и использования словарей, вклю-
    включают в себя программы и справочные дан-
    данные, необходимые для лексикографич.
    обработки текстов. В них используются
    текстовые редакторы для ввода и коррек-
    коррекции программ, данных и запросов к систе-
    системе, программы контроля орфографии и
    разметки входного текста, программы сег-
    сегментации текста иа слова, словосочетания,
    предложения и фрагменты словарных
    статей, программы лемматизации и под-
    подсчета статистики словоупотреблений,
    программы загрузки, поиска и коррек-
    коррекции данных и др. Введенные в систему
    тексты и/или словари размещаются в ба-
    базах данных и снабжаются словоуказателя-
    словоуказателями и др. индексами, позволяющими по сло-
    слову или его характеристикам находить его
    контексты или словарные статьи, в к-рых
    оно описано. Результатом А. о. т. в авто-
    автоматизиров. лексикографич. системах яв-
    являются частотные словари, конкордансы
    (словоуказатели с контекстами), автома-
    автоматич. моио- и многоязычные словари, раз-
    размещаемые в базах данных н используе-
    используемые программами лексикографич. си-
    систем в качестве справочного материала
    при обработке новых данных. Поэтому
    такие системы являются развивающимися
    системами. Автоматич. слова-
    р и используются в системах автомати-
    автоматического перевода, а также в информацион-
    информационных системах и системах общения с ЭВМ
    на естеств. языке в качестве справочников
    при подготовке и расширении словарей
    и уточнении грамматик этих систем.
    В составе лингвистич. обеспечения ав-
    автоматизиров. информационных систем
    различают три группы функций А. о. т.:
    автоматич. индексирование входных доку-
    документов, автоматич. составление поиско-
    поисковых предписаний по тексту запросов и ав-
    автоматизиров. ведение словарей системы.
    Ядром лиигвистич. обеспечения автома-
    автоматизиров. информационных систем явля-
    являются информационно-поисковые тезау-
    тезаурусы, в терминах к-рых производится ин-
    индексирование вводимых в систему тек-
    текстов. Индексирование текста заключается
    в составлении к нему поискового «образа»,
    в к-ром указываются понятия, описы-
    описываемые в тексте, и отношения между ни-
    ними. Аналогично обрабатываются и запро-
    запросы к системе. Сравнением поисковых
    предписаний с поисковыми образами до-
    документов осуществляется выбор текстов
    запрашиваемой тематики. Существуют
    и бестезаурусные системы, способные
    осуществлять поиск текстов по любым
    сочетаниям слов, встречающихся в них.
    В таких системах автоматически строятся
    словоуказатели к вводимым текстам.
    Наиболее полно функции А. о. т. раз-
    развиты в системах автоматич. перевода и
    системах человеко-машинного общения,
    где основным является синтаксич., а в
    системах общения с ЭВМ — семантич.
    анализ. Эти наиболее сложные формы
    А. о. т. целиком опираются на формальный
    аппарат, развитый в рамках математиче-
    математической лингвистики и вычислит, лиигви-
    отики. Здесь А. о. т. осуществляется слож-
    сложными программами, наз. языковыми, или
    лингвистическими, процессорами (NLP—
    Natural Language Processor). Центр, функ-
    функцией языковых процессоров является грам-
    матич. разбор (parsing). Программы грам-
    матич. разбора (parser) используют в ка-
    качестве справочных данных формаль-
    формальные грамматики и словари то-
    го языка, тексты к-рого служат объектом
    анализа или синтеза. В качестве формаль-
    формальных грамматик используются расширен-
    расширенные грамматики непосред-
    непосредственных составляющих
    (коитекстио-свободиые грамматики),
    трансформационные грам-
    грамматики, грамматики расширенных
    сетей переходов, являющиеся системами
    грамматик непосредственных составляю-
    составляющих, и др. В качестве формальных слова-
    словарей используются прикладные (инженер-
    (инженерные) варианты толково-комбинаторных
    словарей, т. е. спец. форм семантико-син-
    таксич. словарей, имеющих подробную
    информацию о вариантных формах слов,
    об их семантике и о сочетаемостных воз-
    возможностях на лексич., семантич. и синтак-
    сич. уровнях с учетом морфологич. огра-
    ограничений. В иек-рых языковых процес-
    процессорах систем автоматич. перевода и си-
    систем общения с ЭВМ такие словари мо-
    могут быть использованы как для анализа,
    так и для синтеза текстов. Обычно языко-
    языковые процессоры содержат морфологич.,
    синтаксич., семантич. (или синтактико-
    семантич.) и словариую компоненты (под-
    (подсистемы программ и данных), каждая
    из к-рых реализует динамич. модель язы-
    языка на соотв. уровне. Языковые процессо-
    процессоры систем общения с ЭВМ опираются,
    как правило, на нек-рую систему пред-
    представления знаний и взаимодействуют с
    ней, осуществляя функции логич. (де-
    (дедуктивного) вывода. Знания часто пред-
    представляются в виде т. наз. фреймов —
    языковых моделей определ. фрагментов
    действительности или семантич. сетей и
    образуют т. иаз. базы знаний, хранимые
    в ЭВМ. Эти функции используются так-
    также и как средство раскрытия неоднознач-
    неоднозначностей (разрешения омонимии), восста-
    восстановления эллипсисов, установления ана-
    анафорических связей в тексте и в др.
    сложных случаях лингвистического ана-
    анализа.
    С 70-х гг. наблюдается тенденция к ин-
    интеграции всех подходов к конструирова-
    конструированию систем А. о. т. в рамках искусств,
    интеллекта — направления в информа-
    информатике (computer science), связанного с со-
    созданием сложных человеко-машинных и
    робототехнич. систем, моделирующих че-
    человеческую деятельность в разл. сферах
    и предметных областях. В таких систе-
    системах текст иа естеств. или искусств, языке
    является как источником накопления зна-
    знаний системы, так и источником данных
    для выбора ее поведения, а также сред-
    средством взаимодействия системы с челове-
    человеком. Здесь функции редактирования все
    больше сливаются с функциями содер-
    содержат, обработки, образуя единый аппарат
    понимания текста. Это открывает воз-
    возможности для автоматизации наиболее
    сложных областей человеческой деятель-
    деятельности, требующих затрат прежде всего
    интеллектуального труда, таких, как ре-
    дакционио-издат. процессы, извлечение
    информации из текстов, медицинская и
    техиич. диагностика, экспертная деятель-
    деятельность, проектирование машин и сооруже-
    сооружений, изготовление проектной документа-
    документации, управление социально-экономич. си-
    системами. Во всех этих случаях А. о. т.
    играет первостепенную роль. Однако в
    таких массовых, «промышленных* при-
    применениях А. о. т. должна опираться на
    мощную информационную поддержку
    в виде автоматизиров. словарных карто-
    картотек, автоматич. словарей, грамматик и
    др. форм представления лингвистич. дан-
    данных в ЭВМ. Разработка таких систем
    приобретает форму машинных
    фондов нац. языков, нац. автомати-
    автоматизиров. лекснкографич. служб и т. п.
    9 Лингвистич. обеспечение в системе авто-
    автоматич. перевода третьего поколения. Пред-
    Предварит, публикация, М., 1978; X и с а м у т-
    дииов В. Р., Авраменко В. С,
    Легонькое В. И., Автоматиаиров, си-
    система информационного обеспечения разра-
    разработок, М., 1980; Аидрющеико В. М.,
    Автоматизиров. лексикография, системы, в
    кн.: Теоретич. и прикладные аспекты вычис-
    вычислит, лингвистики, М., 1981, с. 71—88; П о-
    пов Э. В., Общение с ЭВМ на естеств.
    языке, М., 1982; Б е л о ного в Г. Г., Куз-
    Кузнецов Б. А., Языковые средства автома-
    автоматизиров. информационных систем, М., 1983;
    Модели общения и лингвистич. процессоры,
    в кн.: Представление знаний в человеко-ма-
    человеко-машинных и робототехнич. системах. Том А.—
    Фундаментальные исследования в области
    представления знаний, М., 1984, с. 183—
    210; Борковский А., X е л ь б и г Г.,
    Системы подготовки текста, там же, том В.—
    Инструментальные средства разработки сис-
    систем, ориентированных на знания, М., 1984,
    с. 73—87; Системы общения с ЭВМ на ес-
    естеств. языке, там же, том С— Прикладные
    человеко-машинные системы, ориентирован-
    ориентированные на знания, М.. 1984, с. 36—69; А н д-
    рющенко В. М., Машинный фонд рус.
    языка: постановка задачи и практич. шаги,
    ВЯ, 1985. Jsfe 2; Н а у s D. G., Introduction
    to computational linguistics, N. Y., [1967];
    Bator i I. S., Linguistische Datenverarbei-
    tung, «Sprache und Datenverarbeitung >, 1977,
    Jsfe 1, p. 2—11; К n u t h D. E., Tau Epsilon
    Chi, a system for technical test, Providence,
    1979, «SIGART Newsletter», 1982, Jsfe 79;
    Meyrowitz N.. Dam A. van, Interac-
    Interactive editing systems, pt 1—2, «Computing Sur-
    Surveys», 1982, v. 14, Jsfe 3; Furuta R.,
    Scofield J.. Shaw A., Document for-
    formatting systems, там же. В. М. Андрющенко.
    Категория: для школьников | Добавил: Admin (30.07.2010)
    Просмотров: 3905 | Рейтинг: 1.0/1 |
    Дополнительный материал для Вас от сайта englishschool12.ru

    НОВАЯ РАЗГОВОРНАЯ ЛЕКСИКА
    шпаргалка по английскому языку
    Полный курс лекций по теоретической фоне...

    Загрязнение воздуха 
    Russia 
    25% 100-бальных результатов ЕГЭ 2009 ока... 

    Рекомендованная литература для обучения ...
    Поздравления на немецком языке
    Рекомендованная литература для обучения ...

    Тренажер перевода слов WTT 1.15 
    LONDON TODAY 
    Модальные глаголы (Modal Verbs) can, may... 

    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Welcome
    Меню сайта
    Info
    Видео
    englishschool12.ru
    Info

    Сайт создан для образовательных целей
    АНГЛИЙСКАЯ ШКОЛА © 2025
    support@englishschool12.ru

    +12
    Все права защищены
    Копирование материалов возможно только при разрешении администратора сайта
    Сайт управляется системой uCoz