ГЛАВНАЯ страница | Регистрация | Вход| RSS Воскресенье, 24.11.2024, 10:24

Удобное меню
  • ТЕСТЫ
  • В помощь учителям
  • В помощь изучающим
  • Родителям
  • Скачать
  • Развлечения
  • Нашим ученикам
  • ЕГЭ-2010-2011
  • Teachers' Cafe
  • Info
    Поиск
    Категории раздела
    для школьников [1507]
    Видеоматериалы к пособию "Английский для детей" [5]
    видеоуроки [6]
    Наши Будни [36]
    Слово Дня [26]
    Звуковой материал к пособию "Yummy English for Kids" [11]
    Информация
    фотообзоры

    Каталог статей

    Главная » Статьи » для школьников » для школьников

    АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА
    АВТОМАТИЧЕСКАЯ ОБРАБОТКА
    ТЕКСТА — преобразование текста на
    искусственном или естественном языке с
    помощью ЭВМ. Прикладные системы и
    теория А. о. т. начали создаваться в кон.
    50-х гг. 20 в. (США, СССР, Франция,
    ФРГ и др.) и развивались в иеск. разл.
    приложениях: в системном программиро-
    программировании, издат. деле и в вычислит, лингви-
    лингвистике. В системном программировании,
    предметом к-рого является создание прог-
    программного обеспечения функционирования
    ЭВМ и работы пользователей, развива-
    развивались инструментальные средства разра-
    разработки программ, т. е. текстов на алгорит-
    мнч. языках (см. Искусственные языки).
    В иэдат. деле А. о. т.— одно из направле-
    направлений автоматизации редакциоиио-издат.
    процессов. В этих областях термин «А. о.
    т.» употребляется, как правило, в относи-
    относительно узком смысле как преобразование
    формы. В вычислит, лингвистике, пред-
    предметом к-рой является автоматич. линг-
    вистич. анализ и синтез текста, а также
    лингвистич. аспекты общения с ЭВМ на
    естеств. языке, термин <А. о. т.» пони-
    понимается в более широком смысле, охваты-
    охватывающем и процедуры анализа содержания
    и синтеза (по заданному содержанию по-
    понятного человеку) текста.
    В зависимости от целей различают неск.
    видов А. о. т. Преобразование текста при
    автоматизированном ре-
    редактировании заключается во
    внесении в текст, находящийся в памяти
    ЭВМ, исправлений и дополнений; фор-
    форматирование текста заключается
    в выделении заголовков, формировании
    строк и страниц нужного формата, выде-
    выделении и оформлении разделов и подраз-
    подразделов текста для его воспроизведения на
    устройствах печати ЭВМ. В процессе
    автоматич. набора и верстки
    текст, введенный в ЭВМ, преобразуется
    в представление (код), воспроизводимое
    полиграфия, оборудованием (напр., фо-
    фотонаборным автоматом). При л е к с и-
    к о г р афич. обработке текст
    преобразуется в лексикография, представ-
    представление, в к-ром каждому словоупотребле-
    словоупотреблению соответствует определ. информация
    в формируемом к этому тексту словаре.
    В автоматич. лингвистич.
    анализе текст последовательно пре-
    преобразуется в его лексемио-морфологич.,
    синтаксич. и семантич. представления.
    В процессе автоматич. синте-
    з а производятся обратные преобразова-
    преобразования: от семантич. представления через
    синтаксическое и лексемно-морфологиче-
    ское к собственно текстовому.
    Системы автоматизиров. редактирова-
    редактирования (текстовые редакторы)
    и автоматич. форматирования (ф о р м а-
    т е р ы), наз. вместе системами А. о. т.
    в узком смысле (англ. text processing
    или word processing systems), с кон.
    70-х гг. входят в состав системного прог-
    программного обеспечения практически всех
    типов ЭВМ. Управление текстовыми ре-
    редакторами и форматерами осуществляется
    через дисплей (устройство для ввода с
    помощью алфавитно-цифровой клавиа-
    клавиатуры и отображения иа экране электрон-
    электронно-лучевой трубки обрабатываемого тек-
    текста). Изменения и дополнения в обрабаты-
    обрабатываемый текст могут быть внесены непо-
    непосредственно с помощью указателя по-
    позиции в тексте (курсора), с помощью
    алфавитно-цифровой клавиатуры дисп-
    дисплея, а также с помощью спец. команд,
    воспринимаемых системой редактирова-
    редактирования. В последнем случае одно и то же из-
    изменение может быть внесено одновремен-
    одновременно во все места текста, где оно небхо-
    димо (напр., изменение написания собств.
    имени, расшифровка сокращения или,
    наоборот, сокращение определ. словосо-
    словосочетания). Текстовые редакторы и форма-
    форматеры широко используются как средства
    подготовки и ввода в ЭВМ программ,
    программной документации, науч. отче-
    отчетов и др. данных.
    В издат. практике системы автоматизи-
    автоматизиров. редактирования используются, как
    правило, совместно с системами автома-
    автоматич. набора и верстки. В качестве состав-
    составных частей в такие системы входят и
    нек-рые лингвистич. программы, напр,
    программы переноса слов в соответствии
    с орфографией данного языка, проверки
    и исправления орфографии, транслите-
    транслитерации и транскрибирования, выделения
    имей собственных и ключевых слов для
    автоматич. составления именных и пред-
    предметных указателей (в последнем случае
    используются также программы леммати-
    зации, т. е. преобразования текстовых
    форм слов в словарные).
    Автоматизиров. лексикографич. си-
    системы, т. е. системы автоматизации под-
    подготовки и использования словарей, вклю-
    включают в себя программы и справочные дан-
    данные, необходимые для лексикографич.
    обработки текстов. В них используются
    текстовые редакторы для ввода и коррек-
    коррекции программ, данных и запросов к систе-
    системе, программы контроля орфографии и
    разметки входного текста, программы сег-
    сегментации текста иа слова, словосочетания,
    предложения и фрагменты словарных
    статей, программы лемматизации и под-
    подсчета статистики словоупотреблений,
    программы загрузки, поиска и коррек-
    коррекции данных и др. Введенные в систему
    тексты и/или словари размещаются в ба-
    базах данных и снабжаются словоуказателя-
    словоуказателями и др. индексами, позволяющими по сло-
    слову или его характеристикам находить его
    контексты или словарные статьи, в к-рых
    оно описано. Результатом А. о. т. в авто-
    автоматизиров. лексикографич. системах яв-
    являются частотные словари, конкордансы
    (словоуказатели с контекстами), автома-
    автоматич. моио- и многоязычные словари, раз-
    размещаемые в базах данных н используе-
    используемые программами лексикографич. си-
    систем в качестве справочного материала
    при обработке новых данных. Поэтому
    такие системы являются развивающимися
    системами. Автоматич. слова-
    р и используются в системах автомати-
    автоматического перевода, а также в информацион-
    информационных системах и системах общения с ЭВМ
    на естеств. языке в качестве справочников
    при подготовке и расширении словарей
    и уточнении грамматик этих систем.
    В составе лингвистич. обеспечения ав-
    автоматизиров. информационных систем
    различают три группы функций А. о. т.:
    автоматич. индексирование входных доку-
    документов, автоматич. составление поиско-
    поисковых предписаний по тексту запросов и ав-
    автоматизиров. ведение словарей системы.
    Ядром лиигвистич. обеспечения автома-
    автоматизиров. информационных систем явля-
    являются информационно-поисковые тезау-
    тезаурусы, в терминах к-рых производится ин-
    индексирование вводимых в систему тек-
    текстов. Индексирование текста заключается
    в составлении к нему поискового «образа»,
    в к-ром указываются понятия, описы-
    описываемые в тексте, и отношения между ни-
    ними. Аналогично обрабатываются и запро-
    запросы к системе. Сравнением поисковых
    предписаний с поисковыми образами до-
    документов осуществляется выбор текстов
    запрашиваемой тематики. Существуют
    и бестезаурусные системы, способные
    осуществлять поиск текстов по любым
    сочетаниям слов, встречающихся в них.
    В таких системах автоматически строятся
    словоуказатели к вводимым текстам.
    Наиболее полно функции А. о. т. раз-
    развиты в системах автоматич. перевода и
    системах человеко-машинного общения,
    где основным является синтаксич., а в
    системах общения с ЭВМ — семантич.
    анализ. Эти наиболее сложные формы
    А. о. т. целиком опираются на формальный
    аппарат, развитый в рамках математиче-
    математической лингвистики и вычислит, лиигви-
    отики. Здесь А. о. т. осуществляется слож-
    сложными программами, наз. языковыми, или
    лингвистическими, процессорами (NLP—
    Natural Language Processor). Центр, функ-
    функцией языковых процессоров является грам-
    матич. разбор (parsing). Программы грам-
    матич. разбора (parser) используют в ка-
    качестве справочных данных формаль-
    формальные грамматики и словари то-
    го языка, тексты к-рого служат объектом
    анализа или синтеза. В качестве формаль-
    формальных грамматик используются расширен-
    расширенные грамматики непосред-
    непосредственных составляющих
    (коитекстио-свободиые грамматики),
    трансформационные грам-
    грамматики, грамматики расширенных
    сетей переходов, являющиеся системами
    грамматик непосредственных составляю-
    составляющих, и др. В качестве формальных слова-
    словарей используются прикладные (инженер-
    (инженерные) варианты толково-комбинаторных
    словарей, т. е. спец. форм семантико-син-
    таксич. словарей, имеющих подробную
    информацию о вариантных формах слов,
    об их семантике и о сочетаемостных воз-
    возможностях на лексич., семантич. и синтак-
    сич. уровнях с учетом морфологич. огра-
    ограничений. В иек-рых языковых процес-
    процессорах систем автоматич. перевода и си-
    систем общения с ЭВМ такие словари мо-
    могут быть использованы как для анализа,
    так и для синтеза текстов. Обычно языко-
    языковые процессоры содержат морфологич.,
    синтаксич., семантич. (или синтактико-
    семантич.) и словариую компоненты (под-
    (подсистемы программ и данных), каждая
    из к-рых реализует динамич. модель язы-
    языка на соотв. уровне. Языковые процессо-
    процессоры систем общения с ЭВМ опираются,
    как правило, на нек-рую систему пред-
    представления знаний и взаимодействуют с
    ней, осуществляя функции логич. (де-
    (дедуктивного) вывода. Знания часто пред-
    представляются в виде т. наз. фреймов —
    языковых моделей определ. фрагментов
    действительности или семантич. сетей и
    образуют т. иаз. базы знаний, хранимые
    в ЭВМ. Эти функции используются так-
    также и как средство раскрытия неоднознач-
    неоднозначностей (разрешения омонимии), восста-
    восстановления эллипсисов, установления ана-
    анафорических связей в тексте и в др.
    сложных случаях лингвистического ана-
    анализа.
    С 70-х гг. наблюдается тенденция к ин-
    интеграции всех подходов к конструирова-
    конструированию систем А. о. т. в рамках искусств,
    интеллекта — направления в информа-
    информатике (computer science), связанного с со-
    созданием сложных человеко-машинных и
    робототехнич. систем, моделирующих че-
    человеческую деятельность в разл. сферах
    и предметных областях. В таких систе-
    системах текст иа естеств. или искусств, языке
    является как источником накопления зна-
    знаний системы, так и источником данных
    для выбора ее поведения, а также сред-
    средством взаимодействия системы с челове-
    человеком. Здесь функции редактирования все
    больше сливаются с функциями содер-
    содержат, обработки, образуя единый аппарат
    понимания текста. Это открывает воз-
    возможности для автоматизации наиболее
    сложных областей человеческой деятель-
    деятельности, требующих затрат прежде всего
    интеллектуального труда, таких, как ре-
    дакционио-издат. процессы, извлечение
    информации из текстов, медицинская и
    техиич. диагностика, экспертная деятель-
    деятельность, проектирование машин и сооруже-
    сооружений, изготовление проектной документа-
    документации, управление социально-экономич. си-
    системами. Во всех этих случаях А. о. т.
    играет первостепенную роль. Однако в
    таких массовых, «промышленных* при-
    применениях А. о. т. должна опираться на
    мощную информационную поддержку
    в виде автоматизиров. словарных карто-
    картотек, автоматич. словарей, грамматик и
    др. форм представления лингвистич. дан-
    данных в ЭВМ. Разработка таких систем
    приобретает форму машинных
    фондов нац. языков, нац. автомати-
    автоматизиров. лекснкографич. служб и т. п.
    9 Лингвистич. обеспечение в системе авто-
    автоматич. перевода третьего поколения. Пред-
    Предварит, публикация, М., 1978; X и с а м у т-
    дииов В. Р., Авраменко В. С,
    Легонькое В. И., Автоматиаиров, си-
    система информационного обеспечения разра-
    разработок, М., 1980; Аидрющеико В. М.,
    Автоматизиров. лексикография, системы, в
    кн.: Теоретич. и прикладные аспекты вычис-
    вычислит, лингвистики, М., 1981, с. 71—88; П о-
    пов Э. В., Общение с ЭВМ на естеств.
    языке, М., 1982; Б е л о ного в Г. Г., Куз-
    Кузнецов Б. А., Языковые средства автома-
    автоматизиров. информационных систем, М., 1983;
    Модели общения и лингвистич. процессоры,
    в кн.: Представление знаний в человеко-ма-
    человеко-машинных и робототехнич. системах. Том А.—
    Фундаментальные исследования в области
    представления знаний, М., 1984, с. 183—
    210; Борковский А., X е л ь б и г Г.,
    Системы подготовки текста, там же, том В.—
    Инструментальные средства разработки сис-
    систем, ориентированных на знания, М., 1984,
    с. 73—87; Системы общения с ЭВМ на ес-
    естеств. языке, там же, том С— Прикладные
    человеко-машинные системы, ориентирован-
    ориентированные на знания, М.. 1984, с. 36—69; А н д-
    рющенко В. М., Машинный фонд рус.
    языка: постановка задачи и практич. шаги,
    ВЯ, 1985. Jsfe 2; Н а у s D. G., Introduction
    to computational linguistics, N. Y., [1967];
    Bator i I. S., Linguistische Datenverarbei-
    tung, «Sprache und Datenverarbeitung >, 1977,
    Jsfe 1, p. 2—11; К n u t h D. E., Tau Epsilon
    Chi, a system for technical test, Providence,
    1979, «SIGART Newsletter», 1982, Jsfe 79;
    Meyrowitz N.. Dam A. van, Interac-
    Interactive editing systems, pt 1—2, «Computing Sur-
    Surveys», 1982, v. 14, Jsfe 3; Furuta R.,
    Scofield J.. Shaw A., Document for-
    formatting systems, там же. В. М. Андрющенко.
    Категория: для школьников | Добавил: Admin (30.07.2010)
    Просмотров: 3886 | Рейтинг: 1.0/1 |
    Дополнительный материал для Вас от сайта englishschool12.ru

    ПРАГА (глазами аборигена) фоторепортаж с...
    Олимпиадные задания по английскому языку
    История династии Виндзоров

    Английские сокращения и аббревиатуры 
    Употребление определенного артикля с име... 
    Наречия образа действия 

    Рекомендованная литература для обучения ...
    Английский язык для школьников №16
    Образование в США

    Joyce_Chamber 
    План урока в 7 классе 
    England is the workshop of the world! 

    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Welcome
    Меню сайта
    Info
    Видео
    englishschool12.ru
    Info

    Сайт создан для образовательных целей
    АНГЛИЙСКАЯ ШКОЛА © 2024
    support@englishschool12.ru

    +12
    Все права защищены
    Копирование материалов возможно только при разрешении администратора сайта
    Сайт управляется системой uCoz