Хелпикс

Главная

Контакты

Случайная статья





Слайд 1) Лекция 6. Компьютерная терминография и компьютерный перевод



(Слайд 1) Лекция 6. Компьютерная терминография и компьютерный перевод

План

1. Компьютерная терминография

1.1. Понятие компьютерной терминографии. Термин как основной объект терминографии.

1.2. Терминологические банки данных.

 2. Машинный перевод

2.1 Понятие перевода и машинного перевода.

2.2 Классификация и примеры систем МП.

2.3 Этапы осуществления полностью автоматизированного МП.

2.4 Параметры оценки систем МП.

2.5 Проблемы МП.

 

(Слайд 2) 1.1. Понятие компьютерной терминографии. Термин как основной объект терминографии.

Одним из перспективных направлений компьютерной лексикографиии прикладной лингвистики в целом является работа над электронными терминологическими словарями и банками данных.

Построением специальных терминологических словарей занимаетсятерминография, представляющая собой особый раздел лексикографии.

В то же время терминография тесно связана с терминоведением- наукой о терминах. Соответственно, компьютерная терминография- это наука о составлении электронных терминологических словарей.

Принципы компьютерной терминографии в общем и целом теже, что и рассмотренные выше принципы компьютерной лексикографии.

Их отличия связаны только с основным объектом словарного описания: в лексикографии это обычное слово или другие языковые единицы (морфема, словосочетание, предложение и т.п.), а в терминографии- термин.

(Слайд 3)   Термин - это слово (словосочетание) метаязыка науки или об-

ласти практической деятельности человека, имеющее четкое и (повозможности) однозначное определение, требующее специальных знаний из соответствующей профессиональной сферы. Так, слово «Интернет» для обычного человека выступает общеупотребительным, а знакомство с соответствующим понятием ограничивается теми манипуляциями, которые человек производит с Интернетом (выбор провайдера услуг, тарифа, настройка подключения и некоторые другие).

Для специалиста в компьютерных сетях это слово связано с огромным пластом предметного знания (история появления, технические характеристики, альтернативные Интернету виды связи ит.д.), соответственно, для специалиста оно выступает термином.

Из приведенных пояснений становится понятно, что понятие термина задается через его свойства, реализуемые в терминосистеме. Терминосистема в целом отражает соответствующую область знания, а каждый ее компонент (термин) называет или характеризует составляющие этой области знания.

Поскольку области знания объективны, а термины и терминосистемы «привязаны» к конкретному языку или даже к конкретной научной школе, важной задачей терминографии становится стандартизацияи унификация терминов, а также их однозначный перевод на разные языки мира.

Унификации терминосистем служат терминологические стандарты.Но самих стандартов по организации терминосистем в миресейчас более 20 тысяч; кроме того, существуют терминологическиестандарты самых разных уровней: международного, государственногои даже уровня отдельных компаний и фирм. В связи с этимзадача унификации терминов и терминосистем должна быть обязательнойсоставляющей государственной и местной языковой политики,поскольку многозначность и омонимия терминов, отсутствиесогласования между близкими терминосистемами, создание терминологическихсочетаний с труднопроизносимыми и неблагозвучнымиаббревиатурами (ср. ГИБДД) являются ощутимым препятствиемдля научно-технического прогресса.

 

(Слайд 4) 1.2. Терминологические банки данных.

Современные компьютерные технологии позволяют обрабатыватьи со-

хранять большие массивы терминов по различным областям знания.

Такие массивы терминов называются терминологическими базами(банками) данных (ТБД).По количеству задействованных в базе данныхязыков различаются переводческие (многоязычные) и информационно-нормативные (одноязычные) ТБД. (Слайд 5)   Крупные ТБД имеются:

• в Научно-исследовательском институте комплексной информациипо стандартизации и качеству (ВНИИКИ) (www.vniiki.ru);

• в Международной организации по стандартизации (англ. ISO =International Organization for Standardization, www.iso.org/obp/ui).

Кроме того, термины определенной предметной области собираютсяи описываются в словарях специальных терминов. Эти словари могутбыть дескриптивными и нормативными, общими и частными, толковымии переводными, алфавитными и тезаурусными.

Большинство электронных терминологических словарей носитдескриптивный характер и представляет термины отдельной отраслизнания. При этом востребованы и толковые (одноязычные), ипереводные (двуязычные или многоязычные) словари. Разнообразныетерминологические словари русского языка (анатомический,экономический, психологический и т.д.) представлены, в частности,на портале Gramota.ru (www.gramota.ru/slovari/online), а переводныетерминологические словари, относящиеся к разным отраслям знания,можно найти по адресу www.diclib.com.

(Слайд 6)   При описании термина важными оказываются следующие егосвойства, сопоставимые с отдельными зонами словарной статьи:

1) семантика: связь термина с обозначаемым понятием;

2) словоизменение: особенности образования морфологических формтермина;

3) словообразование: включение термина в словообразовательноегнездо, установление связей между однокоренными словами (ср.прилагательные коммуникативный и коммуникационный, относящиесяк разным значениям термина «коммуникация»);

4) синтаксические связи: управление, сочетаемость с другими терминамии

нетерминами;

5) парадигматические связи в терминосистеме: синонимы, антонимы,гиперо-гипонимические связи, пересечения значения, терминологическиеряды;

6) произношение;

7) примеры использования в контексте;

8) происхождение;

9) переводные эквиваленты.

Так, по своему происхождению термины могут быть заимствованными;в этом случае они переводятся, ср.: нем. Leitung —управление, или транслитерируются, например: англ. Computer —> компьютер.

Кроме того, термины могут образовываться из словообразовательныхэлементов родного языка (приставка) или путем изменениясемантики существующих слов (поле - > (семантическое) поле).

При анализе составляющих словарной статьи терминологическогословаря можно заметить, что такой словарь требует еще болеетщательной работы, чем обычный словарь.

 

(Слайд 7) 2.1 Понятие перевода и машинного перевода.

Вопросы машинного перевода составляют одну из центральныхобластей использования информационных технологий в лингвистике.

Это обусловлено не только тем, что в машинном переводе как вфокусе концентрируются все проблемы компьютерной лингвистики- от способов анализа содержания до синтеза словоформы,предложения и целого текста, но и постоянно возрастающейпрактической потребностью современного общества в переводезначительного количества текстов различной функциональнойнаправленности.

Так, свыше 5 млрд жителей Земли используют около трех тысячязыков, и все большее их количество включается в мировые информационныепотоки. Разноязычная информация, накапливаемая вгеометрической прогрессии, становится труднодоступной, так какна поиск и перевод нужных сведений требуются значительные материальныезатраты. Было подсчитано, что если синтез нового химическогосоединения обойдется менее чем в 100 тыс. долларов,выгоднее произвести этот синтез, чем искать описание аналогичнойработы на других языках.

Другой иллюстрацией возрастания потребности в переводе служатдокументы международных организаций, которые в обязательном порядке переводятся на языки стран-участников. Только Европейскийсоюз в настоящее время объединяет 27 государств, в которыхиспользуется 23 официальных языка (http://europa.eu). Этообеспечивает работой несколько тысяч профессиональных переводчиков,переводящих в год миллионы страниц. Услуги переводчиковобходятся в миллиарды долларов.

Кроме того, что работа переводчика-человека достаточно дорогая,она к тому же весьма медленная. Так, нормой научно-техническогоперевода считается время 10 дней на авторский лист (24 страницымашинописного текста). Система машинного переводапозволяет получить перевод сотен авторских листов за 1 час.

Кроме того, появляются новые области применения машинногоперевода, например, тексты Интернета. По подсчетам исследователей,в Интернете встроенными системами перевода (SYSTRAN,TRADOS и ESTeamTranslator) и сетевыми онлайновыми словарямиежедневно выполняется 1 млн запросов на перевод текстов в различныхформатах.

Все вышесказанное свидетельствует об актуальности обращенияк проблеме машинного перевода, который хотя и уступает по качествупереводу, осуществляемому человеком, но даже на сегодняшнемэтапе развития позволяет преодолевать языковые барьеры, акроме того, продолжает оставаться интересной научной проблемойкомпьютерной лингвистики в целом.

Чтобы определить понятие машинного перевода, обратимся сначалак некоторым общим понятиям теории перевода. Перевод обычнопонимается как деятельность, «в результате которой некоторыйтекст на одном языке ставится в соответствие тексту на другом языке,при этом обеспечивается их смысловая эквивалентность».При этом отмечается многозначность понятия перевода: этоодновременно и процесс передачи содержания текста на одном языкесредствами другого языка, и результат переводческой деятельности.

Перевод представляет собой весьма сложный вид интеллектуальнойдеятельности человека, поскольку это не чисто языковой, асложный когнитивный феномен: в процессе перевода человек используетлингвистические и экстралингвистические знания, а крометого, в этот процесс включаются два принципиально различных этапа:понимание текста на исходном языке (ИЯ) и синтез текста наязыке перевода (ПЯ).Вследствие такой комплексности переводческого процесса наукао нем (переводоведение) носит междисциплинарный характер иоказывается связанной с лингвистикой, литературоведением, когнитивныминауками и культурной антропологией. В частности,исследователями отмечается, что переводятся не столько словаи их последовательности, сколько мыслительные образы, порождаемыев сознании переводчика под их воздействием, т.е. связьперевода и когнитивных, мыслительных процессов человека очевидна.

 

(Слайд 8) 2.2 Классификация и примеры систем МП.

Системы машинного перевода моделируют работу человека-переводчика.Таким образом, суть машинного перевода та же, что и вслучае его выполнения человеком, с той лишь разницей, что в этомпроцессе используются компьютеры.

Машинный (или автоматический)перевод (МП) - выполняемое компьютером действие по преобразованиютекста на одном естественном языке в эквивалентныйпо содержанию текст на другом языке, а также результат такого действия.

К числу наиболее распространенных в России систем МП относятся:

• Stylus- система МП, включающая множество словарей по разнымпредметным областям;

• UniversalTranslator— многоязычнаясистемаМП;

• Socrat- система, позволяющая сканировать документы, переводитьих содержимое и проверять орфографию;

• Polyglossum- многоязычная система МП с широким наборомпредметных

 словарей;

• Promt- многоязычная система МП, содержащая множество словарейпо разным предметным областям;

• WebTranSite- система для перевода веб-страниц (сам процессперевода веб-страниц и сообщений компьютерных программ называетсялокализацией).

(Слайд 9)   С точки зрения роли человека в процессе выполнения МП различаютследующие его виды:

• МАНТ (Machine-assistedhumantranslation) - перевод, осуществляемыйчеловеком с использованием компьютера;

• НАМТ (Human-assistedmachinetranslation) - машинный переводпри участии человека;

• FAMT (Fully-automatedmachinetranslation) - полностью автоматизированныймашинный перевод.

В первом случае человек использует компьютерные инструменты,направленные на ускорение и упрощение процесса перевода, нособственно перевод текста выполняет сам человек. Вспомогательнымисистемами компьютерной поддержки перевода здесь выступаютэлектронные словари, терминологические базы данных.

Второй тип систем МП является своего рода промежуточным:здесь одинаково важно участие в процессе перевода и человека, имашины. В машину вводятся электронные словари, морфологическиесправочники и задается определенный алгоритм выполнениязадачи перевода. Роль человека здесь сводится к выбору предлагаемыхмашиной решений и редактированию текста перевода.

Весьма наглядно такой тип систем МП иллюстрируется системамипереводческой памяти (TranslationMemory, ТМ).Идея таких системзаключается в хранении базы данных переводов, сделанныхпрофессиональным переводчиком, для того чтобы в процессе переводапредлагать человеку уже готовый перевод фразы или куска текста,если он уже был однажды переведен. ТМ-программы значительноповышают эффективность работы переводчика, избавляя его отрутинной, повторяющейся работы. Во многих фирмах, занимающихсяпереводом, владение одной из таких программ является существеннымкритерием при приеме

 на работу.

Третий тип систем МП является наиболее сложным, поэтомуостановимся на его характеристике подробнее.

Эффективность полностью автоматизированных систем МП зависитот того, в какой степени в них учитываются объективные законыфункционирования языка и мышления. Но эти законы пока еще недостаточно изучены, и перед создателями системМП возникает множество проблем, отражающихся в недостаточномкачестве результата МП.

По мере усложнения систем МП и включения в них новых этаповавтоматического анализа и синтеза текста выделяют три поколениятаких систем:

1) П-системы - системы прямого перевода (directsystems);

2) Т-системы - системы с синтаксическим преобразованием исходноготекста (от англ. transfer- преобразование);

3) И-системы - системы с семантическим и прагматическим анализом (interlingua- язык-посредник).

Первый тип систем МП (П-системы) включает лишь этапы морфологическогоанализа и синтеза, поэтому результат работы такихсистем представляет своего рода подстрочный перевод. Во второмтипе систем МП (Т-системах) привлекаются методы синтаксическогоанализа и синтеза, причем в зависимости от их уровня (поверхностный, глубинный или синтактико-семантический) выделяют иразные виды Т-систем. Наиболее сложный тип систем МП -И-системы- включает наряду с лингвистической и экстралингвистическуюинформацию, т.е. семантику и прагматику предметной области.

Поэтому после этапов морфологического и синтаксическогоанализа фразы исходного текста алгоритм И-системы включает этапсемантического анализа. Его результатом служат семантическиепредставления фраз ИЯ и ПЯ, обеспечивающие эквивалентность ихсмысла.

 

(Слайд 10) 2.3 Этапы осуществления полностью автоматизированного МП.

В целом схема машинного перевода включает следующиеэтапы:

1) ввод в компьютер текста на ИЯ,

2) его морфологический анализ, т.е. определения части речи и морфологическиххарактеристик каждого слова,

3) синтаксический анализ каждого предложения текста ИЯ (поискосновных членов предложения и определение типов синтаксическихсвязей между ними, выражаемых в виде дерева зависимостейили дерева непосредственных составляющих),

4) семантический анализ каждого предложения ИЯ, в результате которогосоздается семантическое представление этого предложения,независимое от типа языка (общее и для ИЯ, и для ПЯ),

5) синтаксический синтез предложений ПЯ (создание предложенийправильной синтаксической структуры, соответствующей правиламПЯ и типу синтаксической структуры предложения на ИЯ,

6) морфологический синтез каждого слова в составе отдельных предложенийтекста ПЯ (постановка слов ПЯ в нужных морфологическихформах);

7) вывод текста на ПЯ.

 

(Слайд 11) 2.4 Параметры оценки систем МП.

Сравнение и оценка систем МП осуществляется по следующим параметрам (FrameworkfortheEvaluationofMachineTranslation, FEMTI):

• характеристики программного обеспечения: надежность системы, удобство использования, скорость работы, возможность обновлений, эффективность, мобильность и т.п.;

• характеристики пользователя и задач перевода: особенности пользователя, автора и текста, а также назначение перевода;

• особенности системы МП: стратегия построения системы, лингвистические ресурсы и т.п.;

• специфика выходного текста: точность, целостность, стиль и т.п.,а также наличие ошибок любого характера.

В частности, системы МП письменных текстов в значительнойстепени отличаются от систем перевода устной речи как по программномуобеспечению (в последнем случае обязательно включениев процесс МП этапов автоматического анализа и синтеза устнойречи), так и по тематике. Системы для перевода устного диалогаобычно ориентированы на узкую тематику: резервирование мест вгостинице, определение маршрута проезда по городу и т.д.

Соответственно, и оценку каждой из систем МП нужно производитьс учетом их названных особенностей.

Итак, машинный перевод, представляющий собой процесс передачисодержания текста на одном языке средствами другого языка с использованиемкомпьютеров, является одним из первых и не теряющихсвоей актуальности направлений компьютерной лингвистики. Процессмашинного перевода может предполагать разную степень активностичеловека в его выполнении, что обусловливает многообразие его форм,выбор которых зависит от целей перевода и его условий.

(Слайд 12) 2.5 Проблемы МП.

Отдельные трудности процесса МП связаны с необходимостьюопределения анафорических связей в текстовом целом (anaphoraresolution), снятия омонимии на разных уровнях, а также снеобходимостью привлечения в процесс перевода экстралингвистическихзнаний.

Важность анафорических связей определяется достаточно активнымиспользованием в тексте языковых выражений, которые немогут быть поняты без обращения к предыдущему контексту. Такимивыражениями выступают, к примеру, анафорические местоименияон или he. Установление того, к какому языковому выражениюиз предыдущего текста относится анафорическое местоимение и ккакой сущности реального мира (референту) местоимение и его антецедентотсылает, важно как для понимания всего текста, так и дляправильного построения синтаксического и морфологическогопредставления текста. Правильная интерпретация анафорическогоместоимения требует привлечения данных всех языковых уровней,выхода за рамки одного предложения и привлечения прагматическогоанализа всего текста.

Необходимость включенияэкстралингвистической информации в процесс

 МП иллюстрируется, к примеру, следующими фразами:

Председатель Центральной избирательной комиссии назначаетсяпрезидентом Российской Федерации.

Согласно задумкам американских ученых, сразу после стартавражеские ракеты будут уничтожать авиационные лазеры и мобильныекомплексы малых противоракет.

Лишь знания о соответствующих предметных областях позволяютв данном случае определить типы глубинных синтаксическихотношенийпредседатель — президент ('председатель становитсяпрезидентом' или 'президент назначает председателя') и лазеры-ракеты ('лазеры уничтожают ракеты' или наоборот).

В итоге для функционирования систем МП требуется лингвистическое,программное и информационное обеспечение систем МП.

Лингвистическим обеспечением таких систем выступают словарислов и словосочетаний с соответствующими признаками дляИЯ и ПЯ;морфологические таблицы суффиксов и окончаний для ИЯ и ПЯ;базы грамматических правил и др. К программному обеспечениюотносятся программы выполнения перевода, ведения словарей, формированиябазы правил и т.д. Информационное обеспечение представляетбаза экстралингвистических знаний о предметной области.



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.