Хелпикс

Главная

Контакты

Случайная статья





Семинар 1



Вопросы для обсуждения

1. Что такое лингвистика? Назовите ее разделы. В каком разделе лингвистикаимеет дело с информационными технологиями?

2. Можно ли считать синонимами прикладную и компьютерную лингвистику? Аргументируйте свой ответ.

3. Перечислите основные направления компьютерной лингвистики. Расскажитеоб одном из направлений.

4. Сравните разные определения языка. Выделите в них ключевые слова. Составьтена основе повторяющихся ключевых слов свое определение языка.

5. Подумайте, с естественным или искусственным языком имеет дело компьютернаялингвистика?

6. Какие виды естественных и искусственных языков вам известны? Приведитепримеры естественных и искусственных языков разных видов.

Рекомендуемая литература

1. Баранов А. Н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд. М.: ЛКИ, 2007. С. 6-8, 20.

2. Беляева Л. Н. Лингвистические автоматы в современных гуманитарныхтехнологиях: учеб. пособие. СПб.: Книжный Дом, 2007. С. 36-40.

3. Большой энциклопедический словарь. Языкознание. М.: Большая Российская энциклопедия, 1998. С. 201-202; 604-606, 618-622.

4. Всеволодова А. В. Компьютерная обработка лингвистических данных: учеб. пособие. 2-е изд., испр. М.: Флинта: Наука, 2007. С. 63-64.

5. Зубов А. В., Зубова И. И. Информационные технологии в лингвистике: учеб. пособие. М.: Академия, 2004. С. 5-7.

 

Упражнения

1. Определите статистические показатели приведенного ниже текста смешанного языкового типа.

Проекты Cibola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для Sun Os и Solaris (источник: Проекты Cibola/Oleada http: //rvb. ru/soft/catalogue/c01. html).

Слов  
Символов (без пробелов)  
Символов (с пробелами)  
Символов в латинской графике  
Чисел  
Средняя длина слов  

 

2. Какому языку соответствует средняя длина слов текста смешанного типа, приведенного в задании 1? Для выполнения задания вычислите среднюю длину слов русского языка из приведенного текста и среднюю длину слов в латинской графике.

 

3. Определите, каким языкам соответствуют следующие специфические буквы, буквосочетания и слова:

а) Ø, ö, ß, ρ, ω, ё, š;

б) th, sch, š č;

в) et, the, der, och, iç in.

4. Создайте диагностический словарь для определения языка на материале текстов на двух разных языках (на ваш выбор). Для этого заполните следующуютаблицу.

Таблица

Критерий Язык 1 Язык 2
Типичные артикли    
Указательные местоимения    

 

Критерий Язык 1 Язык 2
Местоимения 3-го лица    
Отдельные формы вспомогательных глаголов    
Другие частотные слова    

 

5. Дополните таблицу встречаемости букв в распространенных европейских языках [Всеволодова 2007: 64], добавив в нее данные по русскому языку. Используйте для этого любой текст на русском языке объемом не менее100 символов.

 

6. Прочитайте несколько фраз на эсперанто. Назовите морфологические диагностические показатели этого языка, учитывая, что существительные и прилагательные на эсперанто всегда имеют одни и те же окончания.

 

Рус. Эсперанто
зеленое дерево Verda arbo
старый человек Maljuna viro
хороший друг Bela amiko

 



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.