Хелпикс

Главная

Контакты

Случайная статья





Руководство по созданию размеченного текста («ЭССЕ») для автоматической оценки качества результатов поиска переводных текстовых заимствований



Руководство по созданию размеченного текста («ЭССЕ») для автоматической оценки качества результатов поиска переводных текстовых заимствований

Зубарев Д.В., Соченков И.В.

1. Введение

Целью работы является создание множества размеченных документов, содержащих переводной плагиат, для последующей оценки качества работы методов обнаружения некорректных заимствований. Каждый разметчик выбирает тему, по которой он составляет небольшое эссе на русском языке, содержащее переводной плагиат из документов на английском языке. Написанный текст должен быть создан согласно методике описанной в пункте 2. В результате разметки должна получиться таблица в формате Excel, содержащая оригинальные и заимствованные предложения, а также дополнительную информацию. Пример результата разметки представлен в папке «пример».

2. Методика составления текста переводного эссе

1. Каждое эссе составляется в отдельной папке с фамилией автора и кратким названием темы, например: «Петров – Методы колки дров топором».

2. Необходимо найти документы-источники на заданную тему на английском языке. Пользоваться нужно поисковыми машинами (Google). Источниками могут являться статьи «Википедии» и любые другие данные, но предпочтительнее использовать научные статьи.

3. Скачать найденные документы, преобразовать их в формат обычного текста (plain text) и положить их в директорию sources (не sourses, не SoUrCsEs не Сорцы) (см. папку «пример»).

4. Служебные файлы (картинки, js-, css- и проч.) гипертекстовых страниц не следует включать в архив эссе.

5. На основе предложений из найденных документов создать переводные заимствованные фрагменты текста. Можно пользоваться машинными переводчиками, но результат должен быть связным.

6. Заполнить очередную строку в таблице sources_list.xlsx (см. файл sources_list.xlsx в папке «пример»). Для этого необходимо:

6.1.  Исходное предложение (предложения) занести в таблицу в колонку (колонки) "Исходное предложение". Никакие модификации (удаление переносов, «лишних» пробелов и символов) над исходным предложением не допускаются!

6.2. Переведенное предложение занести в колонку "Фрагменты текста эссе".

6.3. Название документа, из которого взято предложение (в точности, как оно отображается в папке «sources») занести в колонку "Имя файла документа-источника".

6.4. Во избежание ошибок, настоятельнорекомендуется давать документам-источникам в папке «sources» короткие имена (в идеале - цифровые): 1.txt, 2.txt, и т.д.



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.