Хелпикс

Главная

Контакты

Случайная статья





Laryngeal correlate of Persian word accent



Laryngeal correlate of Persian word accent

Liubov G. Silanteva

Lomonosov Moscow State University, Moscow, 119991, Russian Federation;
lyubovsilantieva@yandex.ru

 

In order to determine the connection between Persian word accent and the characteristics of laryngeal work, the speech of four Persian native speakers (two men and two women) was recorded using the Kay Pentax Real-Time EGG glottograph in a two-channel mode: microphone and glottographic signals were recorded separately. Both channels were processed with Praat speech analysis software. In the realizations examined the syllable nucleuses (Persian vowels) were segmented and analyzed. The obtained parameters were processed with the SPSS statistical package with a linear multivariate regression model applied. Speakers’ gender, stress (accent) and quality (openness) of the vowels were chosen as independent variables. Subsonic frequency of larynx fluctuations (Sub), vertical laryngeal position (VLP), pitch frequency (F0) and duration (T) were investigated as dependent variables in glottographic channel.

When examining stress (accent) according to a single-factor model, pitch increased by 4.6% (Sig=0.019) (which is consistent with previous studies on the acoustic recordings of Persian speech by other authors) and subsonic frequency (Sig=0.016) (which was extracted from the glottographic signal by digital filters) proved to be statistically significant parameters for marking the stressed syllable. The average subsonic frequency (Sub) in the stressed syllable was lower than in the unstressed one by 15.87% (9.56 Hz and 11.3 Hz respectively).

The connection between syllable nucleus duration (T) and vertical larynx position (VLP) with stress (accent) turned out statistically insignificant. The material obtained was also analyzed using two- and three-factor models.

General conclusion: marking of the stressed syllable in Persian begins already at the entrance to the articulatory apparatus and, along with the well-known factor of increase of pitch (F0) by 0.79 semitones, it is also characterized by simultaneous reduction of subsonic frequency (Sub) by approximately 2.74 semitones.

Key words: Persian, acoustic analysis, glottographic analysis, prosody, vowel, syllable nucleus, stress, accent, stressed syllable, pitch frequency, duration, intensity, larynx, vertical larynx position, subsonic frequency.

 

Персидский язык, называемый также языком фарси, принадлежит к юго-западной подгруппе иранской группы индоевропейской семьи. Является государственным языком Ирана (население около 85 млн. человек). В различных разновидностях встречается также в сопредельных странах – в Афганистане, Пакистане, Таджикистане, Узбекистане и странах Персидского залива. По некоторым оценкам около 1 млн. его носителей проживают в США, которые туда эмигрировали после Исламской революции 1979 года. Как-то косовато звучит

В истории отечественных исследований персидского словесного ударения наблюдались расхождения во мнениях относительно его природы. В эпоху, когда инструментальные методы ещё не применялись, персидское словесное ударение полагалось экспираторным или динамическим. В экспериментальном исследовании А.Б. Мамедовой было установлено, что в формировании персидского ударения участвуют все три основных физических параметра: интенсивность (I), длительность (T) и частота основного тона (F0), но основным компонентом она считала интенсивность (I) [Мамедова 1972: 45]. Этот вывод, однако, не был подкреплён надёжным статистическим анализом, что подробно рассматривается в работе [Иванов 1996]. В работе [Поляков 1988: 114] ударение в персидском языке было охарактеризовано как двухкомпонентное – динамико-тоническое (с преимуществом интенсивности (I) над тоном (F0)).

В 1958 г. известный иранский лингвист П. Натель Ханлари (1914–1990) провёл экспериментальное исследование персидского словесного ударения в фонетической лаборатории в Париже (Франция), в результате которого выяснилось, что ударный слог характеризуется повышением частоты основного тона (F0) на величину около 3,9 полутона [Natel Khanlari 1958]. На этом основании он квалифицировал персидское ударение как тоническое. Позднее в работах [Иванов 1972, Иванов 1975, Иванов 1996] было найдено сходное повышение F0 в ударном слоге на 3,1 полутона. Применение более современных методов исследования, дисперсионного анализа и синтеза речи в этих работах также позволило определить персидское словесное ударение как тоническое.

В экспериментальном исследовании [Abolhasanizadeh et al. 2012] было обнаружено, что значимым маркером ударения в персидском языке является тон (F0) при чрезвычайно малых различиях в длительности, интенсивности и спектре между ударными и безударными слогами. Здесь следует обратить внимание на то, что малые различия в длительности и спектре практически означает, что у персидских гласных нет качественной и количественной редукции в безударном слоге. Забегая вперёд, отметим, что это полностью подтверждается в нашем эксперименте. На основании данных исследования [Abolhasanizadeh et al. 2012], а также [Sadat Tehrani 2007] предполагается, что тональный акцент равен (L)+H*, причём H-тон берет на себя последний слог лексической основы слова, а L явно выражается в многосложном слове (здесь и далее используются обозначения по системе ToBI https://en.wikipedia.org/wiki/ToBI: L означает Low, т.е. низкий тон, H – High, т.е. высокий).

В более поздней экспериментальной работе [Rahmani et al. 2018] в развитие положений, описанных в работе [Abolhasanizadeh et al. 2012] отмечается, что помимо основного тонового акцента (H), есть два интонационных граничных тона: L% для повествования и Wh-вопросов и H% для альтернативных вопросов, которые нужно ответить «да/нет» [Rahmani et al. 2018; Mahjani 2003]. Длина и структура морфологического слова на модель ударения не влияет [Vahidian-Kamyar 2001].

На современном этапе исследований персидской просодии в отечественной, иранской и западных школах уже нет расхождения мнений о том, что на уровне акустики словесное ударение является тоническим (т.е. его главным фактором является F0). Однако связь ларингальных параметров со словесным ударением в персидском языке ранее не изучалась ни в отечественном, ни в зарубежном языкознании.

Современный персидский язык характеризуется противопоставлением гласных по долготе: [ā, i, u] – долгие; [а, о, е] – краткие. Все эти гласные выступали в качестве слогоносителей в наших экспериментах, в которых сопоставлялись их параметры в ударном и безударном слогах.

Фонетическое окружение слогоносителей может быть как звонким, так и глухим, следовательно, в пределах слога наблюдаются различия в работе голосовых связок: при артикуляции звонкого окружения голосовые связки колеблются, при артикуляции глухого – нет. Во втором случае частота основного тона (F0) части слога не определена. Поскольку при поиске акустического коррелята необходимо сравнение одинакового набора параметров для всех языковых единиц, слоги целиком не анализировались, фонетическое окружение не рассматривалось, исследовались только сами слогоносители.

Ударение в персидских именных частях речи, как правило, падает на последний слог морфологического слова, однако, ударность первого слога обнаруживается в ряде союзов и частиц. Всегда безударны изафетный показатель -e, неопределённый артикль -i, послелог -rā, энклитические местоимения и частицы, краткая глагольная связка, союзы -o «и» и ke «что», которые, присоединяясь к морфологическому слову, образуют с ним фонетическое слово с нефинальным ударением. В личных глагольных формах ударение падает на приставку отрицания na-/ne-, также образуя фонетические слова с нефинальным ударением. Здесь словесное ударение усиливается фразовым. Более слабое ударение наблюдается в положительных формах простых глаголов на префиксах mi- и be- или на личных окончаниях. Перечисленные ритмические структуры используются экспериментаторами для анализа количественных характеристик ударения не только в персидском, но и в других иранских языках.

В современном языкознании механизмы артикуляции звуков органами речи, которые располагаются на выходе речевого тракта, исследованы достаточно подробно, в то время как изучение работы речевых органов, расположенных более глубоко в речевом тракте (корень языка, ларинкс, голосовые связки), было невозможно без специальной аппаратуры и стало доступно только в последние годы. В области изучения работы ларинкса исследования ведутся различными методами уже около 90 лет: первое чисто теоретическое исследование было опубликовано в 1929 г. [Wegel 1929], однако, подавляющее большинство работ рассматривает функционирование ларинкса в медицинском и анатомическом аспектах и находится далеко от интересов лингвистики.

Исследования работы ларинкса в лингвистическом плане можно классифицировать по трём аспектам:

1) языковому, т.е. речь носителей каких языков была обследована;

2) тематическому (предметному), т.е. какая часть речевого такта и в связи с чем обследовалась; к каким выводам пришли исследователи;

3) методическому, т.е. какой метод использовался, и какая аппаратура применялась. Точно ли нужна запятая перед и?

Подходы к проведению наблюдений за работой ларинкса, измерение параметров его движения и обработка статистических связей отличаются большим разнообразием. Важным разделом экспериментальных исследований является компьютерное моделирование речепроизводства: в области фонетики известны работы отечественных школ Л.В. Бондарко, Л.А. Вербицкой, В.И. Галунова. Такого рода исследования требуют высокотехнологического обеспечения, из которого наиболее часто используются аппараты: МРТ, электромиографы, фиброскопы, электроглоттографы EGG. Последний, который для простоты мы в дальнейшем будем называть глоттографом, имеется в наличии в Лаборатории экспериментальной фонетики (ЛЭФ) Института стран Азии и Африки Московского Государственного Университета имени М.В. Ломоносова. Оба слова с маленькой буквы.

Современную методику описания работы ларинкса по данным, полученным с помощью глоттографа, и список соответствующей литературы можно найти, например, в [Esling 2012: 121–149]. Ряд работ был направлен на измерение давления воздуха в различных точках речевого тракта. Весьма распространён подход, при котором измеряется и записывается высота расположения ларинкса (Vertical Larynx Position, VLP). Это позволяет судить о длине речевого тракта.

Глоттограф – прибор для исследования вибрации голосовых складок, представляющий собой осциллограф, снабжённый двумя электродами, накладываемыми на шею обследуемого, на данный момент позволяет наиболее точно изучить работу ларинкса при производстве речи неинвазивными методами. Принцип работы глоттографа основан на измерении сопротивления тока ультравысокой частоты, который, проходя через ларинкс, меняет свою силу в соответствии с колебаниями голосовых связок. Ток через кожу испытуемого идёт очень слабый (примерно такой же, как при снятии кардиограммы), и поэтому им не ощущается. С помощью данного прибора можно наблюдать колебания голосовых связок в процессе естественной фонации, без причинения неприятных или болезненных ощущений обследуемому.

Для инструментального исследования работы ларинкса и голосовых связок в процессе формирования просодии слова была проведена запись речи четырёх носителей персидского языка М1, F1, М2 и М3, где М1 и F1 – женщины, а М2 и М3 – мужчины.

Для записи речи помимо микрофона с усилителем в составе компьютеризированной лаборатории CSL 4500 фирмы Kay Pentax использовался глоттограф (модель 6103, управляющая программа – версия 5298 с программным обеспечением Real Time EGG) Лаборатории Экспериментальной Фонетики ИСАА Московского Государственного Университета строчные буквы в начале слов имени М.В. Ломоносова. Звукозапись, сегментация речевого сигнала и акустический анализ записанных реализаций проводились с помощью программ Real Time EGG, Praat и Adobe Audition.

Речевой поток регистрировался в двухканальном режиме: в первый канал записывался микрофонный сигнал, во второй – сигнал глоттографа. Все параметры такого рода записываются синхронно с акустическим сигналом, который анализируется обычно программами Praat (см. список литературы) и VoiceSauce [Shue et al. 2011: 1846–1849].

Использование дополнительного канала информации – глоттограммы – значительно повысило точность сегментации речевого потока по сравнению с одноканальной записью. В микрофон поступает суммарный акустический сигнал от голосовых связок и от турбулентности в ротовой полости, шумы накладываются на гармоники, что затрудняет определение ряда параметров, а при двухканальной записи гармоническая составляющая и шумы видны раздельно. При использовании глоттографа регистрируются ларингальные параметры: вертикальное смещение ларинкса (Vertical larynx position, VLP) и инфразвуковая частота (Sub), характеризующая возвратно-поступательные движения ларинкса в вертикальной плоскости.

Рис. 1. Сегментация слова xub-i ‘хороший’ в произношении информанта F1 (женщина) в Praat

На Рис. 1 здесь и далее наверное, надо с маленькой буквы рис. 1 представлена реализация фонетического слова xub-i ‘хороший’ с ударением на первом слоге в исполнении информанта F1. По оси х откладывается общая длительность произнесения (Т), в данном случае она составляет 0,23925 секунды. Вертикальные пунктирные линии, отходящие от оси x, обозначают границы между звуковыми сегментами. По оси у помимо силы тока в относительных единицах отложена частота основного тона (F0) в Гц. График F0 обозначен жирными точками.

В верхней части рисунка находится интонограмма, представляющая микрофонный сигнал (канал 1), в нижней – глоттограмма в виде кривой пилообразной линии (канал 2). В графиках интонограммы и глоттограммы видна горизонтальная осевая линия, изображённая мелким пунктиром. Когда графики совпадают с ней, органы речи находятся в состоянии покоя.

Глоттограмма, снимаемая с помощью электродов, которые накладываются на горло информанта, отражает фазы ларингальных движений в виде их электрического аналога. При нормальном функционировании речевого аппарата график имеет чётко выраженную периодичность, по циклам которой можно судить о колебательных движениях ларинкса и фазах раскрытия и смыкания голосовых складок. При смыкании голосовых связок сопротивление кожи уменьшается, что на рисунке соответствует смещению кривой вверх: каждый зубец кривой глоттограммы соответствует одному смыканию голосовых связок (см Рис. 2). Помимо этого, сопротивление кожи уменьшается и при движении ларинкса вверх. Это отражается на графике в виде больших волн пилообразной кривой.

Величина смещения ларинкса вверх на Рис. 1 обозначена параметром VLP, отсчитываемым от осевой линии глоттограммы и измеряемым в программе Praat в относительных единицах. Пики волн смещения ларинкса вверх указаны вертикальными линиями выше глоттограммы. Данные нерегулярные волны с заметным джиттером соответствуют инфразвуковым колебаниям ларинкса. На приведённом графике волнистая инфразвуковая кривая промодулирована частотой колебания голосовых связок.

Рис. 2. Глоттограмма реализации слова birun ‘наружу’ информантом М 2 (мужчина)

Пояснения к глоттограмме на Рис. 2:

По оси абсцисс откладывается время, по оси ординат – сила тока. Плавные растянутые волны малой амплитуды на графике соответствуют вертикальным движениям ларинкса. При подъёме ларинкса сопротивление кожи уменьшается и ток через неё возрастает. Частые колебания, модулирующие плавные движения ларинкса, – колебания голосовых связок с чётко выраженной периодичностью. При смыкании голосовых связок сопротивление кожи также уменьшается, сила тока через кожный покров увеличивается, что выражается в подъёме линии глоттограммы на «зубцах». При размыкании голосовых связок наблюдается обратный процесс.

Для анализа было отобрано 18 двусложных слов, встречающиеся в наших экспериментальных текстах неоднократно: aslan ‘на самом деле’, bālā ‘вверх’, birun ‘наружу’, pesar ‘сын’, porsid ‘(он) спросил’, pičid ‘(он) завернул’, xandān ‘смеющийся’, xub-i ‘хороший’, doxtar ‘дочь, девушка’, rafte ‘ушедший’, rise ‘ряд, цепочка’, sālon ‘салон, зал’, kešid ‘(он) потянул’, mardom ‘люди, народ’, mohemm ‘важный’, nāmzad ‘обручённый’, nabud ‘не был’, negāh ‘взгляд’. Некоторые из этих слов встречались в разных позициях по 2–3 раза. Всего было проанализировано 112 реализаций слов, т.е. 224 слога (112 ударных и 112 безударных).

В данной работе ларингальные параметры, которые ранее рассматривались статично, на каком-то определённом временном срезе, рассматриваются в динамике, совместно с инфразвуковой составляющей, которую в медицинской практике считали избыточным показателем. Поэтому программное обеспечение Real-Time EGG выпрямляет график таким образом, что длинных волн, изображённых на Рис. 1 и Рис. 2 не видно. Они становятся заметны при анализе в программах Praat и Adobe Audition.

В ходе работы запись речи была подвергнута фильтрации для выделения полезного сигнала в инфразвуковом диапазоне и подавления высокочастотных шумов. Для этого в программе Adobe Audition был использован линейный фильтр Бесселя (Effects > Filters > Scientific Filters > Bessel), который отличается пологой кривой вблизи точки среза. При настройке был выбран тип фильтрации Low Pass, т.е. фильтр, пропускающий низкие частоты, с возможностью самостоятельного подбора частоты среза (Cutoff). Здесь мы исходили из того, что нижняя граница слышимых частот находится вблизи 20 Гц, и, чтобы не утерять полезную информацию, разумным представлялось установить частоту среза Cutoff несколько выше этой величины. Опытным путём выяснилось, что при повышении частоты среза даже менее чем на октаву, до 30–40 Гц, на графике колебаний появлялась «гребёнка», что говорит о присутствии гармонических колебаний слышимых частот, усложняющих анализ, а при понижении её до 20 Гц присутствовала вероятность того, что фильтр срезает часть инфразвуковой составляющей. Таким образом, оптимальной оказалась частота среза 25 Гц (см. Рис. 3).

Рис. 3. График колебаний ларинкса при произнесении слова xub-i ‘хороший’ информантом F1 (женщина) до и после фильтрации

а) исходная глоттограмма до фильтрации

б) после фильтрации; частота среза = 25 Гц

Пояснения к Рис. 3: на графике по оси x откладывается время произнесения слова в секундах,
по оси y – вертикальные возвратно-поступательные движения ларинкса относительно линии покоя в %%.

Графики на Рис. 3а и 3б гомогенны, имеют одинаковое количество больших пиков, расстояния между которыми равны. На Рис. 3б видно, что один период инфразвукового колебания ларинкса (показан стрелочками) может превышать длительность слогоносителя (границы гласного [u] показаны пунктирными линиями). В этом случае период колебаний (T, в секундах) определялся как промежуток от пика, находящегося внутри сегмента (слогоносителя), до ближайшего пика. При этом мы абстрагировались от того, что ближайший пик мог находится вне рассматриваемого сегмента. Далее инфразвуковая частота в Гц определялась по формуле . При некотором опыте экспериментатор мог определять период колебаний (T) сразу по исходному графику без фильтрации. Обе оценки (по графикам на Рис. 3а и 3б) совпадали с большой точностью.

Абсолютные значения полученных параметров были переведены в относительные величины, которые более устойчивы (робастны) по отношению к темпу речи и индивидуальным особенностям говорящих. Наряду с абсолютными значениями инфразвуковой частоты (Sub) и частоты основного тона (F0), рассматривались их относительные дериваты, которые измерялись в процентах (%%): за 100% принималось максимальное значение измеряемого параметра, найденное в реализациях каждого информанта.

Наиболее сложным оказалось измерение вертикального смещение ларинкса (VLP). Так как Praat автоматически изменяет масштаб глоттограммы по вертикали, чтобы заполнить окно, и графически одна и та же величина подъёма ларинкса в разных реализациях (файлах) занимает различное пространство, значения параметра вертикального смещения ларинкса (VLP) были изначально измерены в относительных единицах[СЛГ1] (%%), используемых в программе звукового анализа и аудиоредакторе Adobe Audition.

Всего было обработано 224 слога (112 ударных и 112 безударных). По данным проведённых измерений и проверки всех анализируемых параметров на релевантность была составлена Таб. 1. сокращается табл. и снова с маленькой буквы

Таб. 1. в заголовке слово Таблица пишется полностью  Выборка из таблицы измерений параметров реализаций персидских гласных в качестве слогоносителей



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.