Хелпикс

Главная

Контакты

Случайная статья





Download. Evaluation



Download

nerus_lenta.conllu.gz ~2GB, ~700K texts

Usage

Dataset is gzip-compressed CoNLL-U file:

$ gunzip -c nerus_lenta.conllu.gz | head

 

# newdoc id = 0

# sent_id = 0_0

# text = Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости.

1   Вице-премьер _   NOUN _   Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing  7   nsubj _ Tag=O

2   по  _   ADP _   _   4   case _   Tag=O

3   социальным  _   ADJ _   Case=Dat|Degree=Pos|Number=Plur 4   amod _ Tag=O

4   вопросам _   NOUN _   Animacy=Inan|Case=Dat|Gender=Masc|Number=Plur  1   nmod _ Tag=O

5   Татьяна _   PROPN _   Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing   1   appos _ Tag=B-PER

6   Голикова _   PROPN _   Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing   5   flat:name   _ Tag=I-PER

7   рассказала  _   VERB _    Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 0   root _ Tag=O

8   ,   _   PUNCT _   _   13  punct _   Tag=O

9   в   _   ADP _   _   11  case _   Tag=O

10  каких _   DET _   Case=Loc|Number=Plur 11  det _   Tag=O

11  регионах _   NOUN _   Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur  13  obl _ Tag=O

12  России _   PROPN _   Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing   11  nmod _ Tag=B-LOC

13  зафиксирована _   VERB _    Aspect=Perf|Gender=Fem|Number=Sing|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass 7   ccomp _ Tag=O

14  наиболее _   ADV _   Degree=Pos  15  advmod _   Tag=O

15  высокая _   ADJ _   Case=Nom|Degree=Pos|Gender=Fem|Number=Sing 16  amod _ Tag=O

16  смертность  _   NOUN _   Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing   13  nsubj:pass  _ Tag=O

17  от  _   ADP _   _   18  case _   Tag=O

18  рака _   NOUN _   Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing  16  nmod _ Tag=O

19  ,   _   PUNCT _   _   20  punct _   Tag=O

20  сообщает _   VERB _    Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act 0   root _ Tag=O

21  РИА _   PROPN _   Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing  20  nsubj _ Tag=B-ORG

22  Новости _   PROPN _   Animacy=Inan|Case=Nom|Gender=Fem|Number=Plur   21  appos _ Tag=I-ORG

23  .   _   PUNCT _   _   20  punct _   Tag=O

 

# sent_id = 0_1

# text = По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе.

1   По  _   ADP _   _   2   case _   Tag=O

2   словам _   NOUN _   Animacy=Inan|Case=Dat|Gender=Neut|Number=Plur  9   parataxis   _ Tag=O

3   Голиковой   _   PROPN _   Animacy=Anim|Case=Gen|Gender=Fem|Number=Sing   2   nmod _ Tag=B-PER

4   ,   _   PUNCT _   _   2   punct _   Tag=O

5   чаще _   ADV _   Degree=Cmp  9   advmod _   Tag=O

6   всего _   PRON _   Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing  5   obl _ Tag=O

7   онкологические _   ADJ _   Case=Nom|Degree=Pos|Number=Plur 8   amod _ Tag=O

8   заболевания _   NOUN _   Animacy=Inan|Case=Nom|Gender=Neut|Number=Plur  9   nsubj _ Tag=O

9   становились _   VERB _    Aspect=Imp|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Mid 0   root _ Tag=O

10  причиной _   NOUN _   Animacy=Inan|Case=Ins|Gender=Fem|Number=Sing   9   xcomp _ Tag=O

11  смерти _   NOUN _   Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing   10  nmod _ Tag=O

...

Nerus package provides convenient Python 3.5+ API:

$ pip install nerus

Load and show annotations (uses ipymarkup):

>>> from nerus import load_nerus

 

>>> docs = load_nerus(NERUS)

>>> doc = next(docs)

>>> doc

 

NerusDoc(

id='0',

sents=[NerusSent(

    id='0_0',

    text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости.',

    tokens=[NerusToken(

         id='1',

         text='Вице-премьер',

         pos='NOUN',

         feats={'Animacy': 'Anim',

          'Case': 'Nom',

          'Gender': 'Masc',

          'Number': 'Sing'},

         head_id='7',

         rel='nsubj',

         tag='O'

     ),

     NerusToken(

         id='2',

         text='по',

         pos='ADP',

...

 

>>> doc.ner.print()

Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в

                               PER─────────────              

каких регионах России зафиксирована наиболее высокая смертность от

          LOC───                                             

рака, сообщает РИА Новости. По словам Голиковой, чаще всего

          ORG────────       PER──────            

онкологические заболевания становились причиной смерти в Псковской,

                                                    LOC────── 

Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-

LOC───── LOC───── LOC───────────────       LOC────────      

премьер напомнила, что главные факторы смертности в России — рак и

                                               LOC───        

болезни системы кровообращения. В начале года стало известно, что

смертность от онкологических заболеваний среди россиян снизилась

впервые за три года. По данным Росстата, в 2017 году от рака умерли

                          ORG─────                            

289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.

>>> sent = doc.sents[0]

>>> sent.morph.print()

   Вице-премьер NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing

             по ADP

     социальным ADJ|Case=Dat|Degree=Pos|Number=Plur

       вопросам NOUN|Animacy=Inan|Case=Dat|Gender=Masc|Number=Plur

        Татьяна PROPN|Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing

       Голикова PROPN|Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing

     рассказала VERB|Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act

              , PUNCT

              в ADP

          каких DET|Case=Loc|Number=Plur

       регионах NOUN|Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur

         России PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing

  зафиксирована VERB|Aspect=Perf|Gender=Fem|Number=Sing|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass

       наиболее ADV|Degree=Pos

        высокая ADJ|Case=Nom|Degree=Pos|Gender=Fem|Number=Sing

     смертность NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing

             от ADP

           рака NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing

              , PUNCT

       сообщает VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act

            РИА PROPN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing

        Новости PROPN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Plur

              . PUNCT

                                

>>> sent.syntax.print()

┌►┌─┌───── Вице-премьер nsubj

│ │ │ ┌──► по       case

│ │ │ │ ┌► социальным amod

│ │ └►└─└─ вопросам nmod

│ └────►┌─ Татьяна  appos

│  └► Голикова flat:name

┌─└───────── рассказала   

│ ┌──────► ,        punct

│ │ ┌──► в        case

│ │ │ ┌► каких    det

│ │ ┌►└─└─ регионах obl

│ │ │ └──► России   nmod

└──►└─└───── зафиксирована ccomp

│ ┌► наиболее advmod

│ ┌►└─ высокая  amod

└►┌─└─── смертность nsubj:pass

│ ┌► от       case

└──►└─ рака     nmod

     ┌► ,        punct

┌─┌─└─ сообщает     

│ └►┌─ РИА      nsubj

│ └► Новости  appos

└────► .        punct

Evaluation

Nerus is automatically annotated silver standart dataset, it has errors in markup. It is important to estimate the quality of annotation and types of errors. We apply the same pipeline to Lenta.ru articles and several golden datasets: SynTagRus, GramEval2020 Taiga News, Collection5. Then we compare golden markup with our automatic one and estimate error rates.



  

© helpiks.su При использовании или копировании материалов прямая ссылка на сайт обязательна.