DOESTE

Repositório de textos para fins investigativos

O DOESTE é um repositório em desenvolvimento de textos escritos em língua portuguesa, criado para fins investigativos em áreas como linguística, educação, aquisição da linguagem, processamento de linguagem natural, entre outras. O repositório oferece acesso a amostras textuais anotadas morfossintaticamente e lematizadas, possibilitando pesquisas refinadas por forma, lema, classe gramatical e traços morfológicos.

Atualmente, o DOESTE reúne dois conjuntos principais de textos:

  • um corpus de escrita escolar, composto por produções narrativas e argumentativas de estudantes brasileiros e portugueses em diferentes níveis da educação básica;

  • um corpus de textos jornalísticos, extraídos do g1, em particular sobre temas como educação, agro, política e economia.

 

Cada subcorpus possui características próprias, descritos detalhadamente em suas respectivas páginas:

 

estatísticas 

O projeto tem caráter incremental e prevê a incorporação progressiva de outros gêneros e esferas discursivas, como textos políticos, administrativos, opinativos, literários e acadêmicos, sempre com o objetivo de fornecer bases empíricas para investigações científicas sobre o português escrito em uso.