DOESTE

Repositório de textos para fins investigativos

Apresentação

O DOESTE v0.5 é um repositório em desenvolvimento de corpora de textos escritos em língua portuguesa, criado para fins investigativos em áreas como linguística, educação, aquisição da linguagem, processamento de linguagem natural, entre outras. O repositório oferece acesso a amostras textuais anotadas morfossintaticamente e lematizadas, possibilitando pesquisas refinadas por forma, lema, classe gramatical e traços morfológicos.

Atualmente, o DOESTE reúne dois conjuntos principais de textos, :

  • Corpus de Textos Escolares, composto por produções narrativas e argumentativas de estudantes brasileiros e portugueses em diferentes níveis da educação básica;

  • Corpus de Textos Jornalísticos, composto de notícias extraídas de veículos de imprensa do Brasil e voltado para análises do discurso público, estratégias argumentativas e padrões linguísticos contemporâneos.

Cada corpus possui critérios próprios de organização, anotação e segmentação, descritos detalhadamente em suas respectivas páginas.

O projeto tem caráter incremental e prevê a incorporação progressiva de outros gêneros e esferas discursivas, como textos políticos, administrativos, opinativos, literários e acadêmicos, sempre com o objetivo de fornecer bases empíricas para investigações científicas sobre o português escrito em uso.