DOESTE

Repositório de textos para fins investigativos

Caracterização metodológica do Corpus de Textos Escolares

O Corpus de Textos Escolares reúne produções escritas de estudantes monolíngues de português — brasileiro e europeu — em diferentes etapas da educação básica. Trata-se de um conjunto voltado exclusivamente a fins de investigação científica, com aplicações em estudos sobre aquisição da linguagem escrita, desenvolvimento textual, variação morfossintática, ensino-aprendizagem de língua materna, entre outras áreas.

Todos os textos estão anotados morfossintaticamente, com identificação de lemas, classes gramaticais e traços morfológicos, o que permite buscas com base em diversos critérios linguísticos. As anotações foram realizadas por meio de ferramentas computacionais ajustadas às especificidades dos dados escolares e estão organizadas em sentenças individualizadas. A segmentação, a lematização e a anotação seguem padrões adotados em projetos consolidados de linguística de corpus.

O subcorpus está dividido em duas partes:

  • Português Europeu: composto por 244 textos escolares, sendo 122 narrativos e 122 argumentativos, escritos por estudantes do 5º, 7º e 10º anos da educação básica portuguesa. Os textos foram coletados entre setembro de 2011 e janeiro de 2012, em escolas públicas da cidade de Lisboa. Os participantes (51% do sexo feminino e 49% do sexo masculino) têm idades médias de 10,19, 12,33 e 15,16 anos, respectivamente. A coleta foi realizada a partir de dois estímulos padronizados, com pequenas adaptações culturais.

  • Português Brasileiro: composto, até o momento, por 450 textos escolares, igualmente divididos entre narrativos (n=225) e argumentativos (n=225), escritos por estudantes do 5º, 9º e 3º anos da educação básica brasileira, matriculados em escolas públicas de três cidades do estado do Rio Grande do Norte. A coleta teve início em 2017 e segue em andamento. Os participantes (53% do sexo feminino e 47% do sexo masculino) têm idades médias de 11,13 (5º ano), 15,32 (9º ano) e 17,96 (3º ano). Os textos foram produzidos a partir dos mesmos estímulos utilizados em Portugal.

Estímulo narrativo: Conte uma história marcante (real ou imaginada) que você e seu(sua) melhor amigo(a) viveram durante as últimas férias escolares.

Estímulo argumentativo: Você acha que as redes sociais (Facebook, Twitter, Google+, Windows Live Space etc.) são importantes hoje em dia? Escreva um texto para ser publicado no blog da sua escola em que você exponha sua opinião. Neste texto, diga se é a favor ou contra a existência das redes sociais e justifique sua posição.

A preservação dos estímulos e a diversidade dos participantes conferem ao corpus uma base robusta para análises comparativas entre variedades do português e entre níveis de desenvolvimento da escrita escolar, com controle de variáveis como gênero textual, faixa etária e contexto de produção.


Acesse a interface de busca

Os textos podem ser explorados por meio da interface de busca linguística, que permite realizar pesquisas por forma, lema, classe gramatical, traços morfológicos e outras combinações estruturais.

Arquivos XML

Caso deseje consultar cada texto individualmente, com acesso aos metadados completos, à anotação morfossintática e à lematização, acesse a página Lista de ficheiros XML específica dos textos escolares. Nessa seção, é possível visualizar o conteúdo integral de cada documento por ano escolar, tal como armazenado no sistema, incluindo suas camadas linguísticas e informações contextuais.

Estatísticas e distribuição

Além disso, é possível observar estatísticas gerais relativas ao corpus de textos escolares, como número total de palavras, tipos lexicais, número de frases, taxa de diversidade lexical (TTR) e proporção de palavras de conteúdo, disponíveis em Estatísticas e Distribuição da plataforma.

Questões éticas

O Corpus de Textos Escolares foi desenvolvido pelo Grupo de Estudos em Linguística Educacional (LEd), sediado na Universidade Federal Rural do Semi-Árido. Em conformidade com a legislação brasileira, tendo sido aprovado pelo Comitê de Ética em Pesquisa (parecer CAAE 80135317.0.0000.5294).