Home
Composizione del corpus
Cit Demo
Annotazione grammaticale
Articoli e bibliografia


Per informazioni, scrivere a:
Stefania Spina

  

Che cos'è il CiT

Il Corpus di Italiano Televisivo (CiT) è una raccolta di testi trascritti da trasmissioni televisive mirata all'analisi delle caratteristiche lessicali, grammaticali e sintattiche dell'italiano trasmesso in televisione.

Il progetto, che ha avuto inizio nell'agosto 1998, nasce da un lato dalla consapevolezza della enorme diffusione del mezzo televisivo e della sua onnipresenza nella società contemporanea; dall'altro dalla constatazione della carenza di dati quantitativi affidabili per studiarne le caratteristiche linguistiche peculiari.

Nella sua forma definitiva il CiT sarà composto da 500.000 parole, anche per rendere omogenei i raffronti con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I criteri di selezione delle trasmissioni televisive trascritte sono legati soprattutto alla loro diffusione e di conseguenza alla ampiezza della fascia di utenti televisivi che entrano in contatto con i modelli di lingua in esse utilizzati. Le 500.000 occorrenze totali sono pertanto state suddivise in cinque tipologie diverse di trasmissioni:

  • telegiornali
  • sport
  • intrattenimento
  • attualità
  • pubblicità

La fase di trascrizione occuperà un triennio (1998-2001); parallelamente, su un primo campione del corpus, il CiT Demo, di 125.000 parole, si inizieranno alcuni test per le operazioni di tagging, lemmatizzazione e marcatura (il corpus sarà annotato in base alle indicazioni della Text Encoding Initiative).