Che cos'è il
CiT
Il Corpus
di Italiano Televisivo (CiT)
è una raccolta di testi trascritti da trasmissioni
televisive mirata all'analisi delle caratteristiche
lessicali, grammaticali e sintattiche dell'italiano
trasmesso in televisione.
Il progetto, che ha
avuto inizio nell'agosto 1998, nasce da un lato dalla
consapevolezza della enorme diffusione del mezzo televisivo
e della sua onnipresenza nella società contemporanea;
dall'altro dalla constatazione della carenza di dati
quantitativi affidabili per studiarne le caratteristiche
linguistiche peculiari.
Nella sua forma
definitiva il CiT
sarà composto da 500.000 parole, anche per rendere
omogenei i raffronti con altri corpora italiani di lingua
scritta (LIF) e parlata (LIP). I criteri di selezione delle
trasmissioni televisive trascritte sono legati soprattutto
alla loro diffusione e di conseguenza alla ampiezza della
fascia di utenti televisivi che entrano in contatto con i
modelli di lingua in esse utilizzati. Le 500.000 occorrenze
totali sono pertanto state suddivise in cinque tipologie
diverse di trasmissioni:
- telegiornali
- sport
- intrattenimento
- attualità
- pubblicità
La fase di trascrizione
occuperà un triennio (1998-2001); parallelamente, su
un primo campione del corpus, il CiT
Demo, di 125.000
parole, si inizieranno alcuni test per le operazioni di
tagging, lemmatizzazione e marcatura (il corpus sarà
annotato in base alle indicazioni della Text
Encoding Initiative).
|