Stefania Spina, Fare i conti con le parole. Introduzione alla linguistica dei corpora, Perugia, Guerra, 2001

torna a sspina.it

Per informazioni sull'acquisto e ordini:
Guerra edizioni
geinfo@guerra-edizioni.com


Indice del libro

Introduzione

1. Dal personal computer alle reti telematiche

2. L'uso del computer è un'attività linguistica

3. Peculiarità della linguistica

4. Diversi livelli di interazione

5. Obiettivi del libro

 

Capitolo primo
Alcune tappe fondamentali: da padre Busa alla linguistica dei corpora

1.1 La linguistica e le altre scienze

1.2 Una storia recente con radici antiche

1.3 Gli esordi

1.4 Empirismo o introspezione? L'influenza di Chomsky

1.5 Rilancio e affermazione

1.6 Questioni terminologiche

 

Capitolo secondo
Il primo passo: innovazioni e aspetti automatici della scrittura elettronica

2.1 La rivincita della scrittura

2.2 Gli esordi del testo elettronico: la scrittura digitale

2.3 Frammentazione e scomponibilità: lo spazio incorporeo della parola digitale

2.4 I word processors, ambienti di scrittura

2.5 Assistenti linguistici e automazione della scrittura: ortografia, sinonimi, grammatica e stile

2.6 La retorica telematica

 

Capitolo terzo
Gestione di dati linguistici

3.1 La corpus linguistics

3.1.1 Dai corpora di prima generazione ai "megacorpora"

3.2 Che cos'è un corpus?

3.2.1 Tipologie di corpora
3.2.2 Disponibilità e acquisizione

3.3 La codifica elettronica dei testi: problemi di standard

3.3.1 La Text Encoding Initiative
3.3.2 I linguaggi SGML e XML e la TEI
3.3.3 Codifica TEI e analisi linguistica: l'esempio dei corpora di lingua parlata

3.4 I dizionari elettronici

 

Capitolo quarto
La lingua calcolata: l'analisi di corpora tra dati numerici e dati contestuali

4.1 Analisi quantitative di dati linguistici

4.2 Liste di frequenza

4.2.1 Unità di analisi
4.2.2 Frequenze a confronto
4.2.3 Rapporto types/tokens
4.2.4 Altri parametri di analisi

4.3 Il calcolo della comprensibilità dei testi

4.3.1 Il vocabolario di base
4.3.2 Gli indici di leggibilità

4.4 Le parole e il loro contesto

4.4.1 Concordanze
4.4.2 La dimensione stereotipa delle parole: le collocazioni
4.4.3 Mutual information e t-score
4.4.4 L'analisi per clusters

4.5 Trattamento di dati linguistici strutturati

4.5.1 Analisi automatica per categorie grammaticali
4.5.2 Parsing e strutture sintattiche
4.5.3 La lemmatizzazione
 

Alcune considerazioni conclusive

Appendice I: Elenco e descrizione dei principali corpora

Appendice II: I programmi di analisi linguistica

Riferimenti bibliografici

 


Appendice I
Elenco e descrizione dei principali corpora

 

American and French Research on the Treasury of the French Language (ARTFL Project)

American National Corpus (ANC)

Australian Corpus of English (ACE)

Archivio vocale dell'italiano parlato (AVIP)

Bank of English

The Bank of Swedish

British National Corpus (BNC)

Brown Corpus

Child Language Data Exchange System

CIBIT - Biblioteca italiana telematica

Corpus di italiano scritto (CORIS)

Corpus di italiano televisivo (CIT)

Corpus of London Teenage Language (COLT)

English-Norwegian Parallel Corpus (ENPC)

European Corpus Initiative (ECI)

Helsinki Corpus of English Texts: Diachronic Part

Institut für Deutsche Sprache Corpora (IDS-Textkorpora)

International Corpus of English (ICE)

International Corpus of Learner English (ICLE)

Kolhapur Corpus

The Lampeter Corpus of Early Modern English Tracts

Lancaster/IBM Spoken English Corpus (SEC)

Lancaster-Oslo/Bergen Corpus (LOB)

Lessico di frequenza dell'italiano parlato (LIP)

Lessici di frequenza dell'italiano radiofonico (LIR)

London-Lund corpus

Longman-Lancaster corpus

Longman Learners Corpus

Map Task Corpus

NEGRA Corpus

The Oslo Corpus of Tagged Norwegian Texts

Penn-Helsinki Parsed Corpus of Middle English (PPCME)

Penn Treebank

Perseus Project

Pixi corpora

Portuguese-English parallel translation corpus (COMPARA)

Surface and Underlying Structural Analyses of Naturalistic English (SUSANNE)

Tesoro della Lingua Italiana delle Origini

Tools for Syntactic Corpus Analysis (TOSCA corpus)

Wellington Corpus of Spoken New Zealand English

Wellington Corpus of Written New Zealand English


Appendice II
I programmi di analisi linguistica

 

1. Analisi di corpora (liste di frequenza, concordanze, collocazioni)

Computerized Language Analysis (CLAN) WIN e MAC

Conc 1.80 MAC

Concordance 2.0 WIN

Data Base Testuale (DBT 3.1) WIN

MonoConc WIN

MonoConc pro WIN

QWICK WIN e MAC

Sistema Lessicale Integrato (SLI) WIN

Text Analysis Computing Tools (TACT) 2.1 DOS

WordSmith Tools 3.0 WIN

 

2. Programmi per l'annotazione e l'analisi di corpora in formato TEI

The Whirlwind Guide to SGML & XML tools

Softquad Xmetal 2.0 WIN

SGML Aware Retrieval Application (SARA) WIN

 

 3. Gestione di database linguistici (lessici, dizionari)

MacLex 3.2 MAC

Shoebox 5.0 WIN e MAC

 

4. Calcolo della leggibilità

Censor

 

5. Programmi di annotazione e di analisi di dati linguistici strutturati (taggers, parsers, lemmatizzatori)

ICE Corpus Utility Program (ICECUP) WIN

IceTree II WIN

Immortale

NB DOS, WIN e UNIX

Part of Speech Disambiguator

Transcriber WIN e UNIX

TreeTagger LINUX

Trees 2 MAC

 


Duèze