
5th May 2016

ItaliaNLP Lab participated to the Radio Aula 40 episode I disturbi e le difficoltà di apprendimento nell’età scolare, organized by the National Research Council (CNR). The episode will start at 10 a.m. and it will finish at 11.15 a.m.

25th September 2015

ItaliaNLP Lab participated to BRIGHT 2015, the Researchers’ Night, at Area della Ricerca di Pisa. You can read the BRIGHT program here. We presented two events:

Come scrivi? Strumenti automatici per esplorare lo stile di un testo

Le tecnologie linguistico-computazionali possono dirsi oggi mature per esplorare in modo affidabile non soltanto il contenuto di un testo, ma anche la sua forma linguistica. Attraverso l’analisi linguistica automatica è oggi possibile estrarre da un testo caratteristiche linguistiche che permettono di ricostruirne lo stile di scrittura. In questa presentazione verranno mostrati dei sistemi in grado di estrarre un’ampia serie di caratteristiche che variano tra diversi livelli di descrizione linguistica, come ad esempio quello lessicale e quello sintattico. Verrà illustrato come gli strumenti utilizzano queste caratteristiche sia per monitorare le abilità linguistiche di chi scrive rispetto ai diversi livelli scolastici, sia per valutare il livello di accessibilità del testo prodotto.

Di cosa parla? Strumenti automatici per esplorare il contenuto di un testo

La necessità quotidiana di accedere a grandi quantità di dati per lo più testuali ha dato grande impulso allo sviluppo di tecnologie per l’acquisizione, la classificazione e la gestione automatica del contenuto testuale e al loro sempre più diffuso impiego in numerosi contesti applicativi. In questa presentazione verranno mostrati strumenti per l’acquisizione e l’organizzazione di informazione semantico-lessicale da grandi collezioni di testi. Questi strumenti sono in grado di analizzare il contenuto dei documenti, estrarre i termini e le entità potenzialmente più significativi, individuare le relazioni che legano termini e entità, utilizzare l’informazione estratta per indicizzare i documenti di partenza e costruire il grafo della conoscenza contenuta nella collezione di testi analizzati.

Our photos together with our colleagues at ILC

10th September 2015

Dr. Giulia Venturi held a lecture at the International Summer School LEX 2015. Managing lexical resources in the semantic web, Law Faculty, University of Bologna-Ravenna.

Natural Language Processing and Legal Knowledge Extraction

The lecture aims at providing an overview of the use of Natural Language Processing (NLP) for Legal Knowledge Extraction with a specific view to the construction of semantic resources and domain-specific semantic annotation. Firstly, the NLP tools and techniques will be introduced. Secondly, we will show how the results can be fruitfully exploited to automatically extract the relevant knowledge contained in legal text collections. The session is focused on two main Knowledge Extraction goals: i) the structuring of the extracted knowledge in semantic resources, such as domain-specific ontologies or thesauri, an ii) the semantic annotation of texts to pave the way to content-based access and querying.

You can find the slides of the lecture here.

21th July 2015

Dominique Brunato defended her PhD Thesis.

A Study on linguistic complexity from a computational linguistics perspective. A corpus-based investigation of Italian bureaucratic texts“.

This thesis investigates the construct of linguistic complexity from a user-based perspective and its computational treatment from the applicative viewpoint of automatic readability assessment of written texts and, specifically, of Italian bureaucratic texts. Such a choice has been motivated by the well-known complexity of bureaucratic language, the so-called “bureaucratese”, which tends to be unnecessarily distant from the variety of standard language and to resemble instead the language of the law, despite the different intended audience.
A feasible way to enhance the comprehension of bureaucratic texts relies today on the use of advanced language technologies, and particularly those devoted to assessing the readability level of a text. This has also been foreseen by the more recent publication on the simplification of Italian bureaucratic language, which encourages public employees, when faced with the task of making their documents more comprehensible, to «build sentences taking into account the limits to readability in according to current indexes».
But can current indexes – and particularly those available for the Italian language – discriminate between unnecessary complexity, namely typical bureaucratese markers, and other “genre-specific” complexity features?

You can download the Thesis here.

16th June 2015

ItaliaNLP Lab participated to the ISCOME 2015 conference The Golden Bridge: Communication and Patient Safety, 15-16 June, held at Montecatini Terme, with a presentation entitled “Language technologies for automatic readability assessment of health-related information: a preliminary investigation into the informed consent forms used in a regional health service“.

You can download the slides of our presentation here.

29th May 2015

ItaliaNLP Lab participated to the annual PRIN SCRIBE conference Scritture brevi. Forme, modelli e applicazioni per l’analisi e per il dizionario, held at the Università di Macerata, with a presentation entitled “Costruzione di un corpus parallelo di testi in versione originale e semplificata per la lingua italiana: primi risultati, prospettive applicative e di ricerca“.

Our photos

29th January 2015

ItaliaNLP Lab participated to the Radio Aula 40 episode Computer che insegnano, computer che imparano, organized by the National Research Council (CNR). The episode will start at 10 a.m. and it will finish at 11.15 a.m.

Photos and Video

15th December 2014

ItaliaNLP Lab participated to the event Compter, Parler, Soigner. Tra linguistica e intelligenza artificiale, organized by the Istituto Universitario di Studi Superiori di Pavia (IUSS), Università di Pavia and Collegio Ghislieri, with a presentation entitled “Annotazione linguistica automatica: un problema di classificazione“.

14th November 2014

ItaliaNLP Lab participated to the event Reperire, capire e comunicare l’informazione giuridica, organized by the Istituto di Teoria e Tecniche dell’Informazione Giuridica (ITTIG) of the National Research Council, the Associazione per la qualità degli atti amministrativi (AQuAA) and by the Tuscan Association of Journalists.

You can download the slides of our presentation here.

16th October 2014

ItaliaNLP Lab partecipated to the education course Migrazioni di tecnologie e linguaggi. Teorie e pratiche per il trattamento di testi nelle scienze umane, organized by the Istituto per il Lessico Intellettuale Europeo e Storia delle Idee (ILIESI) of the National Research Council. The course held at National Research Council, piazzale Aldo Moro, 7, Roma, Aula Bisogno – h. 10-13.

La piattaforma T2K: dal testo alla conoscenza

La necessità quotidiana di accedere a grandi quantità di dati per lo più testuali ha dato grande impulso allo sviluppo di tecnologie per l’acquisizione, la classificazione e la gestione automatica del contenuto testuale e al loro sempre più diffuso impiego in una miriade di contesti applicativi.
T2K è una piattaforma web finalizzata all’acquisizione di informazione semantico-lessicale da corpora di dominio. Attraverso l’uso combinato di tecniche statistiche e di strumenti avanzati di Trattamento Automatico del Linguaggio, T2K è in grado di analizzare il contenuto dei documenti, estrarre i termini e le entità (nomi, luoghi, persone) potenzialmente più significativi, individuare le relazioni che legano termini e entità, indicizzare il corpus di partenza e ricostruire una mappa multidimensionale della conoscenza di dominio contenuta nella collezione documentale.

You can download the slides of our presentation here.

13th October 2014

ItaliaNLP Lab partecipated to the education course Vivere le migrazioni. Scuola, salute, lavoro, organized by the Istituto per il Lessico Intellettuale Europeo e Storia delle Idee (ILIESI) of the National Research Council. The course held at National Research Council, piazzale Aldo Moro, 7, Roma, Aula Marconi – h. 15:00.

Tecnologie del linguaggio e integrazione linguistico-culturale nella scuola.

Le tecnologie del linguaggio, che rappresentano importanti tecnologie abilitanti dell’odierna società dell’informazione, mostrano un alto potenziale innovativo in ambito didattico e formativo, con ricadute sui processi di insegnamento e apprendimento nella scuola. Supportano l’insegnante nella personalizzazione dei contenuti (ad es. per studenti stranieri o con lievi disagi cognitivi) o nel monitoraggio della competenza linguistica degli apprendenti; guidano lo studente nel processo di apprendimento. Il presente contributo intende mostrare come tali tecnologie siano oggi mature per svolgere un ruolo centrale nella scuola, in particolare quando sono impiegate per la valutazione della leggibilità di materiali didattici a supporto della loro semplificazione e nella creazione di mappe concettuali per la valutazione dei contenuti del testo e la loro organizzazione strutturata.

You can download the flyer and the slides of our presentation.

11st October 2014

In the framework of the Internet Festival, ItaliaNLP Lab organized a day named Computer che insegnano, computer che imparano. Le tecnologie del linguaggio per la scuola at Area della Ricerca di Pisa, devoted to discussing Natural Language Processing approaches for use in educational settings.

You can download the program here.

26th September 2014

ItaliaNLP Lab participated to BRIGHT, the Researchers’ Night, at Area della Ricerca di Pisa. We presented READ-IT, the first advanced readability assessment tool for Italian, which combines traditional raw text features with lexical, morpho-syntactic and syntactic information and T2K, the multilanguage system for automatically extracting and organizing knowledge from domain-specific texts.

Visit our stands!

15th May 2014

We are co-organizing the Parsing Task at EVALITA 2014.

The Parsing Task will be organized into two subtasks:

  • a basic task focusing on standard dependency parsing of Italian texts, with a double evaluation track aimed at testing the performance of parsing systems as well as their suitability to Information Extraction tasks;
  • a pilot task focusing on cross-lingual transfer parsing, where as suggested by McDonald et al. (2013) a parser trained on the “Italian Stanford Dependency Treebank” (universal version) is used on test sets of other (not necessarily typologically related) languages.

Detailed guidelines, task materials and data sets for development, training and testing will be made available on the Task Website

8th May 2014

ItaliaNLP Lab presents results of iSLe project @ Salone Internazionale del Libro di Torino

1st May 2014

ItaliaNLP Lab & Il Tirreno in a citizen journalism project

30th April 2014

Dr. Giulia Venturi held a lecture at the Departamento de Filología Francesa e Inglesa de la Universidad de Cádiz

13rd January 2014

We are happy to announce that AI*IA 2014, CLiC 2014 and EVALITA 2014 will be co-located in Pisa from 9 to 12 December 2014.

13rd January 2014

We are co-organizing the 5th edition of the Workshop on “Semantic Processing of Legal Texts” (SPLeT 2014). It will held on 31st May in conjunction with the 9th edition of the Language Resources and Evaluation Conference (LREC 2014) in Reykjavik, Iceland.

We can see the call for papers here.

11th December 2013

ItaliaNLP Lab participated to the Seminario di Cultura Digitale. The conference held at the Department of Computer Science, University of Pisa, Aula Seminari EST – h. 14:15.

Oltre il contenuto: tecnologie linguistico-computazionali per l’analisi della struttura linguistica del testo. Cosa, come, perché.

Se da una lato le tecnologie linguistico-computazionali svolgono un ruolo ormai indiscusso per l’accesso il contenuto testuale, ciò non appare scontato quando si vada a considerare il loro ruolo nella valutazione delle strutture linguistiche sottostanti al testo in vista, ad esempio, della sua semplificazione in relazione alle abilità linguistiche di chi lo legge, oppure del monitoraggio della competenza linguistica di chi lo ha scritto, o dell’attribuzione di un testo al genere testuale di appartenenza. Tali tecnologie, che stanno diventando sempre più centrali nel settore del trattamento automatico del linguaggio, presentano un forte potenziale innovativo in diversi settori applicativi: ad esempio, nel settore della comunicazione pubblica sono in grado di ridurre la distanza tra i cittadini e le istituzioni; oppure, nel contesto didattico e formativo, possono aiutare l’insegnante ad orientare la propria azione formativa, in particolare per quanto riguarda la personalizzazione dei contenuti educativi sulla base delle competenze linguistiche degli apprendenti (ad es. studenti stranieri, o persone con un basso livello di alfabetizzazione o con lievi disagi cognitivi); o possono essere di aiuto nel raffinare i risultati di un motore di ricerca classificando i documenti sulla base del registro linguistico di appartenenza.

You can download the slides and the recording of our lecture.

21st November 2013

ItaliaNLP Lab participated to the Giornata di studio. I testi della Pubblica amministrazione. Indici di leggibilità e valutazione della qualità. The conference held at Palazzo Vecchio – Sala dei Dugento, Firenze.

You can download the program here.

Our photos

12th October 2013

ItaliaNLP Lab participated to the Pisa Internet Festival. We presented READ-IT, the first advanced readability assessment tool for Italian, which combines traditional raw text features with lexical, morpho-syntactic and syntactic information.

You can download the program here.

Maria Chiara Carrozza, Minister of Public Education, visited our stand.

27th September 2013

ItaliaNLP Lab participated to the Researchers’ Night at Real Collegio, Lucca. We presented READ-IT, the first advanced readability assessment tool for Italian, which combines traditional raw text features with lexical, morpho-syntactic and syntactic information.

Our photos

5th August 2013

Dr. Giulia Venturi held a lecture at the International Summer School LEX 2013. Managing lexical resources in the semantic web, Law Faculty, University of Bologna-Ravenna.

Natural Language Processing and Legal Knowledge Extraction

The lecture aims at providing an overview of the use of Natural Language Processing (NLP) for Legal Knowledge Extraction with a specific view to the construction of semantic resources and domain-specific semantic annotation. Firstly, the NLP tools and techniques will be introduced. Secondly, we will show how the results can be fruitfully exploited to automatically extract the relevant knowledge contained in legal text collections. The session is focused on two main Knowledge Extraction goals: i) the structuring of the extracted knowledge in semantic resources, such as domain-specific ontologies or thesauri, an ii) the semantic annotation of texts to pave the way to content-based access and querying.

You can find the slides of the lecture here

11th July 2013

Lecture of Dr. Martijn Wieling of University of Tübingen (Germany), visiting researcher in the framework of the Short Term Mobility CNR exchange program.

Hierarchical spectral partitioning of bipartite graphs to cluster dialects and identify distinguishing features

In this presentation I will introduce hierarchical spectral partitioning of bipartite graphs and apply it to a Dutch dialect dataset to cluster dialect varieties and determine the concomitant sound correspondences. An important advantage of this clustering method over other dialectometric methods is that the linguistic basis is simultaneously determined, bridging the gap between traditional and quantitative dialectology. Besides discussing the clustering approach, I will also explain the method to obtain the sound correspondences: the Pointwise Mutual Information-based Levenshtein algorithm.

Dr. Martijn Wieling obtained his PhD in June 2012 from the University of Groningen where he used quantitative methods to investigate dialect variation. At present he works as a post-doctoral researcher at the University of Tübingen together with Harald Baayen on a project investigating language variation physically using articulography. His publications and dissertations can be downloaded via

21 March 2013

We are happy to announce that our paper:

Linguistically-driven Selection of Correct Arcs for Dependency Parsing” by Felice Dell’Orletta, Giulia Venturi and Simonetta Montemagni

received the “Best Verifiability, Reproducibility, and Working Description award” at the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing2013). It has been assigned by the Software Reviewing Committee and the criteria taken into account were: the clarity, simplicity, completeness, and overall quality of the code accompanying the paper.