venerdì 1 maggio 2009

Web as a Corpus, Google e peritare assorto..


Parte seria: il web può essere considerato un corpus linguistico?
Sì, per le dimensioni e le modalità espressive (dall'archivio dei testi classici alle forme espressive specifiche - blog, chat, mashups e quant'altro), con molte riserve per la prevalenza di lingue riconducibili all'inglese (i tre quarti dei dati), la prevalenza di dialetti settoriali (tecno-geek, notizie) e una ridotta rappresentatività delle varietà locali e del parlato quotidiano, oltre che di lingue appartenenti a realtà unwired.
Sempre seriamente, è possibile consultare in maniera affi
dabile questo corpus, con finalità non solo di studio ma anche finalizzate al dia-a-dia professionale?
Mica tanto. I motori di ricerca, da Google e Yahoo, a quelli più settorializzati come Scirus, o i metamotori (sic est) come Kartoo o WieZi, non hanno tra le finalità una corretta rappresentazione della lingua, e sono tutt'altro che perfetti dal punto di vista della comprensione semantica.
Un esempio, un mia vecchia memoria presentata al XL Cong
resso Nazionale dell'Associazione Termotecnica Italiana, intitolata Indagine Termofluidodinamica sul Tubo di Calore Rotante (la memoria è leggibile su Scribd).
Scribd fornisce un bel po' di statistiche sul documento, in particolare le chiavi di ricerca tramite le quali si è arrivati alla pagina che lo contiene. Qui di seguito è riprodotta una parte della lunga lista:

Passi il tubo porno e relative varianti, anche se fa poco piacere che il proprio lavoro sia luogo di incontro di una confraternita di onanisti. Ma il motore di ricerca punta al tubo, e passi.
Ma qualcuno vuole essere così carino da spiegarmi cosa c'entra Frederico Moccia? Cosa c'entra Pedro Lenza?
Accettata (non accertata) la plausibilità dell'ipotesi del web come corpus, o più seriamente del web come corpora, di converso non è possibile ritenere come rappresentativo delle varietà delle lingue il campione che viene restituito dai motori di ricerca.
Peritare assorto, da chi crede di poter scegliere tra un termine e l'altro effettuando una semplice conta delle occorenze in una ricerca; si dice viado perché Google mi dà 1.020.000 occorenze, e non veado perché la ricerca relativa ne restituisce solo 480.000.
Nessun cenno a cosa si cerca, a come lo si cerca, se il Safesearch sia attivo o meno, se siano attive le configurazioni localizzate.

Nessun commento:

Posta un commento