Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Università di Firenze
Facoltà di Lettere e FilosofiaCorso di laurea in Filosofia Teoretica
Modelli informatici e linguaggio metaforico.
Di Alessandro Geloso
Relatore: Marino Rosso
Corelatore: Alberto Peruzzi
Controrelatore: Alessandro Pagnini
Anno 2000
1
Indice
Prefazione 4
Capitolo 1 Lakoff e la filosofia nella carne
6
1.1 La filosofia nella carne 6
1.2 L'inconscio cognitivo 8
1.3 Prototipi essenziali 9
1.4 I modelli di T. Regier, D. Bailey, S. Narayanan 11
1.5 La Teoria Concettuale delle Metafore di Lakoff 15
1.6 La Teoria delle Metafore Primitive di Grady 16
Capitolo2Il Connessionismo
22
3.1 Il cervello è un emulatore della realtà 22
3.2 Come apprende la rete 28
3.3 Pregi e difetti del connessionismo 33
Capitolo 3La Neurocomunicazione
41
3.1 Come trasporta il segnale la cellula neuronale 41
3.1.1 La struttura della membrana 46
3.1.2 La costante di spazio λ 46
3.1.3 La zona d’innesco 48
3.2 La trasmissione dell’informazione nei nodi delle reti PDP 51
3.3 Il confronto fra i due modelli (neurone e nodo) 54
3.3.1 Gli stimoli inibitori 54
3.3.2 Il caso della sommazione sinaptica 56
Capitolo 4La non computabilità e i sistemi aperti
58
4.1 La macchina di Turing non computabile 58
4.1.1 I problemi P e NP 59
4.2 I sistemi aperti 66
4.2.1 La logica fuzzy 66
4.3 Il teorema di Gödel come prova dell’esistenza di altre dimensioni 68
4.3.1 Entscheidungsproblem 68
4.3.2 Una porta su altre dimensioni 70
4.4 Il sistema nervoso come un flipper, il cervello come un’orchestra 73
2
Capitolo 5La scuola di Palo Alto
78
5.1 Gli uomini e le idee di Palo Alto 78
5.2 La nozione di sistema 80
5.3 La Programmazione Neurolinguistica 83
5.4 Un nuovo modello 85
5.5 L'eleganza del modellamento 90
5.6 La sinestesi 94
Capitolo6Lakoff, una visione d'insieme
103
6.1 La mente è interamente fisica 103
6.2 Il pensiero è in gran parte inconscio 107
6.3 I concetti astratti sono per la maggior parte metaforici 108
6.4 Una macchina di Turing Universale sovra dimensionale 111
Bibliografia 115
3
Prefazione
In questa tesi abbiamo cercato di affrontare un argomento così vasto, come
quello del linguaggio metaforico, focalizzando l'accezione che né dà George Lakoff
nella sua ultima opera.
Con una decisa scelta di campo ci siamo occupati solo di quello che ci sembrava
promettente ai fini di un'analisi obiettiva dell'argomento e di una nuova visione delle
metafore, tralasciando altri approcci che, per quanto legittimi, ci avrebbero condotto
in altre direzioni.
Sono stati tralasciati anche aspetti importanti della concezione in esame come
il contrasto fra Lakoff e Noam Chomsky, le differenze della tradizione cognitivista,
vari elementi del connessionismo, così come il legame tra il connessionismo e il
pensiero di Piaget (a cui si fa solo un breve accenno).
Tutto questo è stato il risultato di scelte, criticabili forse, ma dirette ad
affrontare un argomento con una visuale di più ampio respiro, cercando di seguire
una direzione ben definita e delimitata.
Le tematiche sviluppate riguardano la possibilità di riprodurre con mezzi e
strumenti informatici la complessità di un linguaggio metaforico.
Per far questo abbiamo esposto nel primo capitolo l'argomento così come
proposto da Lakoff e da Joe Grady, secondo gli studi della N.T.L. (Neural Theory of
Language), un gruppo di ricerca dell'International Computer Science Institute
all'Università di Berkeley in California (http://www.icsi.berkeley.edu/NTL/).
Questo gruppo di lavoro ha elaborato una proposta secondo cui il
modellamento neurale con reti informatiche è una prova della fisicità della mente,
poiché si usa lo stesso meccanismo sia per la creazione dei concetti che per la
simulazione di percezioni o di meccanismi motori.
Vorrei sottolineare come in questa tesi si ponga in evidenza la teoria dei diversi
modelli neurali presentati e non tanto il loro effettivo funzionamento attraverso un
programma specifico.
Abbiamo esposto nel secondo capitolo il funzionamento delle reti informatiche
e in particolare i modelli connessionistici (PDP) di Rumelhart e McClelland,
4
discutendo quegli aspetti che sono problematici per qualsiasi tipo di rete così
strutturata.
Il connessionismo, soprattutto quello delle reti PDP, è da prendersi come
quadro generale; in realtà le tipologie delle reti sono varie, ma il nostro obiettivo non
era quello di fare una storia dei diversi programmi d'intelligenza artificiale, quanto
quello di mettere alla prova il loro funzionamento per capire e contestualizzare le loro
limitazioni.
Nel capitolo terzo abbiamo invece illustrato come funziona la trasmissione
dell'informazione a livello neurale, paragonandola con l'informazione trasportata
nelle reti PDP e nel quarto capitolo abbiamo esposto le caratteristiche funzionali
della rete nervosa, principalmente la sua non computabilità e una sua possibile
simulazione da parte di un computer attraverso un modello matematico fuzzy che
si prestasse alla produzione di metafore.
Questo tentativo è da intendersi come propositivo. Il suo scopo è
principalmente quello di mostrare le differenze sostanziali fra una rete neurale
naturale ed un'artificiale.
Nel capitolo quinto abbiamo ampliato la prospettiva fuzzy integrandola con
una nuova e stimolante teoria, la PNL, che dà, a nostro avviso, una più adeguata
visione di quello che Lakoff chiama il “pensare metaforico”.
La motivazione principale per cui abbiamo scelto questa teoria e non altre, è
perché oltre ad essere relativamente poco indagata, sembra capace di notevoli
applicazioni pratiche.
Nell'ultimo capitolo riprendiamo la teoria concettuale delle metafore di Lakoff e
Grady rivisitandola alla luce delle considerazioni fatte, non tanto per trarne delle
conclusioni categoriche, quanto per mostrare come le intuizioni di Lakoff, della PNL, e
dell'ultimo connessionismo convergano tutte in un quadro teorico più generale, che si
apre a nuovi studi della mente.
5
Capitolo 1Lakoff e la filosofia nella carne
“ Siamo esseri neurali, i nostri cervelli ricevono input dal resto del corpo.I concetti che usiamo per pensare sono formati dalla struttura
e dal funzionamento del nostro corpo.Possiamo pensare solo quello che ci permette il nostro cervello fisico.”
George Lakoff
1.1 La filosofia nella carne
Negli ultimi trent'anni gli studi sul cervello umano e sulla sua fisiologia hanno
portato alla luce nuove ed importanti scoperte, secondo le quali sembra prendere
piede una prospettiva diversa di indagine della cognizione umana. Questa nuova
prospettiva è ancora più evidente quando c'interessiamo al linguaggio. Nella
tradizione più recente si sono contrapposte due idee del linguaggio: come formato da
precise regole grammaticali (la “grammatica generativa” di Chomsky) o come formato
da precise regole semantiche (la “semantica generativa” di Lakoff).
Queste posizioni contrastanti non sono più in contraddizione come le ritengono
i loro autori, ma diventano due aspetti coesistenti del linguaggio. Esamineremo nel
presente lavoro di tesi come ciò sia possibile, mostrando come le ultime riflessioni di
Lakoff sul linguaggio metaforico coincidano con la teoria della PNL (un metodo
basato sulla grammatica generativa chomskiana), attraverso lo sviluppo delle attuali
interpretazioni cognitive.
George Lakoff, dal 1972 professore di Linguistica all'Università di California a
Berkeley, rappresenta ad oggi uno dei più interessanti studiosi di questa nuova
prospettiva delle scienze cognitive. L'indagine di Lakoff si occupa principalmente del
linguaggio, di come questo possa avere origine dall'uomo e di come la sua struttura
fisica implichi delle funzioni superiori come pensare, fare associazioni d'idee, costruire
modelli.
6
Questi studi mostrano come si possa passare da un insieme di neuroni eccitati da
percezioni esterne, alla formazione di parole e di come queste si combinino con senso
nelle frasi di un discorso. Per far questo Lakoff e i suoi collaboratori (in seguito Lakoff
& C.) hanno delimitato il loro campo d'indagine, considerando l'uomo come un
sistema che percepisce il mondo fisico con i suoi organi di senso, che organizza ed
elabora l'informazione nel proprio sistema nervoso che agisce sul mondo fisico
attraverso il corpo.
Tale delimitazione di campo fa sì che il rapporto funzionale tra i vari neuroni
nell'uomo, la fisiologia del sistema nervoso, assuma il ruolo particolarmente rilevante
in questi studi.
Lakoff e Johnson (1999), nel loro ultimo libro Philosophy in the Flesh, mostrano
come si possa passare teoricamente dall'impulso neurale alle parole ed ai concetti,
ponendosi alcune domande: come può il cervello fisico funzionare come una mente? Il
nostro cervello è formato da enormi complessi e altamente strutturati network di
neuroni, come fa questa struttura intricata a creare i concetti? Esattamente quali
neuroni servono per fare ciò e perché? Come può il sistema neurale utilizzare nel
linguaggio i concetti?
I tentativi di rispondere a queste domande formano il lavoro della N.T.L.
(Neural Theory of Language), un gruppo di ricerca dell'International Computer
Science Institute all'Università di Bekerley in California in cui collaborano dalla fine
degli anni '80 diversi ricercatori, guidati da Jerome Feldman, Lokendra Shastri e
Lakoff.
Il gruppo N.T.L. segue l'idea di Feldman di creare una struttura
connessionistica mentale per le funzioni altamente specializzate del cervello,
attraverso una simulazione al computer del funzionamento dei neuroni. L'impresa
centrale del gruppo è stata e continua ad essere tutt'oggi quella di provare la natura
fisica dei modelli neurali, specialmente l'acquisizione e l'uso del linguaggio secondo la
“grammatica cognitiva”; il connessionismo, cioè l'elaborazione di modelli basati su reti
neurali, diventa allora il collegamento centrale fra struttura fisica, linguaggio e
pensiero.
La finalità di queste ricerche è di comprendere come sia possibile il funzionamento
del cervello e non tanto quali sono le strutture nervose adibite a tale funzionamento,
perché è importante innanzi tutto valutare la possibilità che si possa passare da una
7
funzione di basso livello come una percezione sensomotoria ad una d'alto livello come la
formazione di parole, concetti e in generale del linguaggio. Il cambiamento di
prospettiva che questo gruppo ha evidenziato con il suo lavoro, è riassunto da Lakoff
nelle seguenti affermazioni:
La mente è interamente fisica.
Il pensiero è in gran parte inconscio.
I concetti astratti sono per la maggior parte metaforici.
Queste tre asserzioni sono destinate secondo l'autore a modificare
notevolmente la visione dell'uomo e della realtà che questo percepisce e di
conseguenza la stessa ragione viene pensata come “incarnata” e resa fisica nel senso
che le tesi seguenti cercheranno di analizzare:
- La ragione non è più incorporea come una lunga tradizione ha ritenuto, ma deriva dalla
natura e dalla fisica del nostro cervello; gli stessi meccanismi neurali che ci fanno
percepire e muovere nel mondo creano anche il nostro sistema concettuale e i nostri
modi di ragionare.
- La ragione non è solo evolutiva ma utilizza gli stessi schemi di neuroni che sono
presenti, anche se meno sviluppati, negli animali; esiste in altre parole un darwinismo
della ragione.
- La ragione non è universale in senso trascendente; l'unico aspetto d'universalità è la
capacità dei nostri corpi d'avere esperienze fisiche.
- La ragione non è completamente cosciente, ma per la maggior parte incosciente.
- La ragione non è puramente letterale, ma soprattutto metaforica ed immaginativa.
- La ragione non è indipendente dalle emozioni, ma è essa stessa emozionale
1.2 L'inconscio cognitivo
La scienza cognitiva, per quanto questa disciplina sia relativamente nuova (si
parla di scienza cognitiva dal '70) ha aumentato notevolmente la nostra conoscenza
dei processi mentali. Una di queste scoperte è che la maggior parte della nostra mente
è inconscia, non in senso di “repressa”, ma nel senso che opera necessariamente sotto il
8
livello della coscienza. Gestire l'informazione senza il controllo della coscienza, non è
una qualità della mente, una sua possibilità, ma è un aspetto fondamentale del suo
funzionamento. Questo indica che gli strumenti che abbiamo utilizzato fino ad ora per
studiare la parte cosciente, mal si adattano a quell'inconscia.
Per fare un esempio pensiamo agli automatismi nei lavori complessi, come
guidare la macchina. Non dobbiamo costantemente tenere sotto controllo cosciente
quello che facciamo. La pressione esercitata sul pedale del freno, spingere il pedale
della frizione, girare il volante di tanti gradi quanti necessitano per fare una curva,
accelerare premendo il pedale con una pressione adeguata ad operare un sorpasso,
cambiare le marce in rapporto al rumore di giri del motore.
La nostra guida si presenta fluida e automatica, senza il controllo diretto della
nostra parte cosciente, che può anche essere intenta a parlare al passeggero, ad
ascoltare la radio, a riflettere sugli impegni della giornata. In questo caso parliamo
d'inconscio cognitivo, e vedremo in seguito di definirlo meglio, come opera e qual è la
metodologia d'indagine più appropriata.
Come la maggior parte della nostra mente è inconscia nell'utilizzo che ne
facciamo quotidianamente, lo è anche quando la utilizziamo nella trattazione della
metafisica. La nostra mente utilizza la parte incosciente per descrivere i concetti come
l'io, il tempo e lo spazio, la causalità, l'esistenza, la morale e lo fa attraverso l'uso di
metafore inconsce, il linguaggio dell'inconscio cognitivo. Parlare di metafore inconscie
significa pensare a relazioni fra concetti la cui base è inconscia e le cui implicazioni
possono risultare anch'esse inconscie.
Mentre, secondo una lunga tradizione filosofica, i concetti avevano una loro
realtà indipendente ed oggettiva, secondo Lakoff & C. i concetti hanno l'unica
oggettività di essere utilizzati dagli esseri umani, ma non è dato sapere i perché e i per
come del loro utilizzo, come spiegheremo nel successivo paragrafo.
Una delle vie possibili per indagare l'inconscio cognitivo è data dallo studio
della struttura neurale in cui si formano i concetti: il punto di partenza di questo studio
è il modellamento neurale, inteso come lo studio delle configurazioni di neuroni che sono
necessari per sviluppare una funzione umana (vista, tatto, colori, linguaggio…). In
quest'approccio ci si pone una domanda fondamentale: può la ragione servirsi di
pattern tratti dai sistemi sensomotori? In altre parole, possono le inferenze razionali
9
essere computate dalla stessa architettura usata nella percezione e nei movimenti
corporei? Può una serie di sensazioni formare un concetto?
La ricerca in questo campo ha suffragato l'ipotesi che è possibile che la ragione
sia fondamentalmente corporea, che le strutture della coscienza non siano separabili
dalla percezione sensoriale e più specificatamente dal nostro apparato sensomotorio;
e la struttura del nostro cervello, formata dall'evoluzione e dall'esperienza, non può
più essere trascurata dalla scienza cognitiva.
È importante introdurre un altro concetto riguardo alle strutture neurali, la
specializzazione. Siamo esseri con un cervello altamente specializzato; l'occhio umano
ha 100 milioni di cellule fotosensibili, ma al cervello arrivano solo un milione di
connessioni visive, quindi l'alto numero di informazioni in entrata vengono ridotte nel
trasporto da cellula a cellula. La specializzazione così intesa non è indagabile
direttamente dalla parte cosciente del nostro essere, ma dobbiamo utilizzare
strumenti esterni.
Se accettiamo le categorie e i concetti, che utilizziamo nel linguaggio e nel
nostro pensiero, come formati dalla nostra esperienza e dalle connessioni di neuroni,
dobbiamo allora accettare anche la loro “incoscienza” e quindi ricercare strumenti
d'indagine adeguati. Quelli che noi chiamiamo concetti sono qui definiti come
prototipi, una struttura neurale e quindi fisica, che ci permette di svolgere la funzione
dei concetti.
Un esempio di prototipo ideale è quello capace di individuare quelli elementi
standard che formano il concetto ideale di marito o di sedia. Il nostro ragionamento si
basa sull'uso dei prototipi nelle loro diverse tipologie, alcune dei quali saranno
mostrate di seguito; esistono, infatti, dei prototipi di base che sono una sorta di scala
di misura, come un sistema di riferimento linguistico, prototipi “essenziali” categorie
primitive, così come intese da Lakoff e da Joe Grady.
1.3 Prototipi essenziali
Le inferenze concettuali possono essere associate ad inferenze sensomotorie, in
altre parole i nostri concetti sono derivati dalle nostre strutture neurali, come ad
esempio nella percezione dei colori. La nostra esperienza relativa ai colori è basata su
10
quattro fattori due esterni e due interni a noi: la lunghezza d'onda della luce riflessa,
le condizioni ambientali della luce, i tre coni del colore della nostra retina e il
complesso circuito neurale connesso a questi coni.
Prendiamo ad esempio un oggetto target come una banana; la luce che riflette
è la combinazione di tutte le frequenze d'onda della luce fuorché quelle che sono
assorbite dal frutto. Se la banana viene però illuminata con una luce fluorescente o la
esponiamo alla luce del giorno o a quella della luna piena, cambia il suo colore così
come le condizioni della luce diffusa nell'ambiente. Tuttavia il nostro sistema visivo
compensa in certa misura queste variazioni permettendoci di vedere lo stesso giallo in
condizioni ambientali diverse.
Quando le radiazioni elettromagnetiche colpiscono la nostra retina e i coni del
colore n'assorbono le radiazioni, è prodotto un segnale elettrico che è elaborato dal
nostro cervello e ci permette di vedere. La percezione del colore rientra nella
prototipo “giallo” in una posizione che può essere più o meno centrale o sfumata
secondo l'intensità del segnale nel circuito neurale.
Perciò i prototipi dei colori sono derivati: da un'interazione fra gli oggetti che ci
circondano, dalla nostra percezione di questi oggetti e dalla nostra elaborazione
(come viene trasportato il segnale all'interno del cervello). La realtà non ha niente
d'oggettivo in senso classico, ma esiste solo in questa continua interazione di parti.
Alcuni particolari prototipi, oltre che formati in maniera inconscia, possono
relazionarsi, con una specie di tessuto connettivo, ai prototipi più generali che
vengono utilizzati consciamente; questi sono i concetti di relazione spaziale,
rappresentati da ciò che dà conoscenza allo spazio, che sono il cuore del sistema
concettuale di Lakoff (Peruzzi 1997). E' importante sottolineare che queste relazioni
spaziali sono date, non dagli oggetti in sé e per sé, ma dalla nostra percezione.
Davanti ad una chiesa
E' una serie d'elementi linguistici in cui “davanti” non si riferisce alla chiesa, ma
alla nostra percezione che è organizzata attraverso i prototipi di chiesa, di una parte
che noi reputiamo anteriore alla chiesa, e dalla nostra posizione spaziale nei confronti
di questi elementi. Così possiamo esserci noi davanti alla chiesa, mentre guardiamo la
sua facciata, o indicare qualcosa che si trova posizionato davanti ad una chiesa, o può
11
indicare il davanti della chiesa, cioè la sua facciata. Tuttavia in tutti i casi la relazione
può essere resa con la stessa forma linguistica.
L'uso delle relazioni spaziali è continuo nel nostro linguaggio, non indagabile in
maniera cosciente e diverso da linguaggio a linguaggio; ad esempio lo schema
gestaltico container, in cui un elemento A è contenuto in un elemento B che è
contenuto in un elemento C, è uno schema concettuale costantemente applicato (ad
esempio quando pensiamo al caffè contenuto nella tazza, che è contenuta nella
stanza).
Fig.1.1
Un altro esempio di schema concettuale usato è il sourcepathgoalschema, in
cui esiste una traiettoria di movimento da un punto iniziale ad un punto finale e
situazione di movimento su questa traiettoria.
Fig.1.2
Pensiamo ad un lavoro da compiere, formato da vari passaggi in cui siamo ad
un certo stadio, ad esempio costruire una casetta per gli uccelli, temperare una
matita, farsi una doccia. Questi schemi creano strutture che vengono utilizzate in
modo continuo e costante nella costruzione mentale del mondo e sono formati dai
concetti base e dalle relazioni che ne definiscono i rapporti. La percezione spaziale del
12
C
B A
A C
B
nostro corpo è applicata per similitudine anche agli oggetti fuori di noi; “davanti” e
“dietro”, ad esempio sono usati per cani, automobili, edifici…
Gli studi sulle relazioni spaziali da parte della “grammatica cognitiva”, hanno
mostrato che esistono poche relazioni primitive che si combinano con funzioni di
movimento nello spazio (ad esempio l'uso dei concetti verticale e orizzontale).
Tradizionalmente esiste una dicotomia tra percezione e concetto: la percezione è
accettata in questa prospettiva come formata dalle strutture neurali e dagli input che
circolano in queste strutture, mentre l'uso e la formazione dei concetti è vista
tradizionalmente come distaccata dalle abilità corporee di percepire e muoversi.
Nella visione di Lakoff il corpo forgia i concetti, il corpo non è solo percezione, ma
anche formazione dei concetti.
1.4 I modelli di T. Regier, D. Bailey, S. Narayanan
Nei recenti risultati della ricerca dei modelli neurali sui meccanismi della
percezione e degli schemi motori è stato possibile arrivare a risultati sorprendenti nel
ragionamento e nell'apprendimento del linguaggio. È stato provato cioè che la
struttura neurale, è capace di simulare la realtà percepita e di fissarla in un modello
fisico. Questo è il risultato a cui sono giunti i ricercatori del gruppo NTL: il
modellamento neurale come prova dell'esistenza della fisicità della mente, perché un
modello neurale di percezione o di meccanismi motori è lo stesso meccanismo usato per il
lavoro concettuale.
Mostriamo in seguito quali sono state le applicazioni di questi modelli,
rimandando per un più tecnico esame direttamente agli autori.
Il modello di Terry Regier per l'apprendimento dei termini di relazione spaziale
Il primo modello che qui presentiamo è quello di Regier (1996), in cui dato un
modello retinico d'input, con varie configurazioni geometriche in varie configurazioni
spaziali, unita ad una descrizione dettagliata in un dato linguaggio; il modello può
imparare il sistema di concetti di relazione spaziale così che può correttamente
13
classificare nuove configurazioni. Questo avviene sia in casi di configurazioni spaziali
statiche che di movimento.
L'idea di base è di far tradurre al programma i vari termini di relazioni spaziali
del linguaggio con le strutture neurali visive del cervello. I meriti di questo
programma sono notevolissimi, perché le mappe topografiche usate dalle strutture
neurali del campo visivo possono essere usate nella computazione di schemi
d'immagine che hanno proprietà topologiche. Ovvero, l'insieme di cellule
d'orientamento sensitivo è capace di computare gli aspetti d'orientamento spaziale dei
concetti che si riferiscono all'orientamento del corpo. Così il modello di Regier è
simultaneamente sia concettuale sia percettivo.
Il modello di David Bailey della comprensione dei movimenti delle mani
Questo modello permette, non solo di imparare a categorizzare nominandoli i
movimenti delle mani nell'ambito di qualsiasi linguaggio, ma anche di usare
correttamente quei verbi che indicano un movimento delle mani in una simulazione al
computer.
Il cuore del modello di Bailey (1997) sono modelli con schemi di controllo
motorio ad alto livello che operano in tempo reale su circuiti neurali subcorticali,
azionando automaticamente piccoli movimenti di basso livello. Far svolgere un lavoro
a tante piccole subunità gestite da un'unità supervisore è un procedimento spesso
usato in informatica, che consente di ridurre i tempi e facilitare le operazioni svolte
mantenendo la stessa complessità di sistema. Queste subunità usano i parametri degli
schemi di controllo motorio chiamati “Xschemas” (X indica executing).
L'idea del programma è questa: i verbi di movimento delle mani differiscono
considerevolmente da linguaggio a linguaggio, quindi anche la loro categorizzazione è
diversa. Ma se usiamo gli schemi delle sinergie motorie, questo meccanismo può
categorizzare e nominare le azioni, e allora passiamo da un sistema sensomotorio ai
concetti di movimento delle mani. Il successo del modello di Bailey lo dimostra.
Il modello di Srini Narayanan degli schemi motori e delle metafore
14
Narayanan (1997) evidenzia come tutti gli schemi motori abbiano le stesse
strutture di controllo agli alti livelli. Il modello è formato dai seguenti passaggi:
Preparazione
Stato iniziale
Inizio processo
Processo principale (sia istantaneo o prolungato)
Opzione stop
Opzione cancella
Opzione per ripetere o continuare il processo principale
Check degli obiettivi
Fine processo
Stato finale
Questo è un semplice modello informatico della struttura generale degli eventi,
formata da una parte concettuale e una logica, usata per il controllo motorio.
Narayanan ha scoperto che è possibile usare lo stesso programma, sia per controllare i
movimenti del corpo, che per compiere inferenze logiche e lo ha mostrato in un
modello neurale delle metafore concettuali, trovando i casi in cui le metafore motorie
sono state usate in un dominio astratto (ad esempio nell'economia internazionale).
Così frasi come: “L'India perde la sua forza nel commercio”, “La Francia
regredisce mentre la Germania viene su”, evidenziano come le inferenze proprie delle
metafore siano fondate su una proiezione degli schemi motori sui concetti. La mente
come Lakoff afferma attraverso questi programmi sembra quindi incarnata. Ognuno di
questi modelli è una prova dell'esistenza di una mente che opera attraverso una
struttura neurale.
Nei casi mostrati non è importante la corretta riproduzione della realtà
fisiologica (come approfondiremo nei prossimi capitoli), quanto la possibilità che la
realtà e la mente possano avere un'origine fisica, in quanto formate da un sistema di
cellule interagenti. Se secondo Lakoff le funzioni altamente specializzate del cervello,
come apprendimento, linguaggio e pensiero, sono formate da il nostro sistema nervoso
15
che interagisce con input esterni allora studiando attraverso simulazioni la rete neurale è
possibile ricreare il collegamento fra la percezione e la formazione di concetti.
1.5 La Teoria Concettuale delle Metafore di Lakoff
Nella teoria delle metafore di Lakoff e Johnson (1980),la metafora “concettuale
complessa” è analizzata come un tipo di legame tra un dominio concettuale e un altro,
tipo di legame che secondo gli autori utilizziamo costantemente, e che ha un valore
cognitivo oltre che grammaticale. Le metafore sono formate da concetti che si legano
tra loro seguendo una precisa direzione, il concetto di partenza è chiamato source e
quello d'arrivo target. Un esempio di metafora per Lakoff è:
La vita è un viaggio
In cui il viaggio è il source e la vita è il target. In questo contesto bisogna
considerare la metafora concettuale come un modello cognitivo e non solo come
un'unione fra due domini, così possiamo evidenziare i relativi sottomodelli:
Una persona che vive una vita è un viaggiatore
I successi nella vita sono destinazioni
Il modo di vivere è un itinerario
E' facile vedere come molti modi di argomentare sulla vita possano essere
riportati ad un modello o ad un suo sottomodello, e questi ultimi siano formati
direttamente dalla nostra esperienza e dalle caratteristiche fisiche del nostro corpo.
Ogni metafora complessa è costituita da metafore primitive, che derivano
direttamente dalla nostra esperienza percettiva del mondo, in cui il dominio
dell'origine delle metafore (source) deriva dalla struttura del sistema sensomotorio, e
in particolare secondo Lakoff & C dal peso delle sinapsi nelle connessioni neurali.
Le metafore primitive inerenti all'esempio precedente sono:
Le decisioni nella vita sono destinazioni
16
Le azioni sono movimenti
Nella sua ultima versione la teoria concettuale delle metafore proposta da Lakoff
contiene la teoria integrata delle metafore primitive, che si basa sull'apporto combinato
di quattro diverse teorie, che spiegano come le metafore complesse siano formate da
quelle primitive e come quest'ultime abbiano un'origine fisica.
- La Conflation Theory di Johnson (1997)
Un esempio di conflation, fusione, tra due o più percezioni sensoriali, è dato da
una forma linguistica come:
Vedo quello che stai dicendo
Che unisce il vedere all’udire qualcosa. Secondo Johnson questo processo
avviene prima di qualsiasi combinazione metaforica, infatti, presenta questa teoria
suffragandola da uno studio applicato sui bambini, e consiste nella capacità di unire
due domini differenti fra loro. In chiave sensomotoria una qualsiasi azione
complessa è formata da sottoazioni: l'azione di camminare è formata da quella di
muovere i piedi in un certo ordine, l'azione di prendere un oggetto su un tavolo è
formata dalla sottoazione di calibramento d'ogni parte del braccio e del tronco per
raggiungere quell'oggetto.
Per comprendere meglio si pensi al famoso programma del granchio di
Churchland (1989) in cui veniva riprodotto il comportamento sensomotorio della sua
chela unitamente a quello della sua percezione visiva. La percezione visiva “puntava”
un oggetto che veniva “raggiunto” dalla chela, così il granchio riusciva ad afferrare gli
oggetti, e alla base di quest'elementare conflation c'è un semplice programma di
simulazione.
Johnson suggerisce che questo tipo di processo sia applicato fin dall'infanzia per
calibrare i nostri concetti, in quelle che poi diventeranno forme complesse e
metaforiche del linguaggio, attraverso l'unione di più concetti distanti fra loro, ma
legati in maniera fisica.
- La Primary Metaphor Theory di Grady (1997)
17
Secondo questa teoria, il passaggio dalla realtà fisica e complessa della percezione,
ad una realtà apparentemente più semplice come quella del linguaggio e della
coscienza, avviene attraverso la creazione di forme atomiche, in cui si combinano i
dati sensoriali, che formano una specie di sfondo in cui si muovono, in un passaggio
successivo, le metafore più complesse.
- La Neural Theory of Metaphor di Narayanan (1997)
Se le associazioni metaforiche del periodo della conflation, realizzate con schemi
neurali, creano il dominio concettuale che sarà proprio delle metafore, nel modello
costruito da Narayanan, questo processo si traduce attraverso uno stimolo sensoriale
A che attiva un insieme di neuroni B che è connesso a sua volta con altri neuroni di un
altro dominio C. Si crea così la base fisica della metafora.
- La Theory of Conceptual Blending di Fauconnier e Turner (1994)
Secondo Faconnier e Turner due domini differenti si possono unire a particolari
condizioni, attraverso metafore primitive o relazioni completamente nuove rispetto
all'esperienza fisica. Ad esempio:
Se un uomo ama una donna, la rispetta
In questo caso non si ha una conflation, bensì un blending, cioè una mescolanza di
concetti che rimangono ben definiti l'uno dall'altro, in cui:
Un uomo ama una donna
Amare vuol dire rispettare la persona amata
La persona amata viene rispettata
Si uniscono così due concetti “amare” e “rispettare” rimanendo questi ben distinti
l'uno dall'altro.
18
1.6 La Teoria delle Metafore Primitive di Grady
Vediamo ora nel particolare come Grady, collaboratore di Lakoff, propone la
struttura di collegamento fra percezione sensoriale e metafora concettuale.
Fig.2.1
Mentre i nostri sistemi percettivi funzionano 24 ore su 24 e immettono in
maniera continua informazioni nel nostro cervello, le nostre percezioni sono filtrate
dalla soglia della coscienza com'eventi di base (basic event) e si staccano dallo sfondo
delle percezioni assumendo un senso ben definito (Peruzzi 1996). La continua massa
d'informazioni, che il nostro cervello riceve continuamente, è codificata in maniera
tale da essere percepita in strutture cognitive ben definite, tuttavia non le
controlliamo in maniera cosciente.
Per fare un esempio, pensiamo, ad un'informazione fissa che noi riceviamo,
come l'informazione tattile data dall'indossare una camicia ruvida e stretta; se la
indossiamo per un giorno intero, la nostra coscienza registra inizialmente il contatto
19
della pelle con il tessuto ruvido e stretto, ma a fine giornata, pur continuando ad
avere gli stessi input tattili, la percezione sarà sparita dalla nostra coscienza.
Un input tattile è dato dalla soglia d'attivazione dei bottoni sinaptici presenti
nel tessuto epiteliale e la loro continua stimolazione produce sempre lo stesso impulso
nervoso, tuttavia nel percorso dalla pelle al cervello questo stimolo può essere
cancellato. Questo avviene perché le pesature delle connessioni neurali, sono
modificabili, come vedremo meglio in seguito.
Gli eventi di base sono quindi soggettivi, nel senso che, essendo formati da
percezioni calibrate sull'esperienza soggettiva dell'individuo, dipendono dalla sua
esperienza, ovvero dalle stimolazioni del suo sistema nervoso. Prendiamo ad esempio
un sommelier e un normale bevitore di vino da tavola: le percezioni gustative variano
tra i due pur avendo lo stesso apparato percettivo, così come un guidatore di formula
uno ed uno normale avranno esperienze diverse legate alla guida, pur avendo anche
loro lo stesso sistema percettivo.
L'unione degli eventi di base origina le sottoscene e in seguito le scene primarie.
Le scene, come anche i frame, così come ideati da Schank e Abelson (1977) e altri
studiosi di sistemi artificiali, sono spazi pluridimensionali in cui si definiscono il
dominio di un termine e il campo in cui si muove un determinato elemento. Dato il
nostro apparato percettivo e gli eventi che da esso vengono percepiti, il prodotto
cognitivo tra i due è l'esperienza soggettiva degli eventi di base, cioè le scene
primarie. La correlazione fra distinte dimensioni dell'esperienza è forse l'elemento
essenziale delle metafore così intese.
In questo senso le scene primarie sono episodi temporalmente delimitati di
esperienza soggettiva, caratterizzate da un'alta correlazione fra circostanze fisiche e
risposte cognitive, come un'esperienza traumatica come un incidente oppure un
ricordo molto piacevole come la vincita al lotto. Con il ripetersi dell'esperienza, le
scene principale creano delle associazioni tra concetti diversi, e si formano i vincoli
concettuali, relazioni inconsce dell'esperienza che non sono delle semplici strutture
neurali, come invece sono i concetti, ma formano un primo livello psicologico del
pensiero dato dalla frequenza delle attivazioni neurali dei concetti. In seguito si ha la
deconflation, che è invece la forma contraria del processo studiato da Johnson, in cui i
concetti sono separati dai vincoli concettuali per creare metafore ben definite che si
staccano dallo sfondo (background).
20
A questo punto si possono formare le metafore primitive come un vincolo
(binding), fra due concetti, un concetto target appartenente ad una scena primaria e
un concetto source di un'altra scena primaria. Nel modello di Grady i concetti source
sono derivati in maniera diretta dall'esperienza (image content); mentre i target sono
operazioni definite sulle percezioni e non percezioni dirette. Così le metafore primarie
uniscono insieme tipi diversi di concetti e questo ha importanti implicazioni anche per
l'esperienza mentale soggettiva.
Infatti non si tratta di passare da bassi livelli a quelli alti, ma di far interagire
concetti basilari, ma appartenenti a domini distinti, come mattoncini Lego che a
seconda di come si combinano creano “ponti” diversi e così significati diversi.
Vediamo di concretizzare quanto detto con uno schema:
Fig.2.2
Nella metafora “la vita è un viaggio” abbiamo un collegamento fra due domini,
in cui esistono concetti principali e subordinati. Un concetto principale, in questo caso
il source, è “un viaggio” e i concetti ad esse collegati sono che la “vita può essere
vissuta”, che “la vita ha degli obbiettivi”, dei “successi”, e che esiste “un modo di vivere”.
E così per il target il “vita” esistono dei concetti subordinati come, “viaggiatore”,
“destinazioni”, “itinerari”…
Quindi la metafora principale (nello schema tra a e b)
, contiene le altre metafore come collegamenti, relazioni fra le parti subordinate di
due domini distinti (a2 e b1), creando così:
Una persona che vive una vita è un viaggiatore
I successi nella vita sono destinazioni
Il modo di vivere è un itinerario
21
Secondo Grady le caratteristiche di queste relazioni (primary source concept)
derivano dal fatto che:
- Sono relazioni formate dalle sensazioni corporee e dalle percezioni in ogni modalità.
- L'image content è un particolare livello schematico di specificità, in cui ci si riferisce a
semplici esperienze piuttosto che a complesse, formate da molte scene e concetti.
- Sono queste esperienze che dirigono le nostre azioni verso finalità inconsce.
- Sono “selfcontained” e questo le distingue da altri tipi di rappresentazioni (scene).
- Si riferiscono ad elementi universali dell'esperienza umana.
- Sono puramente relazionali (non includono la percezione fisica di cani, alberi…).
Tutte queste caratteristiche definiscono in maniera chiara quali sono le peculiarità
di tutti i primary source concept che hanno image content, in altre parole ogni concetto
del genere è ancorato direttamente ad un input sensoriale, a differenza dei target che
sono strutture d'elaborazione degli input, pur lavorando anch'essi su base fisica. I
primary target concept, infatti, sono definiti come più astratti, e si riferiscono a
funzioni cognitive di base o a livelli con accesso conscio. La tradizione linguistica
voleva vederli come astratti (si pensi ai concetti d'ideali di spazio e tempo), invece
sono il livello più basso della coscienza e utilizzano strutture connessionistiche come
quelle di Baley (1997).
In più esiste un'evidenza neurologica che mostra suddette relazioni, perché uno
stimolo (source) può essere associato ad un concetto (target), così come l'azione di
“uccidere” può essere associata al concetto di “male nella società”. Secondo Lakoff
(1999) invece, il rapporto fra source e target (chiamato il principio d'invarianza) si
fonda principalmente sulla struttura immagineschema del dominio del source, come
nei frame e nelle scene, in altre parole è lo stesso source che crea e indirizza il target.
Nella metafora:
La vita è un viaggio
Vengono scartate dal dominio del source “viaggio” tutte quelle associazioni non
“attinenti” come:
22
La vita è uno stivale
Ovvero è lo stesso source che delimita il dominio della metafora e questa
delimitazione è descritta attraverso i frame o scene. Per Grady invece le metafore
primitive hanno il seguente schema di rete neurale, in cui i due elementi base
“quantità” ed “elevazione” si uniscono nella metafora primitiva di “pila” (intesa come
oggetti sovrapposti verticalmente):
23
Fig.2.3
Bisogna notare inoltre che le possibilità d'associazione fra concetti e più in
generale fra gli stimoli neurali, possano seguire altre regole. In generale queste
particolari associazioni di concetti, denominate come nonprimary metaphor, sono più
un'unione d'atti linguistici complessi che una costruzione legata alla nostra
esperienza. Pensiamo a concetti come “gargoyle” o come “unicorno”, animali
mitologici che non esistono di cui però ne abbiamo e ne possiamo usare il concetto.
Un altro esempio si ha con la frase:
Achille è coraggioso come un leone
In questo caso si uniscono due concetti distinti, come Achille e leone, attraverso
un elemento che hanno in comune (il coraggio) secondo quella che Grady definisce
similarity theory of metaphor. Per comprendere meglio lo stesso Grady ne propone uno
schema neurale:
Fig.2.4
Come ho accennato prima, le operazioni di associazione che possiamo fare, dal
semplice stimolo fino alla costruzione di concetti più complessi, sono pressoché
infinite, è normale allora considerare in maniera indicativa gli aspetti più tecnici della
teoria delle metafore di Lakoff & C. Volendo essenzialmente questi cercare di
24
dimostrare la possibilità si simulare con reti connessionistiche il passaggio dalla
percezione alla costruzione delle metafore, sarà opportuno vedere quali sono i limiti
teorici di tali simulazioni, e questo sarà il compito del prossimo capitolo.
Capitolo 2Il Connessionismo
“Ogni comportamento è l'espressione di una funzione cerebrale. Quella che noi chiamiamo genericamente mente,
è l'insieme di funzioni cerebrali.Il cervello è costituito di tante unità, costituite dalle
cellule nervose (o neuroni) e dalle cellule gliali.”Eric Kandel
I modelli di Lakoff e Grady presentati precedentemente basano la forza delle
loro asserzioni sulle simulazioni al computer di modelli neurali. In questo capitolo
analizzeremo allora la simulazione di un modello neurale, con i suoi pregi, i suoi
difetti e le sue limitazioni, e introdurremo così alcune problematiche proprie di questi
sistemi, che saranno affrontate in maniera completa nel prossimo capitolo.
Nel far questo abbiamo analizzato un particolare tipo di rete (quella PDP) a
nostro avviso esemplare per tutta la categoria, in quanto tutte le reti connessionistiche
processano l'informazione ricevuta attraverso uno stesso linguaggio matematico di
medesima complessità.
3.1 Il cervello è un emulatore della realtà
Per comprendere appieno le motivazioni di tali simulazioni ci soffermeremo
sulla struttura del sistema nervoso, considerandolo come una rete di neuroni, senza
tenere conto della realtà fisiologica in cui l'informazione viene trasportata anche per
altre vie. I neuroni all'interno del cervello sono approssimativamente 10¹º.
La maggior parte dei neuroni non hanno caratteristiche funzionali, cioè non si
occupano della percezione (vista, udito o tatto…), ma sembrano finalizzati alla
25
formazione di un sistema chiuso. Ovvero la maggior parte dei neuroni non si
occupano del mondo esterno in maniera diretta, ma si occupano di un'elaborazione
dell'informazione che giunge dall'esterno.
Così i neuroni del nostro cervello sono rivolti ad emulare la realtà, come se si
fossero evoluti nel tempo per “imitare” ciò che esiste al di fuori di noi, o, in altre
parole, per costruire una “storia”. Ma gli elementi di questa storia esistono da prima
della nostra nascita, poiché nessuno c'insegna a vedere i colori, né a sentire il dolore o
le altre sensazioni. Queste facoltà nascono con noi, proprio come il naso, le orecchie e
il corpo. Noi siamo un corpo equipaggiato con un sistema di sensazioni. Il nostro
cervello è un emulatore che genera una realtà e ne verifica l'affidabilità servendosi
delle sensazioni.
Per indagare il suo funzionamento, sono stati fatti diversi tipi di simulazioni
della sua struttura attraverso modelli matematici riprodotti con il computer, e alcuni
di questi, elaborati all'interno degli studi sulle intelligenze artificiali, sono
riconducibili al connessionismo, un tipo d'impostazione sviluppato principalmente da
James McClelland e David Rumelhart.
Ovviamente esistono altri modelli di riproduzione del cervello, tuttavia questo è
quello che oltre ad essere il più recente, sembra mostrare maggiore attinenza alla
realtà fisiologica del sistema nervoso. Da quando è stato inventato il microscopio, è
diventato evidente che il sistema nervoso non è solo una gran massa gelatinosa, ma
che esso è effettivamente composto di miliardi di minuscole cellule chiamate neuroni.
Ciascun neurone può avere anche più di 100.000 connessioni con altri neuroni del
cervello.
Il compito di ciascun neurone è quello di ricevere segnali da molti altri neuroni,
migliaia o centinaia di migliaia in certi casi, e di combinarli in un modo
sufficientemente semplice da decidere se inviare o meno un segnale ai neuroni con il
quale esso è a sua volta collegato. Da questo emerge l'idea che tutta la nostra vita
mentale, tutta la nostra attività cognitiva, è in realtà il prodotto delle interazioni fra
tutte queste unita d'elaborazione molto semplici.
26
Fig.3.1
Il tentativo di riproduzione di questo modo di operare costituisce il lavoro del
connessionismo (o PDP, Parallel Distributed Process), in cui si cerca di riprodurre in
maniera computabile, cioè trascrivere in linguaggio matematico, i legami neurali,
come semplici operazioni in parallelo. L'unità di simulazione principale del neurone si
chiama perceptron ed è stato Frank Rosemblatt (1957) a costruire per primo una
connessione retinica di queste unità, anche se sicuramente il merito teorico si può far
risalire agli studi di Donald Hebb (1949).
Fig.3.2
27
Il perceptron ha un funzionamento molto semplice (JonhsonLaird 1988);
input di entrata, un valore di attivazione del nodo (chiamato peso), un input in uscita,
che di solito ha valori sono compresi fra 0 e 1, e la sua formazione si può riassumere
in tre passaggi. Inizialmente possiamo rappresentare le forze di queste connessioni in
un diagramma, oppure in una matrice in cui una riga sta per un'unità in un insieme,
una colonna sta per un'unità nell'altro insieme, e il riquadro in cui riga e colonna
s'intersecano contiene la forza della connessione tra le due unità. Questi principi
possono essere illustrati con un esempio in scala ridotta con solo due unità in ciascun
insieme, due visive e due uditive:
Fig.3.3
La forza della connessione tra due unità è la stessa in entrambe le direzioni.
Come McClelland e Rumelhart, assumeremo che la forza possa essere eccitatoria,
neutra o inibitoria; e possa così avere qualsiasi valore tra + 1 e 1. Un'unità trasmette
ad un'altra un'attivazione pari alla propria attivazione moltiplicata per la forza della
connessione; ad esempio, un'unità attiva +1 con una connessione inibitoria di 0.5
con un'altra unità, trasmette ad essa un valore di 0.5.
Il secondo passaggio è introdurre il principio che il livello d'attivazione di un'unità
è uguale alla somma di tutte le attivazioni che essa riceve da altre unità. Possiamo usare
questo principio per stabilire la forza delle connessioni in modo tale che, per esempio,
la configurazione visiva +1 1 produca automaticamente la configurazione uditiva 1
1, e viceversa. Ecco le forze di connessione che stabiliscono quest'associazione:
Fig.3.4
28
Consideriamo l'unità nella riga superiore. Il suo livello d'attivazione è uguale
alla somma dei valori (attivazione x forza di connessione) che riceve da ciascun'unità
della colonna corrispondente:
( +1 x 0.5) + (1 x 0.5) = 1
L'attivazione dell'unità della riga inferiore è determinata nello stesso modo. La
disposizione è simmetrica: se la configurazione uditiva è l'input, allora quella visiva è
l'output. In generale, la forza della connessione tra due unità deve essere positiva
quando entrambe hanno livelli di attivazione dello stesso segno; altrimenti, è
negativa. I valori numerici delle forze dipendono dal numero totale di connessioni.
Questi stessi principi possono essere usati per costruire una matrice che
stabilisca un'associazione tra un'altra coppia di configurazioni: la configurazione
visiva +1 +1 e la configurazione uditiva 1 +1:
Fig.3.5
Viene ora il terzo, e più significativo, passaggio. Sommiamo le due matrici delle
forze di connessione per ottenere:
Fig.3.6
29
Questa unica matrice è sufficiente per realizzare tutte e due le associazioni: se
date in input la prima configurazione visiva, otterrete la prima uditiva; se date in
input la seconda configurazione visiva, otterrete la seconda uditiva. Entrambe le
associazioni sono codificate in un unico insieme di connessioni tra i due insiemi di
unità e il sistema è ciò che viene definito dai matematici un sistema lineare, perché
operazioni separate, in questo caso forze di connessione, hanno effetti che possono
essere combinati in maniera additiva.
Esiste ovviamente un limite al numero di associazioni differenti che possono
essere rappresentate in un unico insieme di connessioni e tale limite è uguale al
numero di unità in uno degli insiemi. Di conseguenza, con solo due unità in ciascun
insieme possono essere stabilite soltanto due associazioni, ma una rete nervosa reale
nel cervello potrebbe rappresentare milioni di associazioni.
Configurazioni di input simili danno origine a output simili, e così se si
desidera evitare l'interferenza, si deve fare in modo che le configurazioni in input non
siano in relazione tra di loro (questa nozione ha una formulazione matematica
precisa: le configurazioni di qualsiasi coppia di input dovrebbero essere ortogonali,
cioè i prodotti incrociati della coppia dovrebbe assommare a zero, ad esempio per i
due input visivi, +1 1 e +1 +1, il prodotto incrociato (+1 X +1) + (1 X +1) è
correttamente uguale a 0).
Diverse proprietà interessanti emergono da un grande sistema di questo tipo.
L'attività di qualsiasi unità singola è relativamente poco importante: se funziona male
o viene distrutta, il sistema non ne sarà drasticamente danneggiato. Analogamente, se
una piccola parte di un input manca oppure è nascosta, il sistema può ancora fornire
l'output corretto. Infatti, se una matrice si basa sull'associazione di ciascun input con
se stesso, essa sarà in grado di completare input frammentari con le loro parti
mancanti.
Gli indirizzi numerici sono stati rimpiazzati da un sistema in cui i simboli stessi
di input attivano la memoria. Una tale memoria ha soltanto confini vaghi tra ricordo,
ricostruzione e invenzione completa. Probabilmente a questo punto può tornare utile
un esempio concreto, tratto da uno dei primi lavori di McClelland. Uno dei problemi
ai quali si è interessato fin dal principio è stato di capire come mai, quando
percepiamo qualcosa, siamo in grado di servirci della situazione per influenzare ciò
30
che vediamo. Qui, ad esempio, vediamo qualcosa che assomiglia ad una parola e che è
in parte nascosta da macchie d'inchiostro.
Fig.3.7
Ora, il problema è: che lettera è quella che è in parte cancellata? Dagli
esperimenti di psicologia della scuola gestaltica sappiamo che le persone avranno una
maggior probabilità di intravedere una parola piuttosto che un insieme indefinito di
lettere. Se ne deduce allora che la conoscenza di cui le persone si servono in questi
casi comprende la conoscenza delle sequenze di lettere che costituiscono le parole di
ciascuna lingua. Nel costruire un modello di questo caso specifico sono usate delle
unita simili a neuroni, che stanno per le parole; ce ne sono più di un migliaio solo per
le parole brevi e comuni della lingua. Inoltre sono state usate delle unità
corrispondenti a lettere; quattro insiemi di tali unità per tutte le lettere. E sotto a
queste sono state usate delle unità per gli elementi visivi o le caratteristiche delle
lettere, in modo che la rete sia capace di leggere le lettere.
31
Fig.3.8
Quindi, per far funzionare la simulazione si deve assumere che esistano delle
connessioni, fra le parole e le lettere che esse contengono, e fra le lettere e le loro
caratteristiche. Ad esempio, le lettere C, A, S, e O sono tutte legate alla parola CASO
con connessioni a doppio senso. Perciò, nella nostra simulazione possiamo limitarci ad
attivare gli aspetti visivi presenti e a consentire all'attività di propagarsi nel sistema,
per vedere com'esso si stabilizzi su un'interpretazione del segnale.
In questi casi gli aspetti visivi sono coerenti con le lettere C, A, S, mentre nel
quarto rombo (l'unità visiva) sono compatibili con una C o una O. E queste lettere
sono compatibili a loro volta con alcune delle parole che conosciamo, in particolare lo
sono in larga misura con la parola CASO. Ecco che cosa accade adesso: quando
accendiamo la rete, inizialmente vengono attivate C, A, S, e poi, nell'ultima posizione,
sia l'O che la C.
Esse a loro volta attivano CASO, e CASC, di rimando, s'innesca un feedback che
rinforza l'attivazione delle altre unità. In questo modo la simulazione del sistema
percettivo finisce per inserire un'O in questa posizione, rinforzando la sua attivazione.
In realtà, si pensa che le connessioni di ritorno continuino fino al livello degli aspetti
visivi delle lettere, in modo che possiamo in ogni modo inserirli nella nostra
esperienza percettiva, anche se non sono necessariamente tutti presenti nel segnale.
Concludendo, attraverso quest'esempio abbiamo potuto vedere all'opera in
modo molto semplice il lavoro di simulazione: costruire un insieme d'unità (in questo
caso abbiamo unità esplicite per le parole, le lettere e le caratteristiche visive delle
lettere) e inoltre costruire delle connessioni fra di loro. Infine, abbiamo un computer
con degli algoritmi molto semplici che consentono all'attività di propagarsi da un'unita
all'altra. In questo modo possiamo simulare l'attività computazionale che riteniamo
avvenga teoricamente in questi casi nella rete neurale del cervello.
3.2 Come apprende la rete
Vediamo ora come una rete siffatta possa apprendere un compito modificando
solo il peso delle sue connessioni. Uno degli elementi che più differenziano i modelli
32
connessionisti dai modelli tradizionali di rappresentazione e d'elaborazione
dell'attività mentale è costituito dal modo in cui la conoscenza è immagazzinata nella
rete. Tradizionalmente si pensava che la conoscenza fosse come scritta in un libro, in
cui vi era una forma (indice, numerazione di pagine, capitoli, paragrafi, …e la
struttura del libro stesso) e un contenuto (i concetti espressi tramite le parole).
Nei modelli connessionisti, invece, la conoscenza è direttamente contenuta nelle
connessioni interne, in altre parole è come se noi stessi fossimo il libro, dove non c'è più
differenza fra forma e contenuto, tra mente e corpo. Questo è un modo interessante e
innovativo di rappresentare la conoscenza, poiché implica che essa non sia
direttamente accessibile da parte dei processi mentali coscienti. Infatti il pensiero non
è qualcosa che noi consultiamo da un punto di vista obiettivo mentre agisce, in altre
parole non possiamo tenere il libro in mano e leggerne il contenuto, possiamosolo
viverne il suo contenuto e descriverne l’esperienza vissuta.
Le connessioni fra i neuroni non possono essere ispezionate; non possono
essere lette o interpretate per qualcun altro. Possono solo influenzare il modo in cui
un neurone attiva altri neuroni. Ecco qual è la vera differenza tra i modelli
connessionisti e l'approccio tradizionale di rappresentazione della conoscenza. Ed
ancora, supponiamo che io stia pensando a una tazza da caffè sulla quale è dipinta
una scimmia.
In termini connessionisti si pensa che a questo punto accada questo: il fatto di
pensare alla tazza con la scimmia attiva gruppi di neuroni in diverse parti del mio
cervello. Uno di questi gruppi si trova in regioni strettamente visuali o, in altre parole,
in parti del cervello che rappresentano esattamente l'aspetto della tazza, la forma del
manico e il modo in cui esso si congiungono alla tazza stessa. Un altro gruppo di
neuroni magari rappresenta il mio pensiero del momento: “Quasi quasi mi faccio un
caffè”.
Un'altra parte del mio cervello può contenere un gruppo di neuroni attivi, che
rappresenta il mio pensiero sulla scimmia: “Che immagine strana per una tazza da
caffè!” Si arriva, dunque, ad un concetto molto semplice: il contenuto del pensiero è
rappresentato da una distribuzione d'attività, la quale specifica, per ciascun neurone,
se esso è o non è attivo. E quando io penso, immagino che queste distribuzioni
d'attività evolvano e si modifichino ad ogni passaggio dei processi cognitivi.
33
Il modo in cui l'esperienza modifica le connessioni fra neuroni è uno degli
aspetti più interessanti e importanti dei modelli connessionisti. I modelli
connessionisti cercano di spiegare ciò che accade nello sviluppo comportamentale del
bambino, immaginando che il cervello usi l'informazione proveniente dalle esperienze
recenti come base per cercare di prevedere ciò che accadrà, e che quindi il cervello
osservi ciò che accade realmente. Immaginiamo che un bambino abbia di fronte uno
schermo opaco, e che una palla sia fatta rotolare sul pavimento in modo tale da farla
scomparire dietro lo schermo.
La domanda è: che cosa dovrebbe aspettarsi il bambino? Se non ha conoscenze
precedenti, può darsi che non si aspetti che la palla appaia dall'altra parte dello
schermo. Se questo è il caso, proverà davvero sorpresa a vedere riapparire la palla.
McClelland pensa che sia proprio questo tipo di sorpresa a spingere il bambino ad
apprendere che gli oggetti continuano ad esistere anche quando noi non li vediamo
più.
L'idea fondamentale è la seguente: nel corso di una qualunque esperienza la
mente continua a cercare di prevedere gli eventi futuri e ciò che accade realmente indica
alla mente ciò che essa avrebbe dovuto prevedere. Il cervello segue, quindi, una regola
d'apprendimento molto semplice: esso corregge i parametri delle nostre attese mentali, in
modo che la volta successiva le nostre previsioni siano più precise. Quando questi
parametri sono ben regolati, noi abbiamo a nostra disposizione un modello “interno”
del mondo che ci circonda.
Una rete può utilizzare, quindi, un algoritmo, denominato retropropagazione o
regola delta, che, partendo dallo scarto tra le sue previsioni e il risultato desiderato,
modifica gradualmente le forze delle connessioni tra i neuroni. Questa procedura
d'apprendimento comporta la presentazione di un insieme di coppie di pattern d'input
e d'output.
Il sistema anzitutto usa il vettore d'input per ricavarne un vettore d'output, e
poi confronta quest'ultimo con il vettore d'output desiderato, o vettore bersaglio. Se
tra i due vettori non c'è alcuna differenza, non ha luogo alcun apprendimento.
Diversamente, per ridurre la differenza, vengono cambiati i pesi. La regola per
cambiare i pesi in seguito alla presentazione di una coppia p d'input/output è data da:
34
p wji = ( tpj opj ) ipi = pj ipi
Dove tpj è l'output desiderato per il jesimo componente del pattern di output
per il pattern p, opj è il jesimo elemento del pattern di output effettivamente
prodotto dalla presentazione del pattern di input p, ipi è il valore dell'iesimo
elemento del pattern di input, pj = tpj opj , e p wji è il cambiamento del
peso della connessione dalla iesima unità alla jesima unità, che segue dalla
presentazione del pattern p.
L'applicazione della regola delta generalizzata, perciò comprende due fasi:
nella prima fase l'input viene presentato e propagato attraverso la rete per calcolare il
valore di output opj per ciascun'unità. Questi output sono poi confrontati con i valori
desiderati, generando così un segnale d'errore pj per ciascun'unità d'output. La
seconda fase comporta un percorso a ritroso attraverso la rete (analogo all'iniziale
percorso ascendente), durante il quale il segnale d'errore è trasmesso a ciascun'unità
della rete, e i pesi vengono cambiati appropriatamente. Questo percorso a ritroso
rende possibile il calcolo ricorsivo di quale è stato descritto sopra. Il primo passo
consiste nel calcolare per ciascun'unità d'output. Questo valore equivale
semplicemente al prodotto tra la derivata della funzione di schiacciamento e la
differenza fra il valore d'output effettivo e quello desiderato dell'unità. A questo
punto, è possibile calcolare le modificazioni dei pesi in tutte le connessioni che
conducono allo strato finale. Fatto questo, vanno calcolati i valori di per tutte le
unità del penultimo strato della rete e così via.
Prima di presentare i risultati ottenuti con queste reti, è bene fare alcune
considerazioni; anzitutto, va osservato che non tutti i pesi devono essere variabili, un
numero qualsiasi di pesi può essere fisso, in questo caso, l'errore è propagato
esattamente come prima, e i pesi con valore fisso non sono modificati. Occorre notare
anche che non c'è ragione per cui alcune unità d'output non possano ricevere un input
da altre unità d'output di strati precedenti.
35
In questo caso, queste unità ricevono due tipi differenti di segnale d'errore:
quello ricavato dal confronto diretto con il valore desiderato, e quello trasmesso dalle
altre unità di output di cui esse influenzano l'attivazione. In questo caso, la procedura
corretta consiste semplicemente nell'aggiungere le modificazioni dei pesi dovute al
confronto diretto a quelle trasmesse a ritroso dalle altre unità d'output.
Ricapitolando: alla rete sono presentate delle informazioni, dalle quali essa fa
delle previsioni, e di volta in volta la rete paragona le sue previsioni con i risultati
attesi, modificando, per retropropagazione, le forze delle connessioni tra i suoi
neuroni; progressivamente questo processo consente alla rete di trovare quelli che
sono i valori corretti in grado di indurre le connessioni a modificarsi, producendo le
risposte attese. C'è una famosa immagine, formata da un gran numero di macchie. Se
si osserva, all'inizio non si vede niente, ma dopo che si fissa per un po', tutte le
macchie e i punti rivelano un cane dalmata che annusa il terreno.
Fig.3.9
Se evidenziamo con una curva ciò che è appena avvenuto nell'osservatore,
rendiamo ancora più evidente il processo descritto sopra. Misureremo i tempi in
termini di “cicli d'insegnamento”. A ciascun ciclo, alla rete sono presentate
36
contemporaneamente tutte le possibili combinazioni di segnali d'entrata,
accompagnate dalla risposta corretta, in modo che essa possa imparare.
Fig.3.10
Risultato: l'errore complessivo è inizialmente abbastanza alto, ma con il passare
del tempo diminuisce un poco e quindi rimane stabile per un lungo periodo. Alla fine
raggiunge un punto in cui crolla bruscamente; qui possiamo affermare che la rete ha
risolto il problema. Il grafico mostra però che vi è un lungo periodo durante il quale,
dal punto di vista della prestazione della rete, non sembra succedere assolutamente
niente: è questo il periodo in cui la rete si prepara a raggiungere questo punto di
rapida transizione.
Secondo McClelland la forma di questa curva è correlata ad un fenomeno
studiato approfonditamente da Piaget lungo tutto l'arco della sua carriera (si veda ad
esempio KarmiloffSmith 1995). Si tratta del fenomeno della transizione fra stadi,
ossia di transizioni da uno stadio di sviluppo caratterizzato da un certo tipo di
pensiero, ad un altro stadio nel quale è adottato un modo di pensare radicalmente
diverso. Piaget aveva caratterizzato tali stadi in molti domini diversi.
Uno degli aspetti che più colpiscono nell'idea degli stadi è la presenza di
lunghi stati stazionari, durante i quali sembra che non cambi nulla, interrotti da
transizioni molto brusche che portano allo stadio successivo. Questa fu
un'osservazione davvero sconcertante per molti psicologi dello sviluppo, perché, da un
lato, essi volevano credere che l'esperienza influenzasse lo sviluppo, dall'altro lato
37
sembrava loro (e in verità non solo a loro), che l'impatto dell'influenza sullo sviluppo
si debba osservare in ogni momento.
Quello che il comportamento di questi modelli ci permette di comprendere è
che gli effetti dell'esperienza possono davvero accumularsi “sullo sfondo” durante un
particolare stadio di sviluppo, consentendo poi all'individuo di raggiungere il punto in
cui è pronto a cambiare in modo molto rapido e improvviso.
3.3 Pregi e difetti del connessionismo
Dopo avere mostrato il funzionamento delle reti è bene evidenziare anche i
loro limiti nel paragonarle alla struttura cerebrale, in seguito quindi saranno elencati
punto per punto gli aspetti tecnici di maggior contrasto con la realtà, questo ci
permetterà di comprendere meglio quelle che sono le limitazioni nelle tesi
precedentemente esposte di Lakoff e Grady.
I neuroni sono lenti
Una delle caratteristiche più importanti dei processi cerebrali, dipende dalla
velocità delle sue componenti. I neuroni sono molto più lenti delle componenti
computazionali convenzionali. Se le operazioni fondamentali nei nostri moderni
calcolatori seriali si misurano in nanosecondi, i neuroni operano in tempi che si
misurano in millesecondi, se non centesimi di secondo. Così l'hardware di base del
cervello è di 10 alla 6 circa più lento di quello dei calcolatori seriali. Immaginiamo un
rallentamento dei nostri programmi convenzionali di I.A. (intelligenza artificiale) di
un fattore 10 alla 86.
Più notevole è il fatto che si sia in grado di eseguire dei processi estremamente
complessi in poche centinaia di millesecondi. E' chiaro che il processo percettivo, la
maggior parte del recupero dalla memoria, gran parte del processo linguistico, del
ragionamento intuitivo e di molti altri processi si verificano in questo quadro
temporale. Ciò significa che questi compiti devono essere eseguiti in non più di 100
passi circa. E' questo ciò che Feldman (1985) chiama il vincolo del programma in 100
passi.
38
Si osservi inoltre, che i singoli neuroni secondo i connessionisti non calcolano
delle funzioni molto complicate. Sembra improbabile che un solo neurone calcoli una
funzione molto più complessa di una singola istruzione di un calcolatore digitale.
C'è un grandissimo numero di neuroni
Un altro aspetto autoevidente, ma importante, del processo cerebrale è il
grandissimo numero di unità che entrano in gioco. Le stime convenzionali indicano
che nel cervello il numero dei neuroni è dell'ordine di 10¹º, 10¹¹. Per di più, ogni
neurone è un'unità attiva, ciò, di fatto, fa pensare ad un parallelismo su larga scala.
Intendere il calcolo in parallelo in termini di qualche centinaio di processori
ragionevolmente complessi conduce a un modello sbagliato.
E' più che probabile che sia la scala così ampia del parallelismo del cervello che
gli dà questi prodigiosi poteri. Anche se il cervello dell'uomo è grande, il numero dei
neuroni non è illimitato. Può accadere che a volte i modelli connessionistici teorici
vadano oltre i limiti della plausibilità, per il grande numero di unità che richiedono. E'
questo un vincolo reale di cui dobbiamo tenerne conto nel valutare questi modelli.
I neuroni ricevono gli input da un gran numero d'altri neuroni
Un'altra importante caratteristica del processamento del cervello è il largo
ventaglio di collegamenti che esiste da e verso ogni unità. Le stime variano, ma i
singoli neuroni corticali possono ricevere da 1.000 a 100.000 sinapsi sui loro dendriti
(le zone di connessione in entrata con gli altri neuroni), e possono analogamente
inviare da 1.000 a 100.000 sinapsi ai dendriti degli altri neuroni. In generale, non
basta ricevere uno o pochi potenziali d'azione per generarne uno nuovo.
Ciò indica che nell'uomo il calcolo non implica circuiti logici come quelli di cui
sono composti i nostri calcolatori digitali, ma piuttosto un processo statistico in cui le
singole unità non “prendono decisioni”, ma queste sono il prodotto dell'azione
39
cooperativa di molte unità di processamento abbastanza indipendenti. L'attendibilità
dipende dalla stabilità del comportamento statistico di un ampio numero d'unità.
Ancora, questo livello di connettività dovrebbe esser messo a confronto con il
numero di “vicini” immediati dei processori degli attuali calcolatori in parallelo. Si
tratta di numeri che sono abitualmente misurati in decine (o meno) piuttosto che in
migliaia. Per di più, questa connettività così ampia indica che nessun neurone è
distanziato di molte sinapsi da ogni altro neurone.
Se, per amore di discussione, assumiamo che ogni neurone corticale sia
connesso con 1.000 altri neuroni, e che il sistema formi un reticolo, tutti i neuroni del
cervello sarebbero all'interno di quattro sinapsi al massimo l'uno dall'altro. Un ampio
ventaglio in ambo i sensi conduce così a una rete poco profonda. Si dovrebbe infine
rilevare che anche se il ventaglio è ampio, non è illimitato. I limiti possono provocare
dei problemi quando si vogliano estendere alcune idee semplici sui magazzini di
memoria e sul recupero.
I neuroni comunicano attraverso attivazioni ed inibizioni elettrochimiche
La comunicazione tra neuroni implica semplici messaggi eccitatori ed inibitori.
Così, a differenza d'altri messaggi in parallelo che attraversano sistemi come l'ACTOR
di Hewitt (1985), che consente il passaggio di messaggi simbolici arbitrati tra le sue
unità, nei modelli PDP sono richiesti numeri facilmente gestibili, numeri interi o con
pochi decimali. Ciò significa che quelli che passano in questi sistemi non sono simboli,
ma eccitazioni ed inibizioni. Nella misura in cui sono necessari dei simboli, essi
devono emergere da questo livello subsimbolico d'elaborazione (Hofstadter 1979).
Le connessioni nel cervello sembrano avere una chiara struttura geometrica e topologica
I pattern delle connessioni nel cervello presentano numerosi fatti che per
quanto importanti, ancora non hanno avuto una grande influenza sui modelli in
esame. In primo luogo, la maggior parte delle connessioni sono abbastanza corte. Ve
ne sono di lunghe (e queste tendono ad esser eccitatorie), ma non sono la
40
maggioranza. E vi sono vincoli geometrici e topologici abbastanza forti. C'è una
corrispondenza approssimativa, nel senso che i parametri dell'input (come la
localizzazione spaziale nella visione o la frequenza nell'udito) presentano delle
corrispondenze con l'estensione spaziale del cervello.
Sembra in generale che le regioni prossime in una parte del cervello
corrispondano alle regioni prossime nell'altra parte. Per di più, c'è una simmetria
generale delle connessioni. Se ci sono delle connessioni da una regione cerebrale ad
un'altra, abitualmente ci sono anche connessioni in direzione inversa.
Alcune di queste caratteristiche sono state implementate nei modelli di
McClelland e Rumelhart, anche se, e la cosa è interessante, di massima per motivi
computazionali, più che per verosimiglianza biologica. Per esempio, una caratteristica
del loro primo lavoro sulla percezione delle parole è stata una simmetria
approssimativa (McClelland e Rumelhart 1981).
La struttura geometrica delle connessioni cerebrali non ha esercitato una
grande influenza sul loro lavoro. In generale, non si sono preoccupati di dove possono
essere fisicamente le unità, le une rispetto alle altre. Se peraltro immaginiamo
l'esistenza di un vincolo per la conservazione della lunghezza delle connessioni, è
facile vedere che le unità che interagiscono dovrebbero essere le più vicine tra di loro.
Se a ciò si vuole aggiungere la concezione che uno spazio a moltissime
dimensioni determinato dal numero delle interconnessioni dovrebbe essere
incorporato in uno spazio bi o tridimensionale (forse di due dimensioni e mezzo)
corticale, possiamo vedere l'importanza della messa in corrispondenza delle più
importanti dimensioni fisiche con la geometria del cervello.
Le informazioni sono continuamente disponibili
Un'altra caratteristica importante del processamento neurale delle informazioni
consiste nel fatto che i neuroni sembrano fornire degli output continuamente
disponibili (Norman e Bobrow 1975). In altri termini, non sembra che ci sia una fase
apprezzabile di decisione durante la quale un'unità rifletta l'input in corso.
Nella misura in cui un'unità rappresenta un'ipotesi, e il suo livello d'attivazione
(il tasso istantaneo di scarica, o la probabilità di scarica) rappresenta la misura in cui i
41
dati disponibili favoriscono tale ipotesi, il livello d'attivazione dell'unità fornisce
informazioni continue sulla valutazione che si sta formulando dell'ipotesi.
Quest'ipotesi faceva parte dei precursori del lavoro sul processamento distribuito in
parallelo, specialmente del modello a cascata (McClelland 1979) e del modello
interattivo di lettura (Rumelhart 1977), ed è una caratteristica che possiedono
virtualmente tutti i modelli PDP.
Degrado graduale con danno e sovraccarico d'informazioni
Dallo studio delle lesioni cerebrali e d'altre forme di danno cerebrale, sembra
abbastanza chiaro che non esiste nessun singolo neurone il cui funzionamento è
essenziale per le operazioni d'ogni specifico processo cognitivo. Se vi sono regioni del
cervello ragionevolmente circoscritte che possono giocare dei ruoli abbastanza
specifici, particolarmente ai livelli inferiori di processamento, sembra abbastanza
chiaro che all'interno delle regioni la prestazione è caratterizzata da un degrado
graduale (graceful degradation), in cui la prestazione del sistema si degrada
gradualmente con la progressiva distruzione di neuroni, ma non c'è nessun punto
critico specifico in cui la prestazione collassa.
Un degrado graduale di questo tipo è caratteristico d'alcune sindromi globali
degenerative come la malattia d'Alzheimer (Schwartz, Marin e Saffran 1979). Ancora
una volta, abbiamo qui una netta differenza rispetto a molti modelli seriali simbolici,
in cui il danno in un singolo passo di un programma enorme può avere un effetto
catastrofico sulla prestazione complessiva del sistema. Immaginiamo un computer che
sta operando e in cui una certa istruzione non funziona.
Finché tale istruzione non viene usata, non ci dovrebbe essere nessuna
conseguenza, ma quando viene impiegata in qualche processo, questo semplicemente
non si svolge. Sembra che nel cervello il sistema sia estremamente ridondante, e
capace di operare con una perdita di prestazione circa simile per entità alla grandezza
del danno.
Controllo distribuito, e non centrale
42
C'è un aspetto conclusivo dei nostri modelli, che deriva vagamente da quanto
sappiamo delle funzioni cerebrali. E' questo il concetto base, la non esistenza di un
central executive, che sovrintenda al flusso generale del processamento. Nella cornice
della programmazione convenzionale, è facile immaginare un sistema esecutivo che
chiami delle subroutines, per l'esecuzione dei compiti necessari. In questi modelli,
tutto il processamento è sostanzialmente dall'alto in basso, o guidato dall'executive; se
non c'è executive, nessun processamento può aver luogo.
Le ricerche neuropsicologiche su pazienti cerebrolesi indicano che non c'è
nessuna parte della corteccia dalle cui operazioni dipendano tutte le altri parti.
Sembra piuttosto che tutte le parti operino insieme, influenzandosi reciprocamente, e
che ogni regione contribuisca alla prestazione complessiva nei compiti e
all'integrazione in essa di certi tipi di vincoli o di fonti di informazione. E' indubbio
che i meccanismi del tronco cerebrale controllino delle funzioni corporee vitali e lo
stato complessivo del sistema, e che certe parti della corteccia siano critiche per la
ricezione d'informazioni dalle modalità specifiche. Ma le funzioni di livello superiore
sembrano caratterizzate soprattutto da un controllo distribuito, e non centrale.
Questo punto fu chiarito già dal neuropsicologo russo Lurija (1966; 1973). Le
sue ricerche hanno dimostrato che per ogni funzione comportamentale integrata (per
esempio, percezione visiva, comprensione o produzione del linguaggio, soluzione dei
problemi, lettura) sono molte le diverse parti della corteccia che giocano un ruolo,
sicché le lesioni di ogni parte influiscono sulla prestazione, ma non sono
assolutamente cruciali per essa. Anche i lobi frontali, che vengono con maggior
frequenza associati alle funzioni direttive, non sono assolutamente necessari nella
concezione di Lurija, poiché funzioni residue si osservano anche dopo distruzioni
estese di tali lobi (e lesioni lievi in questa sede possono essere addirittura del tutto
asintomatiche).
I lobi frontali devono giocare un ruolo caratteristico, facilitando i cambiamenti
di strategia e inibendo le risposte impulsive, ma il controllo complessivo del
processamento può essere gravemente danneggiato da lesioni delle strutture del lobo
parietale, che appaiono responsabili della conservazione di rappresentazioni
organizzate, e che fanno da supporto all'attività coordinata e diretta a una meta.
43
Il rilassamento è la modalità computazionale dominante
Anche se nelle neuroscienze non c'è alcun'indicazione specifica che obblighi a
vedere la necessità del rilassamento nei processi computazionali in stile cerebrale,
tutte le caratteristiche sinora discusse hanno indotto a credere che la modalità
computazionale dominante nel cervello viene spiegata nel modo migliore come un
sistema di rilassamento, in cui il calcolo procede come un tentativo iterativo di
soddisfare un ampio numero di vincoli deboli.
Così le connessioni giocano, non il ruolo di fili in un circuito elettrico, ma
rappresentano dei vincoli alla cooccorrenza di coppie d'unità. Il sistema può essere
concepito come “la soluzione”, e non tanto “calcolante” la soluzione. Ancora una
volta, è questo un importante cambiamento di prospettiva che deriva da
un'interazione tra quel che capiamo di come il cervello opera, e di quali siano i
processi necessari per ottenere il comportamento desiderato.
44
I modelli PDP mancano di realismo neurale
Sono molti i fatti scoperti nelle neuroscienze che non rientrano in questi
modelli. Un esempio particolarmente vistoso è dato dal quasi universale assunto che
le unità hanno delle connessioni sia eccitatorie sia inibitorie, quando sembra
ragionevolmente chiaro che la maggior parte delle unità corticali sono o l'una cosa o
l'altra.
La più evidente differenza consiste nel considerare che le unità PDP
comunichino attraverso numeri, spesso associati con i “tassi medi” di scarica, mentre,
di fatto, i neuroni producono spikes, che di per sé potrebbero avere un significato
computazionale, ma come vedremo nel prossimo capitolo la propagazione degli
stimoli neurali ha caratteristiche molto diverse.
Un altro esempio di mancanza di realismo è quello dei “pattern diffusi di
comunicazione”, che si verificano quando vengono disperse sostanze chimiche in varie
regioni del cervello attraverso il circolo sanguigno. In genere assumiamo che la
comunicazione sia punto a punto, da un'unità a un'altra, in questo caso invece
abbiamo un sistema “bagnato” in cui le informazioni vengono trasportate dai vasi
sanguigni (si pensi all'ormone della crescita o all'adrenalina).
Le comunicazioni diffuse per mezzo di mediatori chimici, possono giocare un
ruolo importante nel determinare i parametri e modulare le reti, in modo che
quest'ultime possano eseguire compiti anche abbastanza diversi a seconda delle
diverse occasioni.
I modelli PDP sono per la maggior parte omogenei rispetto al funzionamento
delle unità, che sono progettate alcune come eccitatorie ed altre come inibitorie, ma,
al di là di ciò, è ben raro che siano differenziate. Sappiamo invece che ci sono forse
centinaia di tipi di neuroni, e non c'è dubbio che questi tipi diversi giochino un ruolo
in parte differenziato nel sistema di processamento delle informazioni.
Il problema unità/evento
45
Tra gli ulteriori problemi, per quel che riguarda l'approccio PDP, vi sono anche
alcuni aspetti tecnici di calcolo. Se ne può fare un elenco, ma i due più significativi
sono rappresentati dal problema unità/evento (typetoken, Jackendoff 1983) e dal
trattamento delle variabili. Il problema unità/evento consiste nell'essere in grado di
tenere conto di diverse occorrenze dello stesso concetto, a volte nel medesimo istante.
Così, se il sistema è a conoscenza del fatto che “Gianni mangia un panino” e
che “Elena mangia un panino”, il sistema deve trattare i due panini come differenti.
Questa capacità non è semplice per i sistemi PDP: le reti sono magnifiche per
rappresentare le proprietà generali, che possano valere per classi d'oggetti. E' qui che
si mostra il loro potere di generalizzare, di generare automaticamente valori per
difetto. Ma l'abilità complementare di tenere le cose distinte sembra molto più
difficile.
La necessità di una struttura valutativa ulteriore
Un problema che presentano i modelli PDP consiste nel fatto che essi sono
troppo specializzati, preoccupati così di risolvere i problemi del momento, senza
chiedersi come può collocarsi il singolo modello in un insieme complessivo.
I vari modelli ci si presentano come versioni differenti di un'unica struttura
omogenea, perfettamente idonea a svolgere i suoi compiti, ma secondo McClelland
non sufficiente per fare l'intero lavoro, come se questi modelli fossero nell'insieme
esperti muratori, tappezzieri, imbianchini, gessisti, posatori, elettricisti, che, in
assenza di un'organizzazione generale che li sovrintenda, fossero incapaci di costruire
una casa. Una struttura PDP non può eseguire un compito così complesso, perché
manca la comunicazione tra i vari sistemi.
E' un discorso che sembra particolarmente pertinente a proposito
dell'apprendimento. Anche se molte delle regole dell'apprendimento sono
autocorrettive, e tendono perciò a convergere in un modo o nell'altro verso una
prestazione ottimale, esse sembrano insufficientemente sensibili agli scopi e alle
valutazioni gobali dell'organismo in cui sono implementate.
46
Se oggi si ammette tranquillamente che di per sé l'intenzione di apprendere
non è un determinante importante dell'apprendimento, quest'intenzione però mobilita
le attività cognitive, con il risultato di un migliore apprendimento.
Non molto viene detto su queste intenzioni, la loro fonte, o i modi in cui
influenzano l'apprendimento e la prestazione del sistema. Quando si passa
all'apprendimento, è frequente il caso che ci sia un qualcosa che deve sovrintendere
alle operazioni e agisce come addestratore. Ma questo addestratore è distinto dai
meccanismo di apprendimento, e deve essere in grado di valutare la qualità della
prestazione.
Tutte queste critiche hai sistemi PDP lasciano supporre che la rete
connessionistica sia mancante di qualcosa rispetto alla realtà fisiologica. L'utilizzo di
reti piccole per ridotti insiemi di dati può ridurre questa differenza, tuttavia se si
dovessero utilizzare reti più grandi avremo problemi di addestramento (regola delta,
problema dei 100 passi di Feldman, …) o nel caso di più reti che operino
contemporaneamente avremo problemi di gestione e dovremmo utilizzare sovra
programmi e questo non è possibile per compiti altamente specializzati.
Utilizzare quindi reti connessionistiche per simulare modelli neurali di
percezione e di meccanismi motori appare allora più complesso di quanto era parso in
un primo momento. Se è corretto dire che le simulazioni (attraverso le reti ridotte) di
Bailey, Regier, Narayanan provano che è possibile considerare la mente come “fisica”,
visto che gli schemi neuronali della percezione e dei meccanismi motori sono gli stessi
utilizzati per la formazione dei concetti, è altresì valido dire che questi software hanno
delle limitazioni che ci impediscono di pensare che il cervello le utilizzi per il
linguaggio, l'apprendimento, il pensiero,…).
Cercheremo nel prossimo capitolo di superare queste difficoltà analizzando il
tipo di informazione che viene processata nei neuroni, e aggiungeremo ciò di cui sono
manchevoli le reti PDP, dando un nuovo impulso alla teoria delle metafore di Lakoff e
Grady.
47
Capitolo 3La Neurocomunicazione
“L'anima è un'ipotesi inutile:l'uomo è una macchina.”
Julien Offroy de La Mettrie
Dopo quanto mostrato fin ora, emergono delle domande: la realtà fisiologica
del cervello è quella che è riprodotta dai sistemi connessionistici o c'è qualcosa che rimane
fuori? Ciò che viene escluso, perché ne è escluso? E' una realtà riproducibile teoricamente
con una rete connessionistica? Le metafore primitive di Grady sono riproducibili con
simulazioni informatiche?
Partiremo dalle caratteristiche fisiologiche del neurone descrivendo la sua
neurocomunicazione, cioè come viene trasportata l’informazione elettrochimica tra i
neuroni, paragonandola in seguito a quella tra i nodi delle reti PDP e concluderemo
con la proposta di un modello per poterla riprodurre adeguatamente non tanto dal
punto di vista strettamente fisico (la creazione di un altro neurone) quanto per la
simulazione informatica , i passaggi logicomatematici che in esso avvengono.
3.1 Come trasporta il segnale la cellula neuronale.
I neuroni che compongono il sistema nervoso possono essere diversi per forma
e dimensioni, ma possono essere schematizzati con un modello unitario.
48
Fig.4.1
Ciascuna cellula è formata da un corpo, il soma, che dà origine a due
prolungamenti, i dendriti e l'assone. Entrambi i prolungamenti terminano con le
sinapsi ovvero i punti di contatto con altri neuroni o in alcuni casi con bottoni
sinaptici. Tra una sinapsi e l'altra scorre l'informazione, che è propagata sia in maniera
elettrica che elettrochimica.
Quell’elettrica consiste in una carica che attraversa le pareti cellulari in
entrambi le direzioni, e trasmette lo stimolo in maniera pressoché istantanea, facendo
interagire gruppi di cellule simultaneamente.
Pensiamo alla risposta motoria che ha la nostra mano quando tocca qualcosa di
estremamente caldo o la reazione classica al colpo del martelletto del dottore su un
ginocchio. L'informazione elettrochimica è invece modulabile, si ha un trasporto
dell’informazione con un flusso di ioni dai dendriti attraverso l'assone fino alla sinapsi
opposta e da qui agli altri neuroni in maniera unidirezionale.
Il passaggio non è più istantaneo come per la corrente elettrica, ma
elettrochimico; ciò vuol dire che tra un neurone e un altro esistono particolari
strutture, i bottoni sinaptici, che possono modulare il segnale con quantità (pacchetti)
di ioni.
Questi bottoni aumentano e diminuiscono il segnale da trasmettere e seconda
della frequenza dell'impulso, permettendo così ad esempio l’apprendimento delle
funzioni psicomotorie (come andare in bicicletta, sbucciare una mela con il coltello…
) all'inizio sembra un compito impossibile, invece attraverso la pratica impariamo, così
bene da sembrarci un'azione innata.
49
Questo accade in quanto l'apprendimento sembra consistere nella modifica dei
pesi della rete neuronale, cioè nel tarare le quantità di ioni rilasciati dai bottoni
sinaptici ed è per questa sua caratteristica che ci occuperemo in questa sede solo della
trasmissione elettrochimica.
La cellula neurale, qualsiasi essa sia, trasmette il segnale sempre con la solita
procedura:
A recepisce il segnale d'ingresso
B lo integra
C lo conduce (potenziale d'azione)
D lo fa uscire (potenziale sinaptico)
Fig.4.2
Il segnale d'ingresso si propaga attraverso la membrana del neurone, i tempi e i
modi di questa propagazione dipendono dalle proprietà elettrochimiche della
membrana. Nella figura 4.2 vediamo le quattro sezioni di trasmissione
dell'informazione neuronale: A è il soma a cui giunge la fine delle sinapsi in entrata di
un neurone precedente o di un bottone sinaptico (postsinapsi), B è l'insieme di
segnali che da A vengono recepiti e trasformati in frequenze di impulsi unitari che
sono trasportati dall'assone C, e infine D è la parte del bottone sinaptico in uscita (pre
sinaptica) in cui l’informazione è trasferita ad altri neuroni.
La trasmissione avviene in questo modo: la membrana si eccita cambiando il
suo potenziale di membrana a riposo, cioè la differenza di potenziale fra la parte
50
interna e quell'esterna della cellula (di solito 65mV), che viene mantenuta con
concentrazioni chimiche di ioni di sodio, potassio e cloro.
Fig.4.3
Con l'arrivo di una stimolazione, la membrana cambia il suo potenziale, e in
prossimità di una zona ben precisa del corpo della cellula (B), posta all'inizio del
corpo dell'assone, lascia partire una scarica elettrica del tipo tutto o nulla (potenziale
d'azione), che si propaga attraverso l'assone (C) fino alla parte opposta della cellula.
Fig.4.4
Un segnale tutto o nulla significa che nella zona d'innesco (B) è generato un
segnale elettrico digitale, la cui ampiezza e durata sono sempre le stesse e mantenute
51
tali dalle proprietà elettrochimiche della membrana assonica (la sua ampiezza può
essere anche di 110mV ed essere trasportata per un metro).
Nel trasporto (C) il segnale ha caratteristiche unitarie, la trasmissione delle
informazioni avviene solo grazie alla frequenza degli impulsi che attraversano
l'assone, e alla fine (D) il segnale è trasmesso alle altre cellule attraverso le sinapsi
(potenziale sinaptico).
Quest'ultime attraverso un bottone sinaptico rilasciano pacchetti di neuro
trasmettitore, cioè modulano il segnale in maniera analogica secondo il rapporto
frequenza impulso/quantità neurotrasmettitore.
Fig.4.5
L'informazione così trasportata si modifica dal passaggio da un elemento
all'altro del neurone e successivamente da un neurone all'altro. Nella figura 4.6
possiamo vedere come alla variazione dello stimolo corrisponde la variazione del
rilascio di neurotrasmettitore.
52
Fig.4.6
3.1.1 La struttura della membrana (A).
In questa descrizione dobbiamo poi tenere conto poi di altri elementi che
incidono sulla trasmissione del segnale come la struttura della membrana. Nelle
sinapsi la cellula che trasmette in quel preciso punto possiede, per usare un’immagine
un po’ fantasiosa ma efficace, una “pistola a spruzzo”: vale a dire un sistema che
spruzza sulla membrana dell’altra cellula delle sostanze chimiche. Esistono molti tipi
di queste sostanze chimiche (aceticolina, dopamina, serotonina, noradrenalina),
ognuna delle quali provoca reazioni diverse.
La cellula riceve lo spruzzo , ha in quel punto un ricettore che è sensibile a
questo messaggio chimico: e attraverso un gioco di eccitazioni e inibizioni questo
stimolo può agire come grilletto, provocando nella cellula nervosa ricevente una
scarica elettrica dovuta alla polarizzazione e depolarizzazione della membrana.
Quest’ultima non ha una distribuzione di potenziale omogenea, ma può
cambiare da zona a zona e nel tempo, in pratica è più o meno sensibile agli stimoli in
entrata e può modificare questa sua sensibilità nel tempo con la frequenza degli
impulsi che la attraversano.
53
Allora possiamo descriverla così:
Fig.4.7
Dove f1, f2, f3 sono la funzione che descrive la carica della membrana e la sua
variazione nel tempo t1, t2, t3, quindi avremo una funzione in un tempo distinto per
ogni carica in entrata m,n,p.
3.1.2 La costante di spazio .
Inoltre le sinapsi possono essere collegate spazialmente alla membrana cellulare in
qualsiasi punto, cioè vengono suddivise in sinapsi assosomatiche, assodendritiche,
assoassoniche a seconda del loro punto di contatto.
54
Fig.4.8
La disposizione spaziale delle sinapsi sulla membrana corrisponde a
caratteristiche funzionali ben precise, visto che il segnale trasportato impiega del
tempo a muoversi. Questa variazione temporale non è considerata nelle reti PDP e nei
computer in generale, perché sono reti elettriche e non elettrochimiche. Nel neurone
invece è rilevante la costante di spazio , il rapporto fra il segnale in ingresso, la
distanza percorsa e il potenziale della membrana, che modifica l'efficienza della
propagazione elettronica dei potenziali sinaptici.
Fig.4.9
Ad esempio: il potenziale d'azione di una cellula a (Fig.4.9) evoca potenziali
sinaptici nelle cellule b e c. Nel punto d'origine, i due potenziali sinaptici sono di
uguale ampiezza e percorrono la stessa distanza sia nella cellula b che in quella c. Ma
l'ampiezza del segnale d’ingresso, che arriva nella zona d'innesco della cellula b, è
tuttavia maggiore di quella del segnale che arriva nella cellula c perché la costante di
spazio dei dendriti di b è maggiore (1 mm) che non quella dei dendriti di c (0,1 mm).
Questo vuol dire che le disposizioni spaziali dei bottoni sinaptici e più in
generale la diversa propagazione nel tempo del segnale tra i neuroni, non sono
casuali, ma che, ad una loro precisa descrizione spaziale corrisponde una particolare
capacità funzionale della rete, che viene tramandata geneticamente.
55
Fig.4.10
Bisogna tenere presente inoltre come la membrana delle cellule nervose sia
molto sottile e circondata da un mezzo conduttore; essa ha perciò una capacità
elevata che rallenta la conduzione dei segnali di voltaggio.
Inoltre, le correnti che fanno variare la carica elettrica della membrana devono
propagarsi lungo una sottile colonna di citoplasma che in sostanza, rappresenta un
cattivo conduttore. Anche i canali ionici passivi che danno origine al potenziale di
riposo, contribuiscono a peggiorare la qualità dei segnali trasmessi dai neuroni.
Essi rendono, infatti, la cellula mal isolata e ciò, insieme all'elevata capacità
della membrana, limita notevolmente la distanza che i segnali nervosi sono in grado
di percorrere senza essere amplificati da processi attivi.
3.1.3 La zona d’innesco.
L'evoluzione ha tuttavia sviluppato nel sistema nervoso una serie di proprietà
tese a compensare queste limitazioni. La lunga costante di tempo dei neuroni è
sfruttata, a livello della loro zona integrativa (B), per fare una somma dei diversi
segnali in ingresso, per i tempi dell'ordine di millesecondi. La zona integrativa dei
neuroni ha piccole dimensioni; ciò fa sì che i potenziali sinaptici o del recettore
vengano generati in prossimità della zona d'innesco ottimizzando perciò l'integrazione
spaziale.
56
Fig.4.11
La zona d’innesco B trasforma il segnale analogico, quantitativamente rilevante
(valore della carica), in segnale digitale (il potenziale d’azione in cui è rilevante la
frequenza), cioè trasforma la quantità di potenziale sulla membrana in cariche
unitarie sull’assone.
Il punto B funge quindi da “modulatore ad impulsi unitari” biologico; un
modulatore è un circuito integrato che trasforma in un tempo t l’ampiezza del segnale
in entrata (A) in frequenza d’impulsi (C).
I segnali d'ingresso che diminuiscono di ampiezza con la distanza (A), vengono
codificati in una sequenza di impulsi adatti alla trasmissione a lunga distanza (C). I
canali voltaggiodipendenti che mantengono la differenza di potenziale rilasciando
ioni, danno, infatti, origine a potenziali d'azione, con un carattere di tutto o nulla, che
possono venire condotti senza decremento.
Nelle vie nervose in cui è particolarmente cruciale una segnalazione rapida, la
velocità di conduzione del potenziale d'azione è aumentata dalla mielinizzazione delle
fibre, dall'aumento del diametro degli assoni o da entrambi questi processi.
In D il potenziale d’azione g(i), dove i è l’impulso, viene trasformato in
potenziale sinaptico attraverso il rilascio da parte dei bottoni sinaptici di pacchetti di
neurotrasmettitore r,s,v. In questo caso si ha schematicamente un modulatore che
traduce la frequenza del segnale in ampiezza del segnale cioè in pacchetti di neuro
trasmettitore rilasciati g(i)=r,s,v.
57
Tuttavia il potenziale sinaptico può essere inibito o eccitato da sinapsi asso
assoniche (Fig 4.8) quindi abbiamo g(i)=h(r) e per ogni bottone sinaptico g(i)=h(r),
h(s), h(v).
Fig.4.12
Ricapitolando, nella trasmissione dell'informazione all'interno del neurone
avvengono le seguenti trasformazioni:
1)
In A avviene una propagazione dei segnali d'ingresso dai vari bottoni sinaptici, in
cui si tiene conto:
- Della frequenza dell'impulso in entrata e della sua carica (eccitatoria o inibitrice)
- Della topologia delle sinapsi, che si possono comunque disporre su tutto il corpo della
cellula
- Della sensibilità della membrana e quindi della costante di spazio fino al punto
d'integrazione B
- Della variazione nel tempo della sensibilità della membrana con l'aumentare e il
diminuire del le stimolazioni.
2)
58
In B si ha la traduzione del segnale d’ingresso (analogico) in potenziale d’azione
(digitale).
3)
Il segnale digitale attraversa C.
4)
E in D si traduce in un segnale analogico, che viene trasmesso dalla parte pre
sinaptica al successivo neurone attraverso i bottoni presinaptici.
3.2 La trasmissione dell’informazione nei nodi delle reti PDP
In una rete informatica qualsiasi, la trasmissione del segnale è assimilabile alla
trasmissione del segnale neuronale in C, in altre parole del tipo tutto o nulla, perché il
computer funziona con un segnale digitale 0/1 (Fig.3.1). I sostenitori della possibilità
di simulare un cervello con il computer (I.A. forte), simulando il funzionamento di un
neurone con un nodo di una rete, hanno sottolineato eccessivamente quest'aspetto,
non considerando la completa natura della trasmissione neuronale.
La rete PDP usa genericamente delle unità (i nodi), formate da un input, un
valore di soglia e un output, come illustrato nel diagramma seguente.
Fig.4.13
L'input ha valori di solito decimali tra zero e uno la soglia d'attivazione è una
funzione che si attiva solo per valori fissati e che elabora il segnale in uscita, il
dominio della funzione, così come il codominio è formato dall'insieme dei numeri
reali e più precisamente dai valori decimali tra 0 e 1.
59
Una rete usa una serie di queste unità collegate fra loro, dando ad ognuna un
valore d'attivazione ed un peso diverso, trasformando un valore in entrata in uno in
uscita. Matematicamente:
(1) y = f (x)
Nel caso di più entrate (come illustrato sotto):
Fig.4.14
I valori d'input sono sommati così:
(1.1) y = f ( n + m + p … + q )
Dove n + m + p … + q sono gli input provenienti dagli altri nodi e f è la
funzione di soglia del nodo, quindi per semplicità possiamo considerare il valore x =
n +…+ q e continuare ad usare la (1). I nodi in questione formano una rete (come
abbiamo visto nel precedente capitolo), in cui l'informazione in uscita è data dalla
somma delle varie funzioni (1) dei relativi nodi:
60
Fig.4.15
(1.2) y = c ( g(n) + h(m) + l(p) )
Ma la somma di più funzioni può a sua volta essere scritta come un valore e
quindi considerando x = n 1 + m1 + p1 si torna alla forma (1).
Ciò è ovvio in quanto una rete artificiale connessionistica ha dei precisi vincoli;
la computabilità. Per comprendere pienamente il significato e le implicazioni di un
sistema computabile dobbiamo inserire la nozione di algoritmo.
Informalmente un algoritmo è l’indicazione di come si risolve un problema di
qualsiasi natura: esso consiste nella descrizione dei passi che un esecutore, sia umano
che meccanico, deve poter interpretare senza ambiguità per raggiungere la soluzione.
Poiché il problema deve poter essere risolto in tutte le sue istanze un algoritmo
è definito per un’assegnazione arbitraria di dati d’ingresso e deve produrre un
risultato corretto per ciascuna assegnazione.
Ogni algoritmo ha una lunghezza finita, ma la sua esecuzione può non
terminare in un tempo finito per qualche insieme di dati; ciò avviene se per tale
insieme, alcuni passi dell’algoritmo devono essere ripetuti illimitatamente o nella
trattazione d’insiemi infiniti.
I problemi per cui esiste un algoritmo che termina in ogni caso sono detti
problemi computabili. Dire che la rete qui descritta è computabile significa che noi
conosciamo i dati in entrata (x) o meglio il loro dominio e la relazione (f) che li lega
ai dati in uscita (condominio y).
61
Fig.4.16
La rete opera in uno spazio logicomatematico ben delimitato, in cui il dominio
e il condominio sono dati da un sottoinsieme dei numeri reali e che la relazione che
lega i due domini opera in un tempo finito.
Inoltre i passaggi che vengono operati tra nodo e nodo sono ricorsivamente
enumerabili. Il paradigma della ricorsività afferma che la soluzione di un problema si
ottiene attraverso la soluzione del problema stesso per uno o più sottoinsiemi dei dati
di partenza e la combinazione dei risultati così ottenuti.
Un algoritmo ricorsivo richiama dunque se stesso su un sottoinsieme di dati,
per un’esecuzione interna alla precedente e avente anch’essa forma ricorsiva, finché
opportune clausole consentano l’arresto della catena dei richiami (si noti che ricorsivo
si impiega nella logica anche con il significato di computabile con una macchina di
turing, vedi capitolo 4).
Il paradigma di enumerazione è impiegato per i problemi che si risolvono
attraverso la successione di scelte, eseguite in tutti i modi possibili. Il nuovo costrutto
linguistico “scegli (insieme)” provoca la scelta di tutti gli elementi dell’insieme
specificato, a uno a uno.
Per tutti gli elementi l’algoritmo procede con computazioni indipendenti che
possono nuovamente incontrare costrutti di scelta dando luogo a ramificazioni
successive, in una struttura complessiva ad albero. Quindi ogni relazione da x a y può
essere letta anche da y a x, questo implica che la rete sia finita e operi in un tempo
finito.
Concludendo, nella rete l'informazione si trasforma ed è trasportata sempre in
maniera ricorsivamente enumerabile, nel senso che si può sempre associare
un'informazione in entrata ad un'informazione in uscita.
Ricapitolando:
62
- qualsiasi sia la funzione la risultante del segnale in entrata sarà sempre nella forma (1)
cioè esisterà sempre un algoritmo che la calcola.
- la rete darà origine sempre ad un sistema ricorsivamente enumerabile.
- il segnale è sempre computabile cioè riproducibile da una macchina.
3.3 Il confronto fra i due modelli (neurone e nodo)
Come abbiamo visto nel § 4.1 la trasmissione delle informazioni nel neurone
possono essere descritte con una serie di funzioni, che chiariremo ora, approfondendo
la loro vera natura.
Nella zona d’ingresso dell’informazione abbiamo la funzione:
f1t1(m)
Questa funzione ft è lineare in quanto calcola la carica m che raggiunge la
membrana ne altera il suo potenziale propagandosi fino al punto B; la costante è
un valore fisso. Con lineare si intende in questo contesto che la funzione è
computabile e ricorsivamente enumerabile, in quanto associa a valori in entrata valori
in uscita in maniera biunivoca.
Nello specifico ad una carica elettrica in entrata associa una carica elettrica in
uscita in B. Similmente sappiamo che la zona di integrazione del segnale B funziona
come un modulatore ad impulsi unitari e quindi anch’esso opera in maniera lineare
trasformando la carica risultante f4t4(x) in frequenza d’impulsi g(i).
La trasmissione del segnale lungo l’assone (C) non crea problemi, in quanto il
segnale rimane immutato. Infine nell’ultima parte la carica viene riconvertita in
analogico attraverso h(r) che funziona come un modulatore inverso al primo. Nel
processo l’informazione sembrerebbe totalmente computabile e lineare e può essere
riprodotta artificialmente da una rete connessionistica; l’informazione elettrochimica
subirebbe delle modifiche nel suo percorso che possono essere simulate attraverso un
qualsiasi linguaggio informatico in quanto soddisfano le condizioni di riproducibilità
logicoinformatica (computazione), esiste cioè un algoritmo che descrive l’opera svolta
dal neurone.
63
Possiamo programmare a piacere i vari nodi di una rete per calcolare le
funzioni f 1t1(m), f4t4(x), g(i), h(r) o programmare un solo nodo che calcoli la
funzione che esprime l’algoritmo formato da tutte queste funzioni. Teoricamente
quindi la funzionalità del sistema neuronale potrebbe essere riprodotta da una rete
artificiale, se sappiamo i vari parametri (la quantità di carica m, la disposizione
spaziale dei dendriti ,…) ; ipoteticamente potremmo riprodurre l’ intero cervello.
3.3.1 Gli stimoli inibitori
Tuttavia nella neurocomunicazione c’è di più, in quanto abbiamo volutamente
tralasciato alcuni aspetti; la prima questione, la più importante, è la possibilità di
inibizione dei bottoni sinaptici, in quanto come abbiamo visto nella Fig. 4.8 esistono
delle cariche negative (pacchetti di ioni) che inibiscono l’informazione trasportata.
Inibire vuol dire cancellare una o più parti della carica trasportata all’interno
del neurone, grazie alla natura elettrochimica dell’informazione (ioni negativi che si
annullano con ioni positivi).
Fig.4.17
Pensiamo ad esempio allo stimolo che ci fa ritrarre la mano quando ci
avviciniamo a qualcosa di estremamente caldo in quel caso per quanto doloroso, la
nostra mente può controllare la stimolazione involontaria inibendo lo stimolo che ci fa
ritrarre la mano in modo che questa si ustioni (come narrano di Muzio Scevola).
64
Fig.4.18
In questo caso l’informazione non rimane “da qualche parte nel sistema”, ma
viene “eliminata” definitivamente, un’operazione che un computer non può fare,
perché viola pesantemente il principio di computabilità.
Un computer può calcolare problemi finiti e problemi infiniti se si rende conto
che non terminano, ma non può calcolare problemi infiniti in un sistema che non sa
qual è l’informazione elaborata. Cioè il neurone diventa non ricorsivamente
enumerabile poiché associa ad un valore in entrata un non valore, cioè esistono delle
funzioni che non hanno valore (e non valore 0 che sarebbe già un valore), perché la
carica si cancella, non si annulla. Tutto questo non è più simulabile con un calcolatore,
come vedremo nel prossimo capitolo .
3.3.2 Il caso della sommazione sinaptica
Ed ancora, nel punto d’integrazione del segnale (B) abbiamo trattato il segnale
come una somma di cariche, tuttavia Bateson (1979), come altri scienziati cognitivi,
fa notare che nel processo biologico c'è di più: le informazioni in ingresso tra A e B si
combinano tra loro sulla membrana cellulare a seconda dei messaggi inibitori o
eccitatori e tra questi viene fatta una sommazione sinaptica.
“Sommazione sinaptica è il termine tecnico usato in neurofisiologia per indicare
quei casi in cui un neurone è attivato solo dalla combinazione dei neuroni 1 e 2. 1 da
solo e 2 da solo sono insufficienti per attivare il neurone in questione (A/D); ma se i
neuroni 1 e 2 si attivano insieme entro un intervallo di pochi microsecondi, allora la
membrana viene eccitata. Si noti che il termine tradizionale per questo fenomeno,
“sommazione”, farebbe pensare ad un'assommarsi dell'informazione proveniente da una
sorgente, all'informazione proveniente da un'altra.
In realtà, non si tratta di una somma, ma della formazione di un prodotto logico,
processo più affine alla moltiplicazione. L'effetto di tale meccanismo sulle informazioni
65
che il neurone 1 potrebbe fornire da solo è una segmentazione o ripartizione delle
attivazioni di 1 in due classi, cioè le attivazioni di 1 accompagnate da 2 e le attivazioni
di 1 non accompagnate da 2. Analogamente le attivazioni del neurone 2 sono suddivise
in due classi: quelle accompagnate da 1 e quelle non accompagnate da 1.” (pp.101102)
Fig.4.19
Alla luce di questa osservazione consideriamo la tipologia del segnale in
entrata, e trattiamoli come se fosse un’operazione logica booleana su un circuito
stampato. Una somma logica e definita secondo la tabella di verità:
Fig.4.20
Mentre un prodotto logico è definito come:
Fig.4.21
Quello che fa notare Bateson è che la realtà fisiologica non usa una singola
tabella di verità, ma può contenerne molteplici, perché non usa i valori 0/1 ma
cariche modulabili. Se pensiamo a cariche unitarie in entrata, una inibente e due
66
eccitanti, è normale ritenere che alla soglia arrivi una carica eccitante, se invece
pensiamo a cariche di 65, +75, +95 mV alla soglia arriva una carica di +105mV.
Cosa vuol dire questo; che dovremo usare delle tabelle di verità basate su una
logica matematica non booleana, come vedremo nel prossimo capitolo con la logica
fuzzy. Se poi pensiamo che i dendriti in entrata sono anche 100.000 allora abbiamo
una potenza computazionale del neurone elevatissima, in cui le possibili interazioni di
carica danno origine ad un segnale sull’assone per diversi valori di carica.
Allora il neurone viene definito così come una serie di input in entrata
f 1t1(m) , una somma di questi input non computabile f4t4(x), il trasporto del
segnale in forma digitale g(i) e un’uscita analogica h(r) che come abbiamo visto può
essere anch’essa non computabile; ne segue che la struttura neuronale elabora
l’informazione in maniera diversa dagli attuali computer creando delle difficoltà
notevoli per la sua simulazione e di questo ci occuperemo nel prossimo capitolo.
67
Capitolo 4
La noncomputabilità e i sistemi aperti
In questo capitolo chiariremo quali sono le caratteristiche che un computer
dovrebbe avere per riprodurre l’informazione neuronale, quelli che possono essere
considerati i suoi requisiti minimi di sistema. La ferma convinzione che tale processo
sia riproducibile pare plausibile vista l’evidenza dei processi neurali; che questo sia
possibile con una simulazione logicomatematica booleana usata da un computer è
una questione che andremo ora ad affrontare.
4.1 La macchina di Turing non computabile
Abbiamo accennato precedentemente alla nozione di computabilità, algoritmo
e alla proprietà ricorsivamente enumerabile, le amplieremo inserendo il concetto di
macchina teorica: la macchina Universale di Turing (Turing 1965).
La macchina di Turing è un dispositivo ideale consistente in un’unità di
controllo che evolve tra stati interni ed un insieme finito S, ed è guidata da una
testina di lettura/scrittura che scorre su un nastro infinito su cui sono scritti i dati in
ingresso con i caratteri di un insieme infinito C (per simulazioni di computer si
possono usare valori binari); la macchina legge sul nastro un carattere per volta e
decide in conseguenza di scrivervi un nuovo carattere, di muovere la testina sul
carattere a destra o a sinistra, e di portarsi in un nuovo stato interno.
Fig. 4.1
Una macchina di Turing si descrive mediante un insieme finito di quintuple del tipo
sc, cl, cs, m, sp ove sc S è lo stato interno corrente, cs C è il carattere
68
letto dal nastro, m destra,sinistra è lo spostamento della testina, sp S è lo
stato interno successivo. Tutte le quintuple iniziano con coppie sc, cl distinte, quindi
la macchina ha funzionamento deterministico; essa si arresta sulle coppie sc, cl, che
non sono contenute in alcuna quintupla.
Interpretando il contenuto del nastro come descrizione dei dati di un problema
P e il contenuto finale come descrizione del risultato, la macchina di Turing è un
algoritmo che risolve P; se P è computabile la macchina s’arresta in un tempo finito
per ogni contenuto iniziale del nastro.
L’I.A. introduce l’algoritmo quale struttura interpretativa intermedia tra il
mentale e il fisiologico abbandonando ogni tentativo di imitazione diretta del
substrato materiale del pensiero. Il fondamentale interesse che riveste la macchina di
Turing è legato alla tesi di Church (Church 1936), universalmente accettata, secondo cui
tutte le definizioni ragionevoli di algoritmo sono equivalenti.
In termini attuali, possiamo affermare che tutti i calcolatori possono eseguire
gli stessi algoritmi, che sono poi tutti gli algoritmi possibili, sempre che non eccedono
i loro limiti di memoria, in tal senso la macchina di Turing non ha alcuna limitazione,
perché utilizza un nastro infinito.
La tesi di Church implica che tutti i calcolatori, nonché la macchina di Turing e
ogni altro modello di computazione, possano simularsi a vicenda. Essi hanno tutti la
stessa potenza, anche se i tempi per eseguire lo stesso algoritmo sono diversi.
La macchina di Turing è un modo di definire meccanicamente un algoritmo,
cioè l'insieme di passi che si devono compiere per risolvere un problema; ed è formata
in sostanza da un nastro infinito di celle unitarie su cui scorre un cursore che vi incide
0 o 1.
La massima computabilità per questo tipo di macchine è data dalla macchina di
Turing Universale T(U), formata da tutte le macchine di Turing, quindi formata da
tutti gli algoritmi che risolvono tutti i problemi in un tempo finito.
La potenza computazionale di questa macchina teorica è elevata, perché
possiamo descrivere, in un tempo infinito, qualsiasi problema lineare, cioè risolvibile
in un numero finito, per quanto lungo, di passi.
4.1.1 I problemi P e NP
69
La definizione di Turing di algoritmo divide la funzioni numeriche in due
classi: calcolabili e non. Questa suddivisione non costituisce però che una prima
approssimazione, perché molte funzioni che sono calcolabili in teoria non lo sono
affatto in pratica.
Per esempio un algoritmo la cui esecuzione richieda un tempo più lungo della
durata dell’universo, o anche solo di una vita umana, non può certo essere ritenuto
eseguibile, benché possa esserlo in astratto.
Da un punto di vista applicativo è dunque necessario restringersi ad algoritmi
che abbiano tempi di esecuzione sufficientemente veloci. Nel 1965 Edmonbs e
Cobham proposero, come seconda approssimazione, la distinzione fra algoritmi
eseguibili in tempo polinomiale e non.
Il tempo di esecuzione viene qui misurato mediante il numero di passi eseguiti
dal calcolatore e la variabile del polinomio corrisponde alla dimensione dei dati su cui
l’algoritmo opera, per esempio alla loro lunghezza: così un algoritmo quadratico non
richiede più di cento passi su numeri di dieci cifre, più di diecimila passi su numeri di
cento cifre e così via.
Naturalmente il tempo di esecuzione di un algoritmo dipende fortemente dal
tipo e dalla potenza del calcolatore che viene usato per eseguirlo. Sorprendentemente
però se un algoritmo opera in un tempo polinomiale su un particolare calcolatore,
esso continua ad operare in un tempo polinomiale su qualunque altro: detto
altrimenti, la differenza fra i vari modelli di calcolatori e le loro varie implementazioni
si può sempre contenere in un fattore polinomiale, che può essere combinato con un
tempo di esecuzione polinomiale senza mutarne la natura.
L’essere eseguibile in un tempo polinomiale costituisce dunque una
caratteristica intrinseca e non accidentale di un algoritmo. La classe dei problemi per i
quali una soluzione polinomiale esiste si indica con il simbolo P. Nel 1972 S.Cook, R.
Karp e L. Levin hanno scoperto una classe potenzialmente più ampia di P, indicata con
il simbolo NP, i cui problemi, benché non necessariamente risolubili in tempo
polinomiale lo sono quasi: nel senso che, di ogni proposta soluzione, si può verificare
in tempo polinomiale se essa funziona oppure no.
La differenza tra P e NP è dunque la seguente: per stare nella prima classe è
necessario che un problema ammetta un metodo per trovare la soluzione in tempo
70
polinomiale, mentre per stare nella seconda classe è sufficiente che un problema
ammetta un metodo per verificare la soluzione in un tempo polinomiale.
Per esempio verificare che un certo numero di telefono corrisponde ad una
certa persona è facile, perché basta consultare l’elenco telefonico in ordina alfabetico;
ma trovare la persona che ha un certo numero di telefono è difficile perché richiede
una ricerca esaustiva dell’intero elenco.
Una delle scoperte sorprendenti di Cook, Karp e Livin fu che tutti questi
problemi con la sola possibile eccezione della scomponibilità così come migliaia di
altri nelle aree più disparate della matematica pura e applicata, sono sostanzialmente
equivalenti: trovare una soluzione polinomiale per uno qualunque di essi
significherebbe trovarne una per tutti perché esistono traduzioni polinomiali di
ciascuno di essi negli altri.
Trovare una soluzione polinomiale, oppure dimostrare che essa non esiste, per
uno qualunque dei problemi equivalenti isolati da Cook, Karp e Livin è risultato finora
impossibile: il problema se P e NP siano o no la stessa classe ha dunque acquistato il
sapore di una sfida ed è divenuto il più noto problema per l’informatica teorica.
La macchina di Turing universale è l’equivalente astratto dei moderni
calcolatori seriali, sui quali può essere eseguito un qualsiasi programma, debitamente
codificato, su qualsiasi insieme di dati, anch’essi forniti alla macchina nell’opportuna
codifica: una macchina “calcolatrice” non è limitata quindi a elaborare dati numerici,
ma può elaborare qualsiasi cosa di cui si possa fornire una rappresentazione
numerica, e può fornire la soluzione di qualsiasi problema per il quale si sia in grado
di congegnare un programma e una codifica dei dati.
In questo modo rendiamo evidenti e concreti concetti astratti come
computabilità e algoritmo; l’enfasi sulla similitudine fra comportamento intelligente e
l’elaborazione di un computer è stata indebitamente accresciuta da una diffusa ma
errata interpretazione della nota tesi ChurchTuring (Turing 1936): la tesi di Church,
secondo la quale “una funzione di interi positivi è effettivamente calcolabile solo se è
ricorsiva” equivale alla tesi di Turing, la quale, in una delle sue enunciazioni più
informali, ipotizza che “tutto ciò che è descrivibile come procedura puramente meccanica
equivale ad una macchina di Turing ”.
Queste due tesi equivalenti servono a formulare quella che fino ad allora era
una idea intuitiva nel campo della logicamatematica, ovvero quella di computabilità
71
effettiva o di procedura meccanica. Troviamo una definizione informale di procedura
meccanica nel contributo di B. J. Copeland (Copeland 1997) alla Stanford
Encyclopedia of Philosophy:
1) deve essere espressa nei termini di un numero finito di istruzioni esatte (ogni
istruzione espressa per mezzo di un numero finito di simboli);
2) se viene eseguita senza errori, produrrà sempre il risultato desiderato in un
numero finito di passi;
3) tale procedura può essere “eseguita”, in linea di principio, da un essere umano
senza l’aiuto di alcuno strumento tranne carta e penna;
4) la procedura non richiede né comprensione né applicazione di “ingegno” da
parte dell’umano che la applica.
Questa definizione in nessun modo può essere estesa a significare
“computabile da qualsiasi macchina” in generale. È vero che le architetture della
maggior parte dei calcolatori oggi in circolazione sono figlie della macchina di Turing
(in particolare di quella universale, in grado di simulare qualsiasi altra macchina di
Turing), ma questo non vuol dire che l’attività di qualsiasi macchina con qualsiasi
architettura debba necessariamente equivalere all’attività di una macchina di Turing.
Possiamo invece trovare, come fa notare con Copeland, che la tesi di Turing
viene spesso interpretata come se dicesse che qualsiasi procedura finita che opera su
un insieme di dati finiti possa essere calcolata da una macchina di Turing; da cui
l’indebita conclusione che, se consideriamo il cervello come qualcosa che esegue
operazioni finite sul numero finito degli impulsi neurali, allora il compito che il
cervello esegue è Turingcomputabile.
Nel capitolo precedente abbiamo mostrato come il neurone e quindi il cervello
non segua i principi della macchina di Turing, quindi deve esistere ed essere possibile
altresì la creazione di una macchina di Turing non computabile: ma vediamo di
analizzare i passaggi che compie la trasmissione neuronale alla luce di una reale
procedura meccanica.
72
Fig. 4.2
Vediamo come la zona di elaborazione dell’informazione sia situata fra le post
sinapsi di un neurone in uscita e la zona d’integrazione dei segnali nel neurone
successivo, la zona di trasporto del segnale, l’assone C, non ha caratteristiche
funzionali, ma solo di trasporto quindi trascurabile hai fini della nostra analisi.
Riprendiamo allora le nostre funzioni descrittive dell’informazione neuronale;
la carica nella postsinapsi del primo neurone viene convertita in analogico attraverso
h(m) che funziona come un modulatore ed è quindi computabile; abbiamo una
quantità m di neurotrasmettitore che viene rilasciato in prossimità della membrana
cellulare del secondo neurone e il segnale si propaga in esso secondo la funzione:
f1t1(m)
Questa funzione ft è computabile secondo Turing in quanto calcola l’alterazione
che la carica m causa al potenziale della membrana propagandosi fino al punto di
integrazione (B); la costante è un valore fisso. Similmente sappiamo che la zona di
integrazione del segnale B funziona come un modulatore ad impulsi unitari e quindi
anch’esso opera in maniera computabile trasformando la carica risultante f4t4(x) in
frequenza d’impulsi g(i).
h(m) f 1t1(m) g(i)
73
Fig. 4.3
Aggiungiamo ora l’elemento non Turing computabile: l’inibizione dell’impulso a
livello della sinapsi. Il neurone può essere simulato con una macchina di Turing
“Neurone” T(N) che ne descrive l’algoritmo di funzionamento, mentre l’inibizione
dell’impulso può essere simulata con un’altra macchina di Turing “Inibizione” T(I) in
quanto risultato dell’attività dell’algoritmo di un altro neurone. La loro interazione
rende il processo non Turing computabile, non meccanicamente riproducibile.
Fig. 4.4
Ovvero a livello del singolo neurone T(N), la macchina esegue la sua normale
procedura deterministica, ma la applica ad un insieme di input incompleti, quindi non
si ha più una computabilità effettiva o una procedura meccanica , si ha qualcosa di
diverso: una procedura meccanica noncomputabile.
È come se il programma svolto dalla macchina T(N) fosse modificato “a sua
insaputa” dal programma T(I), che come un virus benigno ne altera il funzionamento
74
cancellando così le informazioni ma implementando le capacità del sistema (come
vedremo meglio nel prossimo capitolo).
Questo significa che il segnale binario trasportato alla fine del processo
nell’assone è privo di alcune informazioni che si sono perse. Affrontiamo alcuni aspetti
del modello qui proposto:
1) È possibile che due macchine computabili originino un sistema noncomputabile?
Abbiamo visto che due macchine che svolgono una procedura meccanica
possono lavorare in modo tale che l’una renda noncomputabile l’altra, cosicché
l’informazione che deriva da quest’ultima sia in ultima analisi noncomputabile.
La relazione che lega queste due macchine è una relazione particolare in
quanto la macchina T(N) è una sottomacchina, ha un rapporto di subordinazione
logica a T(I), ma è la macchina che elabora l’informazione e che da un output.
La macchina T(I) si limita a dire quale informazione deve essere cancellata
seguendo il suo programma, quindi si comporta in maniera computabile secondo
Turing. È come se un programma utilizzasse un altro programma per compiere
un’operazione, ma decidesse lui quali dati lasciare che siano immessi, cancellandone
altri.
Facciamo un esempio pratico: la macchina T(N) è una macchina che sa giocare
a “Tetris” allinea i mattoncini che gli vengono dati per costruire un muro secondo un
suo algoritmo: la macchina T(I) decide secondo il suo algoritmo quando ci sono dei
mattoncini che non conviene usare.
Il muro sarà costruito da T(N) con tutti i mattoncini che le sarà permesso
usare, quindi la sua costruzione non sarà più computabile, così l’informazione in
uscita dal neurone sarà manchevole di alcuni dati persi irrimediabilmente e non più
recuperabili.
Questa procedura rende il programma T(N) non deterministico, non per la sua
procedura perché entrambi le macchine funzionano secondo un algoritmo
deterministico, ma per i dati in uscita che non sono più ricorsivamente enumerabili.
Le macchine lavorano su due dimensioni diverse: consideriamo una dimensione
una serie quantità legate da una relazione, nell’attuale contesto pensiamo ad una
dimensione come una macchina di Turing universale, quindi formata da tutti gli
algoritmi che risolvono tutti i problemi in un tempo finito.
75
2) Le due macchine di Turing sono riproducibili da una terza macchina che simuli il
comportamento di entrambe?
Una siffatta macchina T(S) avrebbe in entrata i dati disponibili, un algoritmo
costituito dalla somma dei due algoritmi delle due macchine e in uscita alcuni dati
non ricorsivamente enumerabili, quindi la macchina non è deterministica. Sommare
gli algoritmi vuol dire descrivere quando l’algoritmo T(I) debba intervenire su T(N), è
cioè un algoritmo dimensionale; non si tratta di sommare parti di codice, quanto più
dire quando il codice di una macchina debba intervenire su quello dell’altra.
Vuol dire che le due macchine lavorano indipendentemente su due dimensioni
diverse, ma quando avviene un determinato evento in un tempo tı in T(N), T(I) lo
cancella. Tenendo conto di questa differenza, una macchina che simuli le altre due è
una macchina che non è turing computabile.
3) Qual è la massima potenza computazionale di una siffatta macchina?
La potenza massima ideale che un computer può raggiungere non è più la macchina
universale di Turing, ma una macchina formata da infinite macchine universali per
infinite dimensioni, ed è di quest’ordine la massima potenza computazionale del
nostro cervello.
Ovvero una dimensione ha la sua massima potenza computazionale in una
macchina di turing universale; due dimensioni hanno la loro massima potenza
computazionale non nella somma di due macchine di Turing universali, che darebbe
un’altra macchina di turing universale, ma nella somma delle due dimensioni che
originano una macchina di turing sovradimensionale non computabile da una
singola macchina.
Se una retta infinita è una dimensione ovvero una macchina di Turing
Universale allora uno spazio pluridimensionale è pensabile come intersezione di più
macchine tra loro.
76
Fig. 4.5
Per infinite dimensioni avremo infinite macchine di Turing universali, collegate
come scatole cinesi fino ad una macchina di turing sovradimensionale che le
racchiude tutte.
Se il neurone opera su una dimensione, due neuroni possono crearne tre, si
pensi a quante dimensioni possono essere generate da 10¹º, 10¹¹ neuroni; si pensi a
quante altre possono essere generate da 5 miliardi di cervelli, e se consideriamo anche
solo 2000 anni di storia si pensi a qual è la potenza computazionale del genere
umano.
4.2 I sistemi aperti
4.2.1 La logica fuzzy
Affrontiamo ora il caso della sommazione sinaptica. Abbiamo mostrato alla fine
del precedente capitolo come sulla membrana operi una matematica speciale derivata
dall’interazione delle cariche, una matematica non booleana ma dimensionale; negli
ultimi anni nel campo delle intelligenze artificiali si è utilizzato molto un modello di
matematica dimensionale, la logica fuzzy (Cammarata 1994, Zadeh 1992, Kosko
1993).
77
Questo non è l'unico modello di matematica dimensionale, ma è sicuramente
molto facile da gestire, soprattutto per sistemi semplici con poche variabili. Facciamo
un esempio, secondo la logica bipolare vero/falso la frase:
il bicchiere è mezzo pieno e mezzo vuoto
dà origine a paradossi e contraddizioni in un sistema logico a due valori di verità,
perché quando cerchiamo di descrivere la frase in maniera lineare, partendo dalla
condizione del bicchiere, abbiamo la coesistenza di due stati “mezzo pieno” e “mezzo
vuoto” contemporaneamente.
Nella logica fuzzy invece gli input sono elaborati in uno spazio particolare
chiamato appunto fuzzy, dove i valori di verità sono infiniti, cioè ci sono infinite
sfumature fra vero e falso. La descrizione che viene fatta del bicchiere è facilmente
definibile con una funzione su un piano cartesiano, in cui colleghiamo i due concetti
fra loro, su un asse poniamo i valori di verità possibili e sull'altro la quantità d'acqua,
avremo quindi delle funzioni che rappresentano le seguenti affermazioni:
il bicchiere è pieno
Fig. 4.6
il bicchiere è vuoto
78
Fig. 4.7
il bicchiere è 1/2 pieno e 1/2 vuoto
Fig. 4.8
Le tre funzioni prendono il nome di funzioni membership e la superficie che
delimitano definisce un insieme fuzzy (i due trapezi e il triangolo). L'utilità di una
simile rappresentazione è che se le applichiamo alle frasi relative ai bicchieri pieni
d'acqua, possiamo gestirle con insiemi fuzzy.
Possiamo vedere ad esempio che il bicchiere è mezzo pieno e mezzo vuoto
corrisponde geometricamente ai punti interni al triangolo della figura 4.21, e che ha
parti in comune con il concetto di bicchiere è pieno e di bicchiere è vuoto.
Questo passaggio tra la dimensione lineare delle rette e l’area da loro definita è
un passaggio di dimensione tra la logica bipolare e quella fuzzy.
Quindi non solo coesistono più dimensioni in uno stesso punto senza paradossi,
ma anche il passaggio da una dimensione all'altra non subisce sbalzi logici, infatti
79
come vedremo nella figura sottostante, se prendiamo un mezzo bicchiere d'acqua,
poco cambia se ne aggiungiamo una piccola quantità in più o in meno, rimarrà
sempre descrivibile come un mezzo bicchiere.
Fig. 4.9
E' interessante notare che se vogliamo estrarre da questo insieme fuzzy un
valore preciso e non ambiguo, come la determinazione della quantità d'acqua esatta
per avere un bicchiere che appartenga a tutte e tre le frasi suddette, possiamo
compiere una specie di media, calcolando il baricentro degli insiemi.
Quest'operazione si chiama defuzzificazione ed è presumibilmente quello che
succede nel neurone al punto B. Infatti, possiamo pensare che sulla membrana del
neurone e nella zona d’innesco successiva, si abbia una fuzzificazione e una
defuzzificazione, in maniera tale che l'informazione viene operata in uno spazio pluri
dimensionale e trasportata attraverso il segnale digitale.
Questo tipo di matematica presuppone che gli insiemi utilizzati siano insiemi
aperti cioè in qualche misura infiniti nei loro valori di verità e che i sistemi che
originano dalle loro aggregazioni siano sistemi aperti, cioè non delimitati da una sola
dimensione ma agenti su più dimensioni. Tutto ciò è ancora più facilmente
comprensibile se facciamo simulare il teorema di Gödel una macchina di Turing.
4.3 Il teorema di Gödel come prova dell’esistenza di altre dimensioni
4.3.1 Entscheidungsproblem
80
Negli anni ’20 in mondo matematico era sotto l’influsso del programma di
Hilbert che proponeva un quadro concettuale di riferimento per i fondamenti della
matematica centrato sulla formalizzazione delle teorie e del ragionamento all’interno
di sistemi logici rigorosi.
L’obiettivo specifico era quello di dimostrare la non contraddittorietà della
teoria dei numeri e dell’analisi; lo scopo più generale era quello di studiare
matematicamente le teorie matematiche.
Il prerequisito necessario era che le formule, i teoremi e le loro dimostrazioni,
fossero presentati come oggetti finiti e strutturati in modo tale da poter svolgere su di
essi ragionamenti matematici combinatori e induttivi.
Il programma di Hilbert prende corpo nel momento dell’irruzione nella
matematica dei metodi infiniti, sullo sfondo di una generale resistenza a essi e
dall’accettazione piena e sicura del solo finito.
L’intenzione di Hilbert era quella di giustificare l’uso dell’infinito in
matematica, attraverso una dimostrazione del suo carattere strumentale: una finzione
utile per le dimostrazioni ma senza una realtà autonoma. Sarebbe stato sufficiente
provare che l’uso dell’infinito non poteva portare a dimostrare cose false almeno tra
quelle verificabili.
Spostata l’attenzione dai contenuti e dai significati alle espressioni formali,
finite e alle teorie irreggimentate nei calcoli, non è difficile vedere con qualche
passaggio tecnico che l’obiettivo sopra indicato è equivalente alla dimostrazione di
non contraddittorietà delle teorie in questione.
Nei dettagli, quello che si richiede, dopo aver descritto le teorie in un
linguaggio dalla sintassi rigorosamente precisa, è che l’insieme degli assiomi
costituisca un insieme decidibile, cioè tale che esista un algoritmo per riconoscere gli
assiomi, e questo in vista di una richiesta più generale, cioè che la nozione di prova
sia decidibile.
Gli oggetti su cui si ragiona devono essere individuabili in modo non ambiguo;
risulta quello che oggi chiamiamo teoria formalizzata o sistema formale: le prove sono
successioni finite di espressioni ottenute l’una dall’altra applicando un numero finito
di regole di trasformazione effettive.
81
L’interesse del problema stava nel fatto (problema della decisione) che le varie
branchie della matematica si possono uniformemente presentare attraverso sistemi di
assiomi da cui i teoremi si derivano mediante la sola logica.
Un algoritmo come quello richiesto da Hilbert avrebbe dunque permesso ai
matematici di concentrarsi sulla formulazione di assiomi e l’enunciazione di enunciati
interessanti e di lasciare all’algoritmo la parte più faticosa cioè la dimostrazione degli
enunciati a partire dagli assiomi.
Il problema fu risolto indipendentemente nel 1936 da Church negli Stati Uniti e
da Turing in Inghilterra. La soluzione, come si può prevedere dal fatto che le
dimostrazioni hanno continuato a essere la parte centrale dell’attività matematica, fu
negativa.
Un algoritmo come quello richiesto da Hilbert non esiste ma la dimostrazione
di questo fatto presuppone un progresso sostanziale: mentre infatti una dimostrazione
di esistenza di un algoritmo richiede semplicemente la sua esibizione, una
dimostrazione di non esistenza, richiede l’esclusione di ogni possibile algoritmo e
dunque la caratterizzazione completa della nozione stessa di algoritmo.
Il fatto che una tale nozione vaga e intuitiva ammetta effettivamente una
caratterizzazione precisa e formale, fu una scoperta sorprendente, alla quale si arrivò
mediante una serie di tentativi di definizione che risultarono, a posteriori, essere tutti
equivalenti.
Ma fu proprio l’approccio di Turing a convincere definitivamente che si era
arrivati alla soluzione del problema: oggi la sua definizione si può riformulare in
maniera quasi banale, dicendo che un algoritmo è ciò che si può tradurre in un
programma per calcolatore, in uno qualunque dei linguaggi detti universali (Pascal,
Lisp, Prolog).
Turing derivò la soluzione negativa del entscheidungsproblem traducendo, nel
linguaggio della logica, il cosiddetto problema della fermata: decidere se un dato
programma si ferma su un dato argomento.
Che questo problema sia indecidibile, nel senso che non esista nessun
programma che lo possa decidere, si può dimostrare facilmente mediante il classico
metodo diagonale, introdotto da Kant in teoria degli insiemi, e poi sfruttato da Russel
per il suo paradosso e da Gödel per il suo teorema di incompletezza: metodo che era
82
dunque ben noto a Turing e a Church (che risolse il problema in maniera analoga
usando però la sua equivalente definizione di algoritmo in termini di lambda calcolo).
Dal punto di vista matematico, l’applicazione più interessante del metodo fu la
soluzione negativa del decimo problema di Hilbert: trovare un algoritmo per decidere
se un polinomio (in una o più variabili) ha coefficienti interi (positivi o negativi)
ammette zeri interi; o in altri termini se la cosiddetta equazione diofantea che si
ottiene uguagliando il polinomio a zero ammette radici intere.
4.3.2 Una porta su altre dimensioni
Il primo teorema di incompletezza di Gödel afferma che ogni teoria adeguata
per un minimo di aritmetica è incompleta, nel senso che esiste una proposizione tale
che né essa né la sua negazione sono teoremi. Una simile proposizione di dice
indecidibile nella teoria. Al momento della dimostrazione 1931, questo risultato
apparve sconvolgente perché tutti si aspettavano in contrario e per ragioni di fondo.
Tale risultato infatti sembrava mettere in discussione nozioni fondamentali del
pensiero matematico, come quelle di teoria, dimostrazione, verità.
Spostata l’attenzione dai contenuti e dai significati alle espressioni formali,
finite e alle teorie irreggimentate nei calcoli, non è difficile vedere con qualche
passaggio tecnico che l’obiettivo sopra indicato è equivalente alla dimostrazione di
non contraddittorietà delle teorie in questione.
Veniva così anche dato un significato più pregnante all’esigenza della non
contraddittorietà aldilà della diffusa posizione che equiparava esistenza e non
contraddittorietà in matematica.
Nei dettagli, quello che si richiede, dopo aver descritto le teorie in un
linguaggio dalla sintassi rigorosamente precisa, è che l’insieme degli assiomi
costituisca un insieme decidibile, cioè tale che esista un algoritmo per riconoscere gli
assiomi, e questo in vista di una richiesta più generale, cioè che la nozione di prova
sia decidibile.
Gli oggetti su cui si ragiona devono essere individuabili in modo non ambiguo.
E risulta quello che oggi chiamiamo teoria formalizzata o sistema formale: le prove
sono successioni finite di espressioni ottenute l’una dall’altra applicando un numero
83
finito di regole di trasformazione effettive. Adesso bisogna spiegare in che senso
questo non è vero, perché infatti alla luce del teorema di Gödel qualcosa non torna.
I fenomeni negativi di incompletezza e di impossibilità legati
all’autoriferimento si manifestano per un motivo naturale e convincente. I problemi
riguardanti i calcoli ed i processi meccanici che richiedono una risposta si, no,
presentano una simmetria tra le due risposte; una di solito è data dal verificarsi di una
situazione completa, l’apparizione ad un certo punto di un simbolo sul nastro, che
mette fine alla computazione; l’altra è data dalla realizzazione che un simile fatto non
accadrà mai.
Quindi, bisogna dimostrare o comunque accorgersi, in un numero finito di
passi, di un fatto che involve una quantità infinita di informazioni. Affrontiamo a
grandi linee la parte più importante del ragionamento di Gödel (Nagel, Newman
1958).
Gödel mostrò come fosse possibile assegnare un unico numero a ciascun segno
elementare, a ciascuna formula e a ciascuna dimostrazione del calcolo aritmetico;
questi numeri vengono chiamati godeliani.
Se si prendono gli assiomi di PeanoDedekin come teoria, dal momento che
questi hanno un'unica realizzazione, le loro conseguenze logiche sono le proposizioni
vere in N (insieme dei numeri naturali) e se le dimostrazioni logiche danno tutte le
conseguenze logiche degli assiomi, i teoremi potrebbero essere tutti enunciati veri in
N, quindi non dovrebbe esserci nessun enunciato indecidibile.
Una volta effettuata l’aritmetizzazione dei linguaggi scatta il fenomeno
dell’autoriferimento. Autoriferimento vuol dire che i termini della teoria numerica
denotano anche elementi del mondo linguistico in cui si svolge la teoria e le formule
aritmetiche fanno affermazioni sulle formule attraverso i loro gödeliani.
I gödeliani degli assiomi dell’aritmetica di Peano formano un insieme decidibile
e ricorsivo, quindi rappresentabile; le dimostrazioni sono sequenze finite il cui
carattere di derivazione, per i legami interni tra i singoli passi, è decidibile quindi,
esiste una relazione rappresentabile.
1) Gödel mostrò in che modo sia possibile costruire una formula artimetica G che
rappresenti la proposizione metamatematica: “la formula G non è dimostrabile”.
Questa formula allora evidentemente afferma la sua non dimostrabilità.
84
2) Gödel dimostrò anche che G è dimostrabile se e solo se la sua negazione formale ¬G
è dimostrabile. In base a ciò il calcolo è autocompatibile, sia G che la sua negazione
formale ¬G sono formalmente deducibili dagli assiomi dell’aritmetica.
3) Gödel dimostrò che sebbene G non sia formalmente dimostrabile, tuttavia è una
formula aritmetica vera. E’ vera nel senso che afferma che ogni intero possiede una
certa proprietà aritmetica che può essere esattamente definita ed è posseduta da
qualsiasi intero assegnato.
4) Dato che G è vera e insieme formalmente indecidibile, gli assiomi dell’aritmetica non
sono completi. In altre parole non possiamo dedurre tutte le verità aritmetiche dagli
assiomi.
Inoltre Gödel dimostrò che l’aritmetica è essenzialmente incompleta anche se si
supponessero altri assiomi aggiuntivi tali da permettere la formale deduzione della
formula vera G dall’insieme più ampio si potrebbe costruire un’altra formula vera ma
formalmente indecidibile.
5) Gödel descrisse la maniera in cui costruire una formula aritmetica A che rappresenti la
proposizione matematica: “l’aritmetica è autocompatibile” e dimostrò che la formula è
formalmente dimostrabile. Ne segue che l’autocompatibilità dell’aritmetica non può
essere stabilita con argomenti rappresentabili nel calcolo aritmetico formale.
Quindi il primo teorema di incompletezza di Gödel afferma che ogni teoria
adeguata per un minimo di aritmetica è incompleta, nel senso che esiste una proposizione
tale che né essa né la sua negazione sono teoremi. Una simile proposizione di dice
indecidibile nella teoria.
Tuttavia il teorema di Gödel è in linea con quanto detto precedentemente sulla
macchina di Turing sovradimensionale; esistono dei dati che sono veri e autentici ma
che non sono riconducibili ad un processo ricorsivamente enumerabile, in quanto
“dimensionalmente enumerabile”.
I problemi riguardanti i calcoli ed i processi meccanici che richiedono una
risposta si/no, presentano una simmetria tra le due risposte; una di solito è data dal
verificarsi di una situazione completa, l’apparizione ad un certo punto di un simbolo
sul nastro, che mette fine alla computazione; l’altra è data dalla realizzazione che un
simile fatto non accadrà mai.
85
E’ evidente la simmetria tra le due risposte; nel primo caso si può pensare che
un algoritmo universale simuli la macchina, e se e quando questa si ferma ne prende
atto; nel secondo caso, occorre accorgersi, dopo un numero finito di passi, che il
calcolo andrà avanti all’infinito, e che in ogni istante successivo la macchina avrà del
lavoro da svolgere.
Quindi, bisogna dimostrare o comunque accorgersi, in un numero finito di
passi, di un fatto che involve una quantità infinita di informazioni.
Fisicamente immaginiamo una macchina di Turing che computa, ad un certo
punto parte del suo nastro si sovrappone a quello di un’altra macchina di Turing, in
quello istante si sovrappongono due dimensioni e i dati di una dimensione scivolano
nell’altra. In entrambe le dimensioni i processi sono computabili, tuttavia una
macchina in una dimensione non può calcolare i dati anche nell’altra dimensione.
Il teorema di Gödel mostra come esistano in matematica proposizioni vere ma
che non sono state definite nella dimensione del linguaggio sorgente; il teorema
simbolicamente è una porta verso altre dimensioni, tutte contenute nella matematica;
Gödel dimostra così come la matematica sia dimensionale.
Ed ancora, gli insiemi ricorsivi sono quelli generati da un processo meccanico
che uno dopo l’altro espelle gli elementi dell’insieme. Il processo si può identificare
con una funzione ricorsiva, di cui l’insieme è l’immagine; oppure l’insieme si può
identificare con il dominio di una funzione parzialmente definita: quando i calcoli
terminano, l’input sta nell’insieme; quando i calcoli non terminano, la funzione non è
definita e l’elemento non sta nell’insieme.
La famiglia di questi insiemi ha una ricca struttura. Un insieme ricorsivamente
enumerabile è ricorsivo se è l’immagine di una funzione ricorsiva strettamente
crescente; un insieme è ricorsivo se sia lui sia il suo complemento sono ricorsivamente
enumerabili. Esistono insiemi ricorsivamente enumerabili non ricorsivi; i problemi
indecidibili.
Un insieme siffatto è l’insieme degli indici delle macchine che applicate al loro
indice si fermano in un numero infinito di passi. Una forma di auto riferimento del
tutto analoga a quella di Gödel. Il fenomeno è infatti intimamente legato al teorema
di Gödel.
Le teorie per cui vale il teorema sono quelle per cui si rappresenta fedelmente i
fatti delle computazioni meccaniche; se l’aritmetica di Peano fosse completa, allora
86
per decidere il problema della fermata basterebbe aspettare che arrivi l’affermazione
che la macchina si ferma o arriva la sua negazione.
4.4 Il sistema nervoso come un flipper, il cervello come un’orchestra.
Quanto qui ipotizzato è coerente con la realtà fisiologica, perché in un sistema
siffatto non è importante l’informazione trasportata quanto il percorso che essa fa.
Avevamo visto come le sinapsi si comportassero come pistole a spruzzo che sparano
scariche elettrochimiche.
Queste scariche elettriche correranno lungo le ramificazioni e provocherà a sua
volta altri spruzzi sui punti di contatto con altre cellule nervose e così via. Tutto ciò
probabilmente lascia qualche traccia nel sistema. Infatti il passaggio del segnale mette
in moto una serie di meccanismi che interessano le membrane, i punti di trasmissione
e ricezione, la produzione di sostanze chimiche, il loro riassorbimento.
È in questo modo che vengono immagazzinate le informazioni, cioè queste
modificazioni rappresentano per così dire una nuova messa in forma dei circuiti e
quindi costituiscono una traccia del passaggio dei precedenti stimoli.
La memoria allora potrebbe essere il frutto di queste alterazioni strutturali e
chimiche, la memoria è il prodotto di queste modificazioni delle sinapsi; o magari in
certi casi, il prodotto dell’emergere di nuove sinapsi. In altre parole pensiamo che
l’attività mentale, l’apprendimento, o i ricordi, siano impulsi che viaggiano attraverso
questa rete di comunicazione.
Ad esempio nella famosa associazione del cane di Pavlov tra rappresentazione
della carne e il suono del campanello. Il fatto che dopo un certo numero di ripetizioni,
basti il suono del campanello per provocare la salivazione nel cane significa che è
stato stabilito o rafforzato un collegamento tra sistema uditivo e neuroni che
controllano le ghiandole salivari; un’associazione che prima non esisteva.
Gli impulsi nervosi diventano capaci di percorrere sentieri che prima non
avevano mai percorso e questo rappresenta un apprendimento. Quando ricordiamo o
impariamo qualcosa vuol dire che gli impulsi nervosi hanno preso strade che prima
non avevano mai percorso. Inoltre è stato dimostrato che in certi tessuti di coltura
87
possono stabilirsi nuove connessioni nervose in tempi rapidissimi: da qualche minuto a
mezz’ora. Quindi un’efficace sinapsi si può stabilire in 1015 minuti.
Partendo dall’idea che un processo mentale superiore non può essere
ovviamente il frutto di una sola connessione o di un solo tracciato, bensì di un insieme
di tracciati, si sta cercando di vedere se un certo stimolo, anziché passare come una
meteora nel cervello e scomparire, non rimbalzi per così dire nella rete analogamente
a quanto avviene per la pallina di un flipper che va a colpire con un’elaborata
geometria vari punti e torna magari sui rocchetti già toccati.
Naturalmente questi esperimenti che richiedono l’introduzione di sottilissimi
elettrodi nel cervello, non possono essere fatti sugli uomini. Alcuni ricercatori
giapponesi studiano però animali impegnati in processi cognitivi, osservando il
comportamento di certe cellule della corteccia cerebrale durante l’apprendimento.
Ebbene hanno scoperto che l’attività incerte cellule aumenta dopo qualche
secondo dallo stimolo. Ciò sembra indicare l’esistenza di un processo d’elaborazione
dell’informazione attraverso una serie di rimbalzi nel sistema interessato.
È come se la cellula attraverso tutti i suoi punti di contatto ricevesse un’onda di
ritorno che riflette l’attività della complessa rete di cui fa parte. È questa forse una
delle chiavi di accesso alle attività superiori del cervello.
Si è scoperto che oltre alle sinapsi ci sono altri rubinetti chimici nel cervello:
dalle zone profonde salgono infatti altre ramificazioni nervose che non sono collegate
direttamente ai neuroni della corteccia ma che durante gli stati emotivi inietta in delle
sostanze chimiche nella zona interessata così come può fare una siringa.
L’ipotesi è che siano proprio queste iniezioni che provengono dalle parte
primitiva del cervello a influire nelle zone nobili della corteccia. Seymour Katy usa
una delle immagini più efficaci per visualizzare questo concerto chimico che avviene
nel cervello: quello dell’orchestra.
“In passato pensavamo che ogni sostanza chimica trasmettitrice producesse un
particolare stato emotivo: la noradrenalina l’eccitazione, la serotonina la sonnolenza…
ma ci siamo resi conto che questa concezione era molto semplicistica. Un’analogia
migliore è quella dell’orchestra, in un’orchestra possono esserci cento musicisti e magari
25 strumenti diversi.
Ebbene, l’orchestra è in grado di produrre una vasta gamma di stati d’animo:
felicità, tristezza, eccitazione, noia…ma non crea questi stati d’animo con un particolare
88
strumento bensì attraverso il modo in cui gli strumenti sono in relazione gli uni con gli
altri. Taluni strumenti suonano più forte, altri più piano, alcuni più in fretta, altri più
adagio.”
Ora possiamo capire meglio le differenze fra i modelli presentati e le loro
relazioni con le funzioni alte del cervello. Seguendo la linea critica di Smolensky
(1986) secondo cui “una singola unità (un subsimbolo, un neurone) non costituisce
una rappresentazione, ma è soltanto un elemento che permette alla rappresentazione di
emergere ad un livello più astratto” (pp.56), le nostre considerazioni sembrano
dirigerci verso un quarta dimensione nel cervello che va oltre le tre dimensioni
percepite sensorialmente.
Questa è derivata dall'elaborazione delle percezioni sensoriali (Amit 1989) o
addirittura sembra che le dimensioni interne al cervello siano molteplici se non
infinite. Se il modello PDP mantiene tutte le caratteristiche negative e le limitazioni
viste nel precedente capitolo, il modello reale del neurone opera in maniera più varia
e completa.
La conseguenza è che mentre il modello PDP dà origine a reti che sono in grado
di apprendere compiti facili, ma con dei limiti, nella realtà invece il singolo neurone
funziona già in modo talmente ricco che il sistema nervoso che deriva
dall'associazione di queste cellule è immensamente più potente.
Questo è possibile come si è visto precedentemente, perché l'informazione
computata è su due livelli completamente diversi. Un nodo può calcolare x
informazioni secondo una funzione f (x) e dare come risposta y informazioni, ma le
entrate non sono così elevate come nel neurone, altrimenti il sistema collassa e non è
addestrabile, e soprattutto è possibile applicare solo un'operazione per volta.
Il neurone può calcolare normalmente 100.000 funzioni diverse in entrata, in
uno spazio pluridimensionale che le combina tra loro secondo più operazioni logiche,
teoricamente tutte le loro possibili combinazioni, in realtà in quanto potenziali
modulabili le loro combinazioni aumentano ancora.
Un'interessante critica in questa direzione viene da J.Fodor e Z.Pylyshyn (1981)
secondo cui “il connessionismo è impossibilitato nella creazione di sistemi di
rappresentazione che godono della proprietà di "composizionalità", tali cioè che un
numero potenzialmente illimitato di rappresentazioni complesse possa essere generato da
un insieme finito di rappresentazioni atomiche, in maniera che il significato delle
89
rappresentazioni complesse dipenda sistematicamente dal significato delle loro
componenti” (pp.139).
Ma quello che dobbiamo tenere presente in questo caso è la particolare ottica
con cui si osserva il trasporto dell’informazione; non conta tanto la quantità
dell’informazione, ma la sua qualità. Per qualità intendo che il nodo può trasportare
sempre e solo l’informazione su una dimensione; nel neurone invece, l’informazione
può essere creata exnovo all’interno della membrana cellulare su più dimensioni.
Ma dov’è che si rende evidente questa pluridimensionalità? Non sicuramente
nel singolo neurone quanto nelle caratteristiche del sistema nervoso. Pensiamo alla
differenza fra una formica e il formicaio; è stato osservato dagli etologi, come il
comportamento del formicaio abbia caratteristiche simili a quello di un essere vivente
dotato di un’elevata intelligenza a differenza della semplice formica (Hofstadter e
Dennett 1981).
Il formicaio è capace di prendersi cura di se, meglio di quanto sappia fare la
formica singola, data la sua alta specializzazione nei compiti.
Ovviamente il formicaio non esiste come “essere”, ma come “insieme di
formiche”, tuttavia quando lo indichiamo intendiamo qualcosa di più della semplice
unione di formiche, data la sua alta funzionalità.
Un altro esempio di questa nuova prospettiva dimensionale, cioè di come siano
trasmesse informazioni su più dimensioni, è dato dai famosi quadri di Escher.
90
Fig. 4.10
Qui le molte dimensioni coesistono in un’unica realtà (cioè in un’unica
dimensione: quella del quadro) così come le molte dimensioni delle sinapsi coesistono
all'interno della cellula nervosa.
Questa capacità di operare come una scatola cinese su diversi livelli appare
evidente nelle funzioni cerebrali, ma è impossibile in quelle PDP, una rete non sarà
mai in grado di comprendere questo quadro, perché non glielo permette la sua
struttura.
Nel prossimo capitolo troveremo un'applicazione pratica nella trattazione del
linguaggio metaforico e del “pensare dimensionale”, oltre ad un maggior chiarimento
delle capacità delle macchine sovra dimensionali e dell’utilità di cancellare
l’informazione nel sistema nervoso.
91
Capitolo 5La scuola di Palo Alto.
Granchio: Capire l'olismo è la cosa più semplice del mondo. E' semplicemente credere che
“l'intero è maggiore della somma delle sue parti”. Nessuna persona sana di mente
oserebbe rifiutare l'olismo.Formichiere: Capire il riduzionismo è la cosa più semplice del mondo.
E' semplicemente credere che“l'intero può essere completamente capito
quando si capiscono le sue parti e la natura della loro “somma””.Nessuna persona sana di mente
oserebbe rifiutare il riduzionismo.Douglas R. Hofstadter
Vediamo allora quali sono le peculiarità di funzionamento del sistema nervoso,
analizziamo cioè le caratteristiche che permettono ad un tale sistema fisico la
creazione e gestione delle metafore e del relativo linguaggio metaforico.
Se da una parte esiste una ricerca “tecnologica” induttiva, come abbiamo visto
con il connessionismo e del modellamento neurale, che indaga sulla riproduzione di
funzioni hightlevel del cervello umano, parallelamente si è sviluppata una ricerca
“psicologica” deduttiva che tende al solito fine utilizzando l'osservazione empirica dei
comportamenti umani: è il caso della Programmazione Neurolinguistica che seguendo
una via diversa è giunta a considerazioni simili a quelle di Lakoff & C.
Il modello usato dalla PNL (Neurolinguistic Programming) ha molti riscontri in
casi clinici ed è suffragato da un'esperienza più che ventennale nella cura di disturbi
psichici e comportamentali in genere, basandosi su un modello di linguaggio
chomsckiano e di cura attraverso le metafore.
5.1 Gli uomini e le idee di Palo Alto
Il termine “Scuola di Palo Alto” è una comoda etichetta per designare un gruppo
di ricercatori di differenti prospettive scientifiche che, in un dato momento della loro
92
esistenza, hanno lavorato a Palo Alto, San Francisco, orientando il loro lavoro lungo
tre grandi direzioni di ricerca: una teoria della comunicazione, una metodologia del
cambiamento, una pratica terapeutica.
Ma l'unità di queste ricerche è la visione sistemica del problema uomo, in altre
parole come questo riesca a svolgere funzioni molto complesse come comprendere e
comunicare con gli altri uomini, ovvero come agente in un sistema dinamico.
L'ispiratore del gruppo è Gregory Bateson che, dal 1949, ha lavorato presso l'ospedale
psichiatrico della Veterans Administration a Palo Alto.
Bateson non ha “inventato” l'approccio sistemico, il suo merito è di aver cercato
di applicarlo in maniera metodica e rigorosa, al terreno delle relazioni umane e in
particolare alle alterazioni psichiche di natura traumatica.
E' questo che costituisce la vera innovazione rispetto ai precedenti
procedimenti della psicologia. L'approccio sistemico non è una nuova scienza e
neppure una nuova disciplina; è un punto di vista originale sulla realtà, un metodo
per affrontare i fenomeni complessi (Peruzzi 1981).
Consente una visione sintetica dei problemi, a differenza della visione analitica;
infatti, laddove l'analisi scompone un fenomeno in molte parti elementari, di cui
studia le proprietà e va dal semplice al complesso, la sintesi cerca di pensare la
totalità nella sua struttura e nella sua successione; invece di “dissociare”, “ricompone”
l'insieme delle relazioni espressive che legano gli elementi in interazione, facendo
corrispondere a queste la nozione di sistema.
Facciamo ora un rapido excursus storico per chiarire queste nozioni e mostrare
a quali preoccupazioni concrete abbia risposto l'approccio sistemico e quale ne sia la
portata operativa. La nozione di sistema non è nuova.
Tuttavia, il modo di procedere sistemico ha conosciuto un nuovo slancio negli
Stati Uniti negli anni Quaranta, quando ha potuto utilizzare strumenti di grande
efficacia come la cibernetica e, un po' più tardi, l'informatica e la robotica. Il padre
della cibernetica Norbert Wiener, matematico che, prima dell'ultima guerra insegnava
al MIT (Massachusetts Institute of Technology), lavora nel 1940 alla messa a punto
d'apparecchi di guida automatica per cannoni antiaerei.
Scopre allora che simili servomeccanismi presentano talune analogie
sorprendenti con il funzionamento del sistema nervoso; dimostrando in particolare che
per controllare un'azione orientata verso un fine, il flusso delle informazioni necessarie
93
deve formare un “ciclo” chiuso in cui la macchina valuta gli effetti delle sue azioni e
corregge il suo comportamento futuro utilizzando le prestazioni passate: questo
procedimento è designato con la nozione di feedback (o retroazione).
Da allora il procedimento cibernetico consiste sempre più nell'applicare a tutti i
terreni di condotta e di gestione d'organismi complessi, i modelli nati dall'incontro tra
la meccanica e la biologia.
Nello stesso tempo, questo nuovo procedimento si estende ad altre discipline,
come l'economia, la gestione aziendale, la sociologia o l'antropologia; in quest'ultimo
settore Margaret Mead e Bateson si mostrano molto interessati alle ricerche di Wiener
e si sforzano di applicarle alla comprensione dei processi culturali.
Negli anni cinquanta, una nuova invenzione va a dare un impulso decisivo alle
ricerche sull'intelligenza artificiale e i robot: il computer.
Uno dei più efficaci per l'epoca è costruito nel 1951 al MIT da un giovane
elettronico che si occupava del laboratorio dei servomeccanismi, Jay Forrester,
utilizzava una memoria magnetica ultrarapida.
Poco tempo dopo, Forrester è incaricato dai servizi della Difesa di studiare un
sistema di allerta per proteggere il territorio americano; progetta una rete che
accoppia radar con computer e coglie, in questa circostanza, l'importanza
dell'approccio sistemico per concepire e controllare degli insiemi molto complessi di
interazioni che comportano l'intervento di uomini e macchine.
Nel 1952, Bateson, anche lui in una prospettiva sistemica, lancia il suo progetto
di ricerca sulla comunicazione a Palo Alto e nel 1954, un biologo, Ludwig Von
Bertalanffy, crea un'équipe di ricerca che tenta di inglobare la cibernetica in una
pratica più vasta: lo studio generale dei sistemi.
Appare così chiaro come si siano unite tra loro discipline distanti e come
quest'unione abbia avuto come sfondo la comune volontà di comprendere il
funzionamento dell'uomo.
5.2 La nozione di sistema
94
La nozione di sistema è una nozione generale di cui sono state date numerose
definizioni. La più usuale è: “Insieme d'elementi talmente in interazione che una
qualsiasi modificazione di uno di loro comporta una modificazione di tutti gli altri”.
Si tratta di una definizione estremamente ampia, che può essere applicata
praticamente ad ogni fenomeno. Portiamo subito un esempio: la cellula di un
organismo vivente può essere considerata come un sistema; costituisce una totalità
che obbedisce a delle regole precise, mantiene la sua organizzazione interna
nonostante il flusso d'energia e di materiali che la attraversano.
Per assicurare la permanenza della sua struttura e delle sue funzioni la cellula
ricorre a degli agenti di trasformazione, gli enzimi, che sono dei catalizzatori che
controllano l'attività cellulare, e agli acidi nucleici che contengono le informazioni
necessarie all'assemblaggio delle proteine e degli enzimi e alla riproduzione della
cellula. E' anche provvista di molecolesegnali che permettono le comunicazioni.
Una membrana assicura il filtro della comunicazione con l'esterno e controlla le
entrate e le uscite di energia e di informazioni. Il meccanismo di controllo dell'attività
cellulare è realizzato da “repressori” che bloccano o sbloccano l'informazione che
proviene dagli acidi nucleici.
Così la cellula appare come un sistema autoregolato, trasformatore d'energia,
capace in ogni momento di equilibrare la sua produzione in funzione del consumo
interno e all'energia di cui dispone.
Da quest'esempio si possono ricavare le caratteristiche essenziali di un sistema:
Anzitutto presenta una struttura composta di un limite, che separa il sistema dal
suo ambiente, e da elementi che possiedono certe proprietà e che sono legati tra loro
da una rete di comunicazione che consente la circolazione d'energia, di materie e
d'informazioni tra gli elementi.
- Un sistema ha anche un aspetto funzionale. Il funzionamento è assicurato da alcuni
flussi d'energia, d'informazioni o d'elementi che percorrono il sistema e assicurano la
sua conservazione, la sua autoregolamentazione, la sua riproduzione e il suo
adattamento all'ambiente.
La maggior parte di queste funzioni implica lo scambio d'informazioni e in particolare
un'informazione sullo stato del sistema stesso e del suo ambiente; questo ruolo è svolto
da cicli di retroazione (o feedback) che assicurano l'ordinamento dei processi funzionali.
95
Vi sono delle “entrate” (input), che sono il risultato dell'azione dell'ambiente sul
sistema e delle “uscite” (output), che corrispondono alle azioni del sistema
sull'ambiente. I cicli di retroazione rinviano anche delle informazioni che, a loro volta,
provocheranno in uscita altre azioni o trasformazioni rivolte verso l'interno o l'esterno
del sistema.
Fig. 5.1
Queste caratteristiche possono essere generalizzate per ogni sistema, sia si
tratti di una cellula, che di una vettura, di un'azienda o di una città.
La teoria generale dei sistemi non riguarda soltanto i sistemi meccanici,
biologici o sociali, ma può essere applicata anche alle relazioni di un individuo con
l'ambiente esterno, senza per questo significare una visione meccanicista dei fenomeni
umani.
Se, quindi, ci si propone di elaborare un'analisi sistemica delle relazioni umane,
gli oggetti che costituiscono gli elementi del sistema saranno gli individui in
interazione, e i loro attributi saranno le loro azioni e le loro reazioni.
E le relazioni tra gli oggetti saranno le interazioni che si sviluppano tra gli
individui presi in considerazione. La nozione d'interazione è, dunque, una nozione
centrale di un procedimento sistemico.
Suggerisce l'idea di un ciclo in cui le reazioni di B influenzano a loro volta A e
dove ciascun comportamento dei protagonisti svolge, secondo il punto di vista che si
adotta, il ruolo di stimolo/risposta (o di rinforzo) in rapporto al comportamento degli
altri.
L'interazione implica la comunicazione, ma quest'ultima va intesa in senso
ampio: può essere verbale o non verbale; in una situazione di presenza simultanea e
96
di relazione, ogni comportamento, sia esso vocale, essenziale o posturale, assume un
valore comunicativo.
In questa prospettiva, si può definire l'interazione come una sequenza di
messaggi scambiati da alcuni individui in relazione reciproca. Un sistema non
s'individua soltanto per le sue caratteristiche interne, ma anche per l'ambiente nel
quale si situa, che si designa con la nozione di situazione. La situazione è l'insieme di
quegli elementi dell'ambiente i cui attributi interagiscono col sistema o ne sono
influenzati.
Così, l'interazione all'interno di un gruppo di persone non sarà la stessa a
seconda che queste persone si trovino in una situazione professionale, in casa di una
di loro o in un locale. Quest'esempio non deve suggerire che la situazione si riduce ad
un quadro materiale; è altresì un quadro simbolico, un insieme di norme culturali e
sociali, un'istituzione nel senso antropologico del termine (vale a dire, l'insieme delle
regole che governano questa o quest'altra situazione d'interazione).
I sistemi umani sono, in generale, dei sistemi aperti, che comunicano in modo
costante con il loro ambiente. Pertanto l'insieme formato da un sistema e il suo
contesto può essere considerato esso stesso come un sistema; per esempio, se si
considerano come sistema le interazioni tra due “contabili” di un'azienda, inserendo
questo “servizio” (la contabilità) nel quadro dell'azienda esso diventa un sottosistema
in rapporto alla totalità.
Vale a dire che abbiamo a che fare con un sistema gerarchico in cui ciascun
livello serve da situazione per il livello inferiore (La “contabilità” è il contesto in cui
s'inscrive, per esempio, la relazione tra i due “contabili”) e da elemento per il livello
superiore (il sistema “azienda” è colto come un'interazione di servizi, tra cui anche la
“contabilità”).
Nella figura sottostante ogni ellisse è un sistema ed è colta la relazione fra il
contabile A, il contabile B e l'ambiente. La conclusione metodologica di queste
osservazioni è che lo studio di un sistema d'interazioni include l'assunzione della
situazione in cui queste interazioni s'inscrivono.
97
Fig.5.2
5.3 La Programmazione Neurolinguistica
Il lavoro iniziato dalla scuola di Palo Alto negli anni '50 ha dato interessanti
sviluppi teorici con i suoi successori, Richard Bandler e John Grinder, sia in campo
neurofisiologico che linguistico, come testimonia Bateson:
“E' uno strano piacere scrivere l'introduzione a questo libro [La Struttura della
Magia] perché John Grinder e Richard Bandler hanno fatto qualcosa di simile a ciò che i
miei colleghi ed io abbiamo cercato di fare quindici anni fa. Il compito era facilmente
definibile: dare origine ad una base teorica appropriata per la descrizione dell'interazione
umana (…).Sono riusciti a fare della linguistica una base teorica e al tempo stesso uno
strumento terapeutico.
Ciò assicura loro un duplice controllo sui fenomeni psichiatrici; essi hanno capito
qualcosa che noi, come vedo oggi, siamo stati sciocchi a farci sfuggire (…).Questa
scoperta sembra ovvia quando l'argomentazione muove dalla linguistica, (…), anziché
muovere dal contrasto culturale e dalla psicosi, come facevamo noi (…) nel 1955 (…) ”
(pp.911).
L’utilizzo della linguistica, e più in particolare della grammatica
trasformazionale di Chomsky, per la definizione delle relazioni umane, ha avuto esiti
chiarificatori in questo campo. Con l'espressione programmazione neurolinguistica
98
s'indica il procedimento fondamentale usato da tutti gli esseri umani per codificare,
trasferire, guidare e modificare il comportamento.
Per Bandler, un linguista, e Grinder, un matematico, il comportamento è
programmato con la combinazione e la disposizione in sequenza delle
rappresentazioni del sistema neurale visioni, suoni, sensazioni, odori e sapori
indipendentemente dal tipo del comportamento stesso.
Neuro sta ad indicare il principio fondamentale secondo cui ogni
comportamento è creato attraverso processi neurologici. Linguistico indica che i
processi neurali sono rappresentati, ordinati e disposti in sequenza, in modelli e
strategie, attraverso il linguaggio e i sistemi di comunicazione.
Programmazione si riferisce al processo d'organizzazione degli elementi di un
sistema (in questo caso le rappresentazioni sensoriali) per il conseguimento di risultati
specifici.
Gli uomini hanno elaborato molti sistemi o modelli per capire l'universo in cui
vivono e operare con lui. Tipicamente ciascun modello si sovrappone in qualche punto
ad altri e può comprendere, al suo interno, modelli minori: così la scienza comprende
la fisica, la biologia, l'oceanografia, la chimica, ecc.
Ogni modello differisce dagli altri per la parte dell'esperienza umana che esso
rappresenta e alla quale dà rilievo, e per il modo in cui organizza e usa il proprio
insieme selezionato di rappresentazioni. Tutti sono simili sotto il profilo del
fondamentale interesse che ciascuno presenta per i risultati del comportamento
umano.
Ogni modello ha lo scopo di individuare schemi costanti d'interazione tra il
comportamento e l'ambiente, affinché il comportamento dei singoli esseri umani possa
essere reso sistematico nella situazione prescelta per conseguire nel modo più efficace,
completo e coerente i risultati adattivi auspicati.
Come organismi costruttori di modelli, noi escogitiamo, tramandiamo ed
estendiamo i nostri schemi culturali, non operando direttamente sul mondo, ma
attraverso interpretazioni codificate dell'ambiente, sperimentando nei nostri sistemi
rappresentazioni sensoriali attraverso la vista il suono, l'odore, il sapore e la
sensazione.
Le informazioni sull'universo esterno (come pure sui nostri stati interni) sono
ricevute, organizzate, unificate e trasmesse per mezzo della nostra rete neurale. Tali
99
informazioni sono quindi trasformate mediante le strategie d'elaborazione interne che
ogni individuo ha appreso. Il risultato è ciò che chiamiamo comportamento.
Fig.5.3
Nella PNL, si definiscono come comportamento tutte le rappresentazioni
sensoriali sperimentate ed espresse interiormente ed esteriormente, di cui vi sia
evidenza da parte di un soggetto o di un osservatore umano di quel soggetto.
Ossia, l'atto di sciare lungo un bel pendio montano coperto di neve e l'atto di
immaginarsi di farlo vanno considerati entrambi comportamenti nella situazione della
programmazione neurolinguistica. Così tanto il macrocomportamento quanto il
microcomportamento, naturalmente, sono programmati attraverso il nostro sistema
neurologico.
Il macrocomportamento è palese e facilmente osservabile, come guidare
l'automobile, parlare, lottare, mangiare, ammalarsi o andare in bicicletta. Il
microcomportamento implica fenomeni più sottili, anche se egualmente importanti,
come il battito cardiaco, il tono di voce, le alterazioni del colorito, la dilatazione delle
pupille ed eventi come vedere mentalmente o avere un dialogo interno.
Certo, non tutti i modelli di comportamento trasmessi culturalmente sono stati
incorporati da tutti i membri della specie umana, ma la maggior parte di noi ne
dispone nei propri sistemi rappresentazionali, così come l'elaborazione di questi
modelli e il comportamento che ne consegue, costituiscono strategie utili alla propria
sopravvivenza.
10
In definitiva, i modelli si conservano o si eliminano in base alla loro capacità
d'adattamento o alla loro utilità come guide di comportamento dei membri della
specie, costituendo un particolare “genoma umano”.
5.4 Un nuovo modello
La programmazione neurolinguistica è una naturale estensione di questo
processo evolutivo con un nuovo modello. E' importante rendersi conto che i modelli,
come quelli sopra citati, non sono qualcosa che sta “laggiù” in qualche luogo, esterno
a noi come individui.
La PNL differisce da altri modelli di comportamento per il fatto di costituire
esplicitamente un modello del nostro comportamento di costruttori di modelli. E' ciò
che chiamiamo un metamodello, un modello dello stesso processo di modellamento. La
costruzione d'ogni modello richiede l'individuazione e la rappresentazione:
1) di un insieme di elementi strutturali
2) di una sintassi
In questo caso gli elementi strutturali sono i dati sensoriali percepiti.La sintassi è
invece l'insieme delle regole che descrivono il modo di unire gli elementi strutturali.
Nei modelli linguistici, per esempio, gli elementi strutturali tipici sono le parole: i
vocaboli scritti e parlati.
La sintassi è il complesso delle regole grammaticali che stabiliscono in che
modo si possano associare le varie parole. La lingua italiana ha un vocabolario
relativamente esiguo, ma nel corso della storia dei parlanti italiani sono state
pronunciate milioni di frasi diverse e milioni d'idee diverse sono state messe in parole.
Ciò è possibile perché le parole possono essere riunite in ordini, sequenze e
forme diverse che forniscono contesti particolari, in cui esse possono evocare un
significato e una significatività unici. Tutti i libri in lingua italiana che mai siano stati
scritti sono composti dalle stesse parole usate più e più volte in ordini diversi; a loro
volta le parole sono ricavate dalle stesse lettere dell'alfabeto, quindi da un
determinato alfabeto e da determinate regole.
10
Secondo la grammatica generativa chomskyana (Chomsky 1957) il significato è
relativo alla forma grammaticale con cui si presenta la frase, e la PNL sottolinea ciò
considerando la forma comunicativa (non solo la grammatica del linguaggio, ma
anche la postura, il tono della voce, …) come retta da regole precise ed esplicite.
Grazie al lavoro di Chomsky (1982) e di altri trasformazionisti (Wall 1972) è
stato possibile elaborare un modello formale per descrivere gli schemi regolari con cui
esprimiamo la nostra esperienza.
I grammatici trasformazionali hanno elaborato un metamodello del nostro
linguaggio, che funge da sistema di rappresentazione per le nostre esperienze, che,
com'essere umani, sono enormemente ricche e complesse. Se il linguaggio deve
adempiere in modo adeguato la propria funzione di sistema rappresentazionale, esso
deve procurarsi una ricca e complessa serie d'espressioni per rappresentare le
esperienze che possiamo avere.
I grammatici trasformazionali si sono accorti che un approccio semantico allo
studio dei sistemi delle lingue naturali attraverso lo studio diretto di questa ricca e
complessa serie d'espressioni sarebbe stato un compito troppo arduo.
Hanno quindi deciso di studiare non già le espressioni in sé, ma le regole per la
formazione delle espressioni stesse (sintassi). Per esempio, tutti coloro che parlano
italiano come loro lingua nativa, fanno una distinzione coerente fra:
(1) Pallide idee verdi hanno il sonno agitato
(2) Agitato sonno il hanno verdi idee pallide.
Anche se il primo gruppo di parole sembra un po' bizzarro, lo si riconosce come
grammaticale o ben formato in qualche modo in cui non sembra esserlo il secondo
gruppo. Ciò che stiamo mostrando qui è che le persone hanno intuizioni coerenti circa la
lingua che parlano, ovvero riescono ad organizzare la loro esperienza in forme
comunicative al di là del significato.
Descriveremo in che modo le intuizioni coerenti che individuiamo nella nostra
lingua siano rappresentate nel metamodello, attraverso la grammatica
trasformazionale. I parlanti nativi hanno due specie d'intuizioni coerenti su ogni frase
della loro lingua.
Essi sanno stabilire come le unità più piccole, quali le parole, si combinino per
formare la frase (intuizioni sulla struttura a costituenti) e anche quale sarebbe la
10
rappresentazione completa della frase (la completezza della rappresentazione logica).
Per esempio, di fronte alla frase:
Io amo Denis
un parlante nativo è in grado di raggruppare le parole in costituenti o unità di
livello più ampio come:
/io / / amo/ / Denis/
Il linguista rappresenta queste intuizioni su ciò che si combina all'interno di
una frase disponendo le parole, che formano un costituente, in quella che si chiama
una struttura ad albero e che si presenta così:
Fig.5.4
La regola è che le parole, che come parlanti nativi raggruppiamo in un unico
costituente, si colleghino allo stesso punto o nodo della struttura ad albero. E' quella
che si chiama struttura superficiale. Il secondo tipo d'intuizioni coerenti, riguarda
quella che sarebbe la rappresentazione completa della sua struttura.
Denis è amato da me
10
Fig.5.5
E' quella che si chiama la struttura profonda. Stiamo mostrando come seguendo
l'idea di Chomsky si possa passare da una forma comunicativa all'altra nell'ambito del
modello trasformazionale, concentrandoci per ora sulla possibilità di analizzare il
linguaggio su diversi livelli e sulle relazioni che li legano.
L'intuizione dei sostenitori della PNL è quella di associare queste trasformazioni
grammaticali ad un corrispettivo significato nel soggetto parlante, senza curarsi nel
contempo del significato che il soggetto associa hai modelli che utilizza, ma osservando le
relazioni usate.
Nel momento in cui associamo le trasformazioni grammaticali(sintassi) ad un
significato(semantica) creiamo un legame logico molto forte. Si passa così da una
grammatica generativa chomskyana ad una semantica generativa di Lakoff in cui i
significati associati alla struttura profonda possono essere derivati con regole da
quella superficiale e viceversa.
Così ogni frase viene analizzata a due livelli di struttura che corrispondono ai
due tipi di intuizioni che hanno i parlanti nativi: la struttura superficiale di tipo
deduttivo, in cui le loro intuizioni sulla struttura a costituenti ricevono la
rappresentazione di una struttura ad albero, e una struttura profonda induttiva, in cui
sono date le loro intuizioni su quella che è la rappresentazione completa delle
relazioni semantiche logiche.
Poiché il modello dà due rappresentazioni per ciascuna frase (la struttura
superficiale e la struttura profonda), spetta ai linguisti stabilire esplicitamente come i
due livelli si colleghino. Il modo in cui essi rappresentano questo collegamento è un
processo, o derivazione, che consiste in una serie di trasformazioni.
10
Una trasformazione è l'enunciazione esplicita di un certo tipo di schema
costante di cui i parlanti nativi riconoscono l'esistenza tra le frasi delle loro lingue.
Confrontiamo per esempio le due frasi:
Io amo Denis
Denis è amato da me
I parlanti nativi riconoscono che sebbene queste strutture superficiali siano
diverse, il messaggio comunicato, o la struttura profonda delle due frasi, è lo stesso.
“Quando gli uomini desiderano comunicare la loro rappresentazione, la loro esperienza
del mondo, formano della loro esperienza una rappresentazione linguistica completa, che
è chiamata struttura profonda. Quando cominciano a parlare, effettuano una serie di
scelte (trasformazioni) relative alla forma in cui comunicheranno la loro esperienza. In
genere queste scelte non sono scelte coscienti. La struttura di una frase può essere
considerata il risultato di una serie di scelte sintattiche effettuate nel generarla. Tuttavia,
quando operiamo queste scelte, il nostro comportamento è regolare e conforme a certe
norme. Il procedere a questa serie di scelte porta alla struttura superficiale, che può essere
considerata la rappresentazione della “rappresentazione linguistica completa” della
struttura profonda” (Gentner 1983, pp.162).
Come possiamo indagare la struttura profonda se ciò che ci viene mostrato è un
risultato finale di una serie di trasformazioni secondo regole a noi sconosciute?
Bandler e Grinder hanno utilizzato una semplice regola di scomposizione della
grammatica superficiale e l’hanno applicata alle frasi dei soggetti, notando che le frasi
erano logicamente incomplete, quasi una forma sintetica della struttura profonda.
Nelle seguenti trasformazioni linguistiche fra terapeuta e paziente notiamo
come da una forma grammaticale superficiale passiamo ad una forma grammaticale
profonda che è associabile ad un significato semantico proprio del paziente.
P Io sono confuso
T Chi ti confonde? (o cosa ti confonde?)
P La gente mi confonde
T Chi ti confonde in particolare? (o quale tipo di persone ti confondono?)
….
10
Il significato proprio del paziente non è interessante hai fini delle
trasformazioni, così se il paziente rispondesse “Sono confuso dai ragni” il terapeuta
non deve concentrarsi sul significato ma sulla forma della frase e preoccuparsi che
questa sia resa in ogni sua parte esplicita con una struttura profonda (“come ti
confondo i ragni o cosa fanno per confonderti?”).
Se il soggetto rispondesse dopo alcune trasformazioni: “Una volta un ragno mi
ha morso quando ero ad un campeggio estivo”, secondo Bandler e Grinder ciò
corrisponde alla struttura profonda della frase “io sono confuso”, in quanto non più
trasformabile.
Appare evidente che la teoria della PNL sebbene muova da quella chomskyana
non vi coincide, visto che ha qualsiasi livello di struttura grammaticale abbiamo anche
un corrispettivo semantico, ovvero il modello neuronale di percezione e di meccanismi
motori è lo stesso usato per il linguaggio (Cap.1).
In ogni modello dobbiamo considerare il significato che il soggetto lega a quel
modello, non nel senso di comprenderlo, ma nel senso di tenerlo in considerazione
come significante per quel modello.
Riepilogando, il sistema neurale (e in particolare il linguaggio umano) è un
modo di produrre rappresentazioni del mondo. Esiste un legame tra ciò che prova un
individuo e ciò che comunica esteriormente; non è importante per noi osservatori il
significato dell'informazione comunicata, quanto la forma con cui viene comunicata.
Questa forma è un modello e può essere trasformato attraverso opportune
regole, che qui non mostrerò, in altri modelli più completi e precisi; la trasformazione
non è semplicemente solo grammaticale, ma contemporaneamente semantica nel
senso che la forma è strettamente legata al significato.
Ed ancora il sistema nervoso, responsabile della produzione del sistema
rappresentazionale del linguaggio, è lo stesso sistema nervoso che produce altri
modelli come il pensiero, la vista, il movimento, ecc).
In ciascuno di questi modelli operano gli stessi principi della struttura nervosa.
Pertanto i principi formali che i linguisti hanno individuato nell'ambito del sistema
rappresentazionale chiamato linguaggio ci offrono un approccio esplicito alla
comprensione di ogni sistema di modellamento umano.
10
La programmazione neurolinguistica mostra come si possano ridurre le
complessità del comportamento umano (al pari del numero infinito delle possibili frasi
ben formate di una lingua) ad un numero finito d'elementi strutturali e ad una sintassi.
Così ogni comportamento è il risultato di sequenze sistematicamente ordinate di
rappersentazioni sensoriali.
Considerando che gli uomini non operano direttamente sul mondo attraverso
continue trasformazioni sensoriali, ci rendiamo anche conto che la “verità” è più una
metafora piuttosto che un criterio di misura assoluto della realtà esterna. I modelli
culturali non esprimono la “verità”, ma prescrivono campi d'esperienza nel cui ambito
il comportamento è organizzato secondo determinanti schemi.
Nella misura in cui si selezionano e si definiscono arbitrariamente gli elementi
strutturali, la sintassi e i limiti di ciascun modello, potremmo considerare i modelli in
genere come metafore.
5.5 L'eleganza del modellamento
Il termine “eleganza” qui si riferisce al numero delle regole e delle distinzioni
che un determinato modello richiede per poter assicurare tutti i risultati per i quali è
stato concepito. Il modello più elegante sarebbe quello che impiega il minor numero
di distinzioni pur riuscendo a garantire una gamma di risultati uguale o superiore a
quella conseguita con modelli di maggiore complessità.
Il passaggio ad una maggiore eleganza di modellamento avviene in due modi:
1) Focalizzando l’attenzione sugli elementi primitivi dell’esperienza, per
esempio, nella PNL le cinque categorie dell'esperienza sensoriale (vista, udito, tatto
olfatto e gusto, a cui viene aggiunta anche quella cenestesica, o propriocettiva) sono la
base delle strategie con le quali originiamo e guidiamo il comportamento.
2) Il modello si orienta assai più nel senso della forma che del contenuto
(intendiamo per “forma” i principi o regole d'interazione tra gli elementi strutturali
che generano i possibili stati o interazioni del sistema). Conoscendo gli elementi
fondamentali e le regole generative di un dato modello di comportamento, qualunque
siano i suoi contenuti, non occorre dedicare anni allo studio dei particolari del
comportamento nell'ambito di ciascun modello per essere in grado di padroneggiarlo.
10
Difatti, con lo sviluppo di modelli più eleganti, si è sempre avuto un progresso
nell'efficacia e nella potenzialità didattica.
Il nostro postulato è che ogni nostra esperienza in atto può essere utilmente
codificata come composta da qualche combinazione di queste categorie sensoriali.
Prendiamo ad esempio una quadrupla ordinata (4pla) d'input sensoriali come forma
generale della nostra esperienza:
Le maiuscole sono le abbreviazioni delle principali fonti sensoriali o sistemi
rappresentazionali che usiamo per la costruzione dei nostri modelli del mondo:
A = Auditivo
V = Visivoimmaginativo
C = Cenestesico
O = Olfattivo Gustativo
Gli esponenti “e” e “i” indicano se le rappresentazioni provengono da fonti
esterne (“e”), come quando guardiamo, ascoltiamo, odoriamo o gustiamo qualcosa
che è fuori di noi, o se sono invece interne (“i”), come quando ricordiamo o
immaginiamo una figura, un suono, una sensazione, un odore o un sapore. Possiamo
anche presentare la 4pla così:
Fig.5.6
Supponendo che in questo momento il lettore stia seduto comodamente in un
posto tranquillo e stia leggendo da solo, si può usare la 4pla per rappresentare così la
sua attuale esperienza del mondo:
10
Fig.5.7
La specifica 4pla rappresenta l'esperienza del lettore, dove lo spazio vuoto (0)
indica la mancanza d'esperienza in quella modalità. In altri termini, l'attuale
esperienza del mondo del lettore è rappresentata da una descrizione dell'input visivo
originato dalle parole, dalle sue attuali sensazioni cenestesiche e dalle sensazioni
olfattive disponibili.
Poiché supponiamo che il lettore si trovi in un luogo esterno, il valore della
variabile V, C e O sono specificati da una descrizione dell'input proveniente dal
mondo che in questo momento si sta ripercotendo sul lettore.
Possiamo servirci della 4pla per rappresentare la sua esperienza totale ossia la
sua attuale esperienza in corso indipendentemente dal fatto che essa abbia origine o
meno nel mondo esterno. La distinzione può essere fatta agevolmente con la
collocazione di un esponente su ogni elemento della 4pla: una “i” (per l'origine
interna) o una “e” (per l'origine esterna).
Supponendo quindi che in questo momento il lettore stia leggendo con un
dialogo interno, e ricorrendo agli esponenti che distinguono le componenti di origine
interna da quelle di origine esterna, la 4pla del lettore assumerà questa forma:
10
le parole stampate (e), la sensazione (e), le qualità (i), l'odore (e),
del libro, i giochi della sedia, di ritmo e tono della stanza,
di luce la temperatura del dialogo la freschezza
della stanza….. la stanza…… interiore….. dell'aria
Nella PNL i sistemi sensoriali hanno una rilevanza funzionale assai maggiore di
quella a essi attribuita dai modelli classici in cui i sensi sono considerati meccanismi
passivi di input. Le informazioni o distinzioni sensoriali ricevute attraverso ciascuno di
questi sistemi mettono in moto e adattano i processi comportamentali e l'output
dell'individuo.
Ogni categoria percettiva forma un complesso sensomotorio che diviene
responsabile, nel senso di capace di dare certe risposte, per classi di comportamento. Tali
complessi sensomotori sono chiamati in PNL sistemi rappresentazionali. Ogni sistema
rappresentazionale forma una rete tripartita:
1) Input
2) Rappresentazione/elaborazione
3) Output
Il primo stadio, l'input, riguarda la raccolta delle informazioni e la ricezione di
feedback da parte dell'ambiente, tanto interno, quanto esterno. Lo stadio di
rappresentazione/elaborazione comprende la costruzione della mappa dell'ambiente e
l'instaurazione delle strategie comportamentali, come l'apprendimento, la presa di
decisioni, l'accumulo delle informazioni, ecc.
L'output è la trasformazione causale del processo di rilevamento
rappresentazionale. In questo ambito s'intende per comportamento l'attività in
qualunque di questi stadi che rientra in qualsiasi sistema rappresentazionale.
Gli atti di vedere, ascoltare o avere sensazioni sono comportamento. Lo è anche il
“pensare” che, se scomposto nelle sue parti costituenti, comprenderebbe specifici
processi sensoriali come vedere mentalmente, ascoltare un dialogo interno, avere
sensazioni su qualcosa e così via.
Ogni output, naturalmente, è comportamento: da microcomportamenti, come i
movimenti laterali degli occhi, il cambio di torno di voce e del ritmo del respiro, ai
macrocomportamenti, come un litigio, una malattia o un calcio al pallone.
11
Nella programmazione neurolinguistica chiamiamo strategie gli schemi formali di
queste sequenze.
Fig.5.8
Immaginiamo un giovane in camice bianco, seduto comodamente, con la luce
del sole che si riversa da un'alta finestra sul suo lato destro e alle sue spalle. Alla sua
sinistra un libro con la copertina a carattere in argento.
Guardandolo meglio, ne vediamo lo sguardo assorto su un gran foglio bianco,
le pupille dilatate, i muscoli facciali sciolti e immobili, quelli delle spalle leggermente
tesi mentre il resto del corpo è in riposo. Respira poco profondamente, di petto e in
modo regolare. Chi è questa persona?
Stando a questa descrizione, potrebbe essere un fisico nell'atto di osservare una
serie di complesse espressioni matematiche riguardanti i fenomeni fisici che egli vuole
capire. Ma quanto si è detto potrebbe altrettanto bene riferirsi ad un artista che stia
creando delle vivide fantasie visive per la preparazione di un quadro ad olio.
11
Oppure quest'uomo potrebbe essere uno schizofrenico, talmente preso in un
mondo di fantasticherie interne da aver perduto ogni contatto con il mondo esterno.
Ciò che accomuna i tre uomini è il fatto di impiegare lo stesso sistema
rappresentazionale, di seguire delle immagini visive interne.
Ciò che li distingue l'uno dall'altro è il modo di utilizzare questa ricca
esperienza interiore d'immagini. Può darsi che ad un certo momento il fisico vada da
un collega e traduca le proprie immagini in parole, comunicando attraverso il sistema
auditivo di costui qualche nuovo schema scoperto nelle proprie visualizzazioni.
L'artista può afferrare il foglio bianco e cominciare a tracciarvi col pennello forme e
colori, molti dei quali tratti direttamente dalle proprie immagini interiori, traducendo
l'esperienza interna in esperienza esterna.
Lo schizofrenico può continuare il suo sogno ad occhi aperti lasciandosene
assorbire completamente, tanto che le immagini che crea lo distoglieranno dal
rispondere alle informazioni sensoriali che giungono dal mondo esterno.
Il fisico e l'artista differiscono dallo schizofrenico per la funzione delle loro
visualizzazioni nel contesto della sequenza delle attività del sistema
rappresentazionale che influiscono sul risultato del loro comportamento: nel modo di
utilizzare le visualizzazioni.
Il fisico e l'artista possono scegliere di seguire visivamente il mondo esterno o
quello della loro esperienza interna. Sotto il profilo neurologico, il processo con cui si
crea l'esperienza visiva interna è identico per i tre uomini.
Di per sé una rappresentazione visiva può essere tanto una limitazione quanto
una risorsa per la potenzialità umana, secondo il modo in cui si adegua al contesto e
di come si usa. Il fisico e l'artista controllano il processo; mentre lo schizofrenico n'è
controllato.
Per il fisico e per l'artista il fenomeno naturale della visualizzazione appartiene
alla categoria delle variabili di decisione; per lo schizofrenico, alla categoria della
variabili ambientali.
5.6 La sinestesi
11
L'esistenza di sequenze ordinate di rappresentazioni, che chiamiamo strategie,
presuppone delle reti interconnesse di attività a livello neurologico. Le connessioni
incrociate fra complessi di sistemi rappresentazionali, per cui l'attività di un sistema
dà l'avvio all'attività di un altro sistema, sono chiamate sinestesi.
Udire un tono di voce aspro e sentirsi a disagio è un esempio di sinestesi
auditivocenestesica. Vedere il sangue e provare nausea sarebbe una sinestesi visivo
cenestesica. Essere arrabbiati e rimproverare verbalmente qualcuno dentro di sé
sarebbe una sinestesi cenestesicoauditiva.
Ascoltare della musica e immaginare una bella scena sarebbe una sinestesi
auditivovisiva. Se cerchiamo nella letteratura troviamo molti esempi di sindromi
sinestesiche, una per tutte quella descritta da O. Sacks (1985) in L'uomo che scambiò
sua moglie per un cappello.
Gli schemi sinestesici costituiscono gran parte del processo con cui gli uomini
rendono significativa la loro esperienza. Le correlazioni tra le attività dei sistemi
rappresentazinali sono alla radice di processi complessi come la conoscenza, la scelta
e la comunicazione.
La capacità e la perizia che gli uomini dimostrano nei settori e nelle discipline
più vari sono il risultato diretto delle connessioni incrociate che si stabiliscono tra i
complessi rappresentazionali neurali.
Le maggiori differenze tra individui in possesso di capacità, ingegno e abilità
diversi sono dovute alle correlazioni sinestesiche nell'ambito dei loro particolari campi
d'esperienza. Appare evidente allora come il nostro comportamento a livello
macroscopico, sia formato dall’interagire di precise sequenze d'input sensoriali, che si
relazionano tra loro.
Nel precedente capitolo abbiamo mostrato come questo relazionarsi sia non
computabile. Questo vuol dire che tentare di comprendere il nostro comportamento come
una serie ricorsivamente ordinata di elementi strutturali e di regole ricorsive che li
relazionano è scorretto.
La PNL mette ben in mostra quest'aspetto sviluppando la nozione d'inconscio. Il
nostro comportamento è solo la punta di un iceberg della nostra attività; è vero che
utilizziamo un determinato linguaggio, ma questo è solo una forma sintetica della
nostra attività mentale.
11
Infatti, sebbene la PNL consideri molte varianti metodologiche per la soluzione
dei problemi dei pazienti da parte degli psicoterapeuti, non si può negare che una
parte essenziale viene svolta dall'ipnosi.
In questo caso l'ipnosi è uno strumento che permette un contatto con la parte
incosciente del soggetto e con la sua struttura profonda (Erickson M., Rossi E., Rossi
S. 1979, Bandler 1981).
Come abbiamo visto una strategia, è una serie di 4ple che si sovrappongono,
nella quale, in ciascuno stadio, agisce su ogni 4pla un operatore attraverso i segnali
d'accesso e gli schemi sinestesici, conferendo ad un dato sistema rappresentazionale
più significatività comportamentale che agli altri.
Gli esiti di questo processo determinano quale sarà la 4pla successiva che verrà
innescata o ancorata, quale la sequenza delle 4ple e, in definitiva, quale risultato
comportamentale ne conseguirà. Possiamo illustrare tale processo così:
Fig.5.9
La precisione con la quale, passando per i vari stadi di una strategia,
sintonizziamo o calibriamo i nostri sistemi neurali e fisiologici per accogliere le
informazioni provenienti da un particolare sistema rappresentazionale determinerà la
misura della sovrapposizione o interferenza degli altri sistemi rappresentazionali.
Certo, talvolta la sovrapposizione delle informazioni provenienti da sistemi
rappresentazionali diversi può essere utile e importante, come nei test pluri
rappresentazionali.
Molte persone sovrappongono i segnali d'accesso per agevolare la
combinazione sinestesica di due sistemi rappresentazionali o il processo sinestesico
del passaggio dall'uno all'altro sistema. Può accadere però che questo genere di
sovrapposizione porti ad ostacolare o trascurare informazioni importanti provenienti
da un particolare sistema rappresentazionale.
11
Non è affatto necessario avere coscienza di tutte le fasi di una particolare
strategia perché esse entrino in azione. Avviene, anzi, il contrario: quanto più abituale
e inconsapevole diventa un comportamento, tanto più sicuro è il fatto che lo abbiamo
incorporato completamente.
Nella programmazione neurolinguistica la coscienza è considerata il semplice
risultato dell'intensità relativa all'attività che ha luogo nei nostri sistemi
rappresentazionali. Più che un'entità in se stessa (come altri la concepiscono), è
un'indicazione della misura in cui viene usato un particolare sistema
rappresentazionale.
La PNL la tratta come una proprietà emergente dell'attività del sistema neurale,
non come un iniziatore di tale attività. Dire che la nostra coscienza o consapevolezza
ha controllato o influenzato il nostro comportamento sarebbe come dire che le
proprietà di “umidità” o “formazione del ghiaccio” hanno controllato o influenzato le
combinazioni delle molecole di HO da cui le proprietà stesse derivano.
La coscienza è piuttosto un effetto collaterale, l'indicazione di parte di ciò che sta
avvenendo durante il processo rappresentazionale.
Abbiamo messo in rilievo che la significatività comportamentale di una data
rappresentazione sarà stabilita dalla sua intensità rispetto a quella di tutte le altre
rappresentazioni in atto. Sosteniamo che una rappresentazione diventa cosciente solo
se raggiunge un certo livello d'intensità. Tuttavia questo ci dice ben poco sulla sua
significatività comportamentale.
Fig.5.10
Il diagramma rappresenta delle ipotetiche fluttuazioni d'intensità nel tempo dei
tre sistemi rappresentazionali fondamentali. A provocare tali fluttuazioni
contribuiscono i segnali d'accesso e i collegamenti neurali sinestesici.
11
La linea centrale indica la soglia della coscienza. Le rappresentazioni diventano
coscienti solo se la loro intensità supera quel valore. Il diagramma indica che nel
punto 1 il sistema rappresentazionale auditivo ha il più elevato valore relativo di
segnale ed è cosciente.
Nel punto 2 l'intensità relativa più elevata è quella del sistema
rappresentazionale cenestesico. Nel punto 4 il sistema rappresentazionale auditivo ha
di nuovo la massima intensità relativa e quindi la maggiore significatività
comportamentale, ma non ha raggiunto il livello della coscienza.
Analogamente, nel punto 5 il sistema cenestesico assume il controllo principale
ma resta al di sotto del livello cosciente.
Nel punto 6 sono nella coscienza i sistemi visivo e auditivo, ma poiché il primo
ha un segnale leggermente più elevato sarà il più valutato in questa fase. Nel punto 7
riprende il controllo principale il sistema visivo, che resta però fuori della coscienza.
Nel punto 8 i sistemi rappresentazionali visivo e cenestesico si sovrappongono
fuori della coscienza, forse per l'esecuzione di un test plurirappresentazionale.
In sostanza il diagramma riporta parte di una strategia, che abbiamo suddiviso
o articolato in otto fasi:
Fig.5.11
Quattro fasi sono tuttavia al di sotto della coscienza: la 4, la 5, LA 7 E LA 8. Ma
ciò nulla toglie alla significatività comportamentale di queste fasi. E' importante
sottolineare che la significatività comportamentale è determinata dall'intensità relativa
delle rappresentazioni e di come queste emergono nelle interazioni con il sistema nel suo
complesso.
Una rappresentazione subliminale di bassa intensità in un certo istante
contribuirà pur sempre a stabilire le condizioni generali del sistema e ci potrà
provocare alterazioni, che nell'istante successivo la faranno salire o faranno salire
qualche altro sistema rappresentazionale alla più elevata intensità relativa.
Se i valori di segnale sono sufficientemente ravvicinati, si può avere una
risposta multipla. Ciò accadrebbe nel caso di chi dicesse: “Sì”, ma al tempo stesso
11
scuotesse inconsciamente la testa in un: “No”. Due strategie possono avere luogo
simultaneamente, provocando, se nessuna di esse ha abbastanza forza, risposte scisse
e incongruenze di comportamento.
E' qui che assume importanza la calibrazione. Siccome la significatività
comportamentale è funzione di valori di intensità, può anche avvenire che l'attività di
un sistema rappresentazionale, pur raggiungendo la coscienza, resti relativamente non
significativa. E' il caso illustrato da questo diagramma:
Fig.5.12
Esso ci mostra che il sistema rappresentazionale cenestesico, cioè il senso
legato all'equilibrio fisico e alla percezione corporea in generale, pur avendo raggiunto
un livello d'intensità sufficientemente elevato per entrare nella coscienza, si è
stabilizzato con variazioni minime rispetto agli altri sistemi rappresentazionali.
Poiché in questo caso i segnali dei sistemi rappresentazionali visivo e auditivo
presentano variazioni di maggiore ampiezza, sia reciprocamente sia nei confronti del
sistema cenestesico, sarà la loro attività ad avere il maggiore effetto comportamentale
relativo.
L'individuo che si trovi in questo stato sarà pienamente cosciente delle proprie
sensazioni, ma i suoi principali processi interni avranno luogo per la maggior parte al
di sotto del livello della consapevolezza.
Le strategie e le rappresentazioni che avvengono al di sotto di tale livello
costituiscono quello che spesso viene definito l'inconscio. Ciascun essere umano è
sottoposto continuamente a una quantità enorme di informazioni, in parte dovuta al
nostro contatto con le parti del mondo esterno che riusciamo a percepire con i nostri
canali sensoriali.
11
La mole delle informazioni forniteci dalla nostra esperienza in atto supera di
gran lunga la nostra capacità di percepire la regolarità o le costanti insite nella nostra
esperienza e di elaborare dentro di noi programmi per far fronte al mondo a livello di
comportamento inconscio.
Per esempio, la capacità di leggere e capire proprio questa frase è un
programma che in una certa epoca della nostra vita non riuscivamo a eseguire.
Abbiamo dovuto imparare a riconoscere dapprima le lettere, poi le parole e
infine i sintagmi e le frasi. Ciascuna di queste fasi comportava appropriati schemi
specifici di scansione oculare. Imparare ad associare un certo input visivo con
l'insieme dei significati da esso rappresentati è stato un compito relativamente lungo e
arduo.
La capacità di leggere rapidamente e di cogliere il senso del testo dipende in
gran parte dalla capacità di porre inconsciamente in azione questi schemi di basso
livello della scansione oculare e del riconoscimento delle lettere.
La maggior parte della nostra esistenza quotidiana è occupata dalla messa in
atto di schemi di comportamento inconscio estremamente complessi. La nostra
capacità di impegnarci nelle attività che ciascuno di noi trova interessanti e piacevoli
andrebbe in gran parte perduta se non fossimo in grado di programmarci per attuare
un'esecuzione, a livello comportamentale inconscio di schemi di comportamento
complessi (pensiamo all'ingombro enorme della nostra esperienza se fosse necessario,
per esempio, mantenere consciamente il ritmo e l'ampiezza della respirazione, il tono
muscolare, il livello di zucchero nel sangue…).
Il processo di creazione dei programmi che ci sono utili, cioè il processo
d'apprendimento, è un processo di cambiamento in corso, e lo definiamo
modellamento. Esso avviene ad un livello di comportamento tanto cosciente quanto
inconscio.
Il processo di apprendimento con cui capiamo e parliamo la nostra
madrelingua è un esempio di processo di modellamento inconscio. Il processo di
apprendimento attraverso il quale impariamo a leggere e a scrivere è un esempio di
modellamento cosciente.
Osserviamo tuttavia che anche nel caso del modellamento cosciente molto di
ciò che si impara riguarda la disposizione sequenziale e l'organizzazione di schemi di
11
comportamento di livello inferiore di cui già disponiamo sul piano comportamentale
inconscio.
Per esempio, ai bambini che imparano l'ortografia non si insegna
esplicitamente a formare immagini mentali delle parole che stanno imparando, cioè a
impiegare le loro strategie di visualizzazione, eppure gli scolari che sanno compitare
meglio usano inconsciamente questa facoltà.
L'atleta che si allena sui 100 metri sta imparando a disporre in sequenza e a
utilizzare schemi di movimento muscolare che già possiede a livello di
comportamento inconscio. La sua capacità di correre i 100 metri alla massima velocità
dipenderà in gran parte dalla sua capacità di rendere inconsci gli schemi con i quali
dispone in sequenza proprio gli schemi del comportamento inconscio che già
possiede.
La coscienza è un fenomeno limitato. Specificamente, come uomini, siamo
limitati a rappresentarci nella coscienza un numero finito ed esiguo d'elementi
d'informazione. Nel suo ormai classico articolo "Il magico numero sette più o meno
due", Miller (1956), traccia un accurato profilo dei limiti della coscienza. In sostanza
la sua ricerca lo porta alla conclusione che noi siamo in grado di ospitare nella
coscienza 7 più o meno 2 pezzi (chunk) di informazione alla volta.
Una delle implicazioni di maggiore interesse dell'articolo è che le dimensioni
del pezzo sono variabili. In altre parole, il limite del 7 più o meno 2 non riguarda il
numero dei bit di informazione, ma quello dei pezzi.
Pertanto, con l'oculata selezione del codice con cui organizziamo la nostra
esperienza cosciente, abbiamo un'ampia latitudine entro la quale aumentare la
quantità dei bit d'informazione che ci possiamo rappresentare consciamente. Molto
abilmente Miller resta nel vago quando esamina che cos'è un pezzo d'informazione.
Se assimiliamo il termine pezzo alla nozione di uno schema di comportamento
che non abbia ancora raggiunto lo status d'inconscio, diventa utile l'interazione tra la
funzione della coscienza nel processo d'apprendimento e la scomposizione in pezzi
(chunking).
Quando impariamo a identificare il modellamento (patterning) che avviene
nella nostra esperienza e a rispondervi con sistematicità, riusciamo a rendere inconsce
parti della nostra esperienza che prima dovevano trattare al livello della coscienza.
11
Un pezzo presente nella coscienza è un modellamento o regolarità che è nella
nostra esperienza e che non siamo ancora riusciti a rendere inconscio. Pertanto, agli
inizi dell'apprendimento di un dato compito, le dimensioni del pezzo saranno
piuttosto esigue, in quanto abbracceranno nella nostra esperienza un modellamento o
regolarità relativamente corto.
Quando il pezzo di queste dimensioni consegue lo status di inconscio, la nostra
coscienza è libera di applicarsi a schemi di più ampio livello, che sono costituiti dalla
disposizione sequenziale e dall'organizzazione dei TOTE (TestOperazioneTestUscita)
(Miller, Galanter e Pibram 1960), dai quali sono composti, o di applicarsi al
modellamento in altri sistemi rappresentazionali o settori d'esperienza.
Facciamo un esempio tratto dalla nostra esperienza personale. Quanti di noi a
suo tempo abbiano imparato ad andare in bicicletta ricorderanno come siano stati
complessi gli inizi. Trovatici per la prima volta in sella, siamo stati quasi sopraffatti
dalla quantità delle cose a cui badare: tenersi in equilibrio, spingere i pedali su e giù,
girare il manubrio tenendo d'occhio la direzione era più di quanto non riuscissimo a
padroneggiare e forse nostro padre o un amico ci reggeva la bicicletta per il sellino in
modo da permetterci di badare soltanto a pedalare e a sterzare.
Se poi eravamo tra i fortunati che erano già in possesso di un programma di
“pedalamento” inconscio, dovuto al precedente possesso di un triciclo, il compito si
riduceva a imparare a coordinare la sterzata e la pedalata con l’equilibrio.
Una volta inserite nel nostro comportamento, queste capacità di manifestavano
automaticamente, tanto che, senza neppure accorgerci che nostro padre ci lasciava
andare limitandosi a correrci dietro, proseguivamo imparando a coordinare l'atto di
pedalare e di sterzare con quello di tenerci in equilibrio.
Trascorso un certo tempo, ci eravamo a tal punto programmati per azionare la
bicicletta da escludere dalla coscienza tutti gli aspetti di questo compito, restando così
liberi di goderci il paesaggio o conversare con un compagno di viaggio.
Anche se abbiamo passato moltissimo tempo senza inforcare una bicicletta, il
programma rimane, e se risaliamo in sella ricomincerà a funzionare, e saremo in
grado di riprendere la corsa senza pensare neppure per un istante a tutte le fasi di
questo complesso processo.
Esse sono state suddivise in vari pezzi e disposte in sequenza a livello inconscio
lasciandoci liberi di godere della passeggiata. Se fossero consce dovremmo pensare in
12
ogni istante a pedalare, sterzare, mantenerci in equilibrio e la nostra coscienza
n'avrebbe un tale ingombro da farci persino cadere o sbattere contro qualcosa.
Vi sono individui che nelle loro strategie possiedono test che li obbligano ad
assicurarsi che ogni rappresentazione presente nei vari stadi delle strategie stesse,
raggiunga il valore di segnale necessario per l'accesso alla coscienza.
In qualche caso l'esigenza di segnali così elevati può essere appropriata, ma
essa tende troppo spesso a rallentare il processo perché l'individuo deve continuare ad
operare per aumentare il valore di segnale.
Altri invece si distraggono consciamente per essere sicuri che la strategia abbia
luogo a livello inconscio. Citiamo l'esempio della strategia messa in azione da un
provetto matematico, il quale dava prova di possedere l'insolita capacità di sommare
regolarmente e senza errori lunghissime colonne di numeri (si veda anche Lurija
1979).
Richiesto di spiegare come potesse avvenire una prodezza del genere rispose
che, quando gli veniva presentata una serie di numeri, lui non faceva assolutamente
nulla. Si limitava a farsi l'immagine mentale di una lavagna e a guardarla, sino a
quando su di essa non compariva una mano per scrivere la risposta che egli doveva
semplicemente leggere.
Con questo non vogliamo dire che nel processo d'apprendimento l'attività
interna cosciente non abbia importanza. Nella maggior parte dei casi l'alto valore di
segnale di un particolare sistema rappresentazionale è importantissimo per fissare la
fase iniziale della strategia.
Ma una volta fissato lo schema, la strategia si snellisce se il segnale diviene
abituale. Quanto si è imparato ad andare in bicicletta, per esempio, continuare a
occuparsi consciamente di mantenere l'equilibrio, pedalare, sterzare, ecc. è più
d'impaccio che d'aiuto.
Riassumiamo ora ciò che abbiamo esposto in questo capitolo. Innanzitutto la
trattazione del problema uomo come sistema aperto sottolinea l'importanza della
comunicazione; questa avviene attraverso la creazione di modelli e metamodelli,
definiti come l'organizzazione dei dati sensoriali percepiti dall'essere umano.
La creazione di linguaggi, permette all'individuo di comunicare con se stesso e
con i suoi simili, attraverso l'uso e la creazione di nuovi modelli, così da utilizzare le
proprie risorse in maniera costruttiva.
12
Un modello è una metafora, e ha, rispetto alla realtà, lo stesso rapporto che
esiste tra la mappa e il territorio, serve cioè a muoversi in una realtà altrimenti
difficilmente definibile e gestibile (Lankton 1980). Il linguaggio come metamodello
tiene in considerazione non tanto l'esperienza vissuta, quanto la semantica della sua
organizzazione attraverso rapporti fra le varie esperienze.
Questo avviene perché, data la mole dei dati sensoriali e il loro continuo
ingresso nel sistema uomo, hanno bisogno di una loro interpretazione per essere
utilizzati, e come abbiamo visto l'interpretazione è formata dall'insieme di 4ple
percepite.
Il legame fra la struttura profonda e quella superficiale è dato da una prospettiva
dimensionale. Infatti, se le relazioni fra i dati sensoriali sono dimensioni non
computabili, qualsiasi altro rapporto successivo fra i modelli e i metamodelli, come
formati da dati sensoriali, è sempre di tipo non computabile.
Come abbiamo visto nel precedente capitolo esistono delle matematiche (come
quella fuzzy, ma non solo), che trattano i concetti come insiemi aperti che si
sviluppano su più dimensioni permettendo così di applicare quelle operazioni logiche
proprie di un linguaggio naturale, come la coesistenza di più concetti nello stesso
termine e il passaggio da un concetto all'altro senza contraddizioni, ma anzi con una
certa fluidità del sistema.
Non conta che la nostra realtà sia per la maggior parte inconscia, e che questi
processi avvengano oltre la soglia della nostra coscienza, così da non essere
controllabili; quello che è importante, come sottolinea Lakoff, è che sia possibile
indagare il linguaggio in questa direzione, quella cioè che esista un possibile legame
tra le percezioni sensoriali e i concetti usati nel linguaggio.
Vedremo allora nel prossimo capitolo di concludere questo nostro viaggio nella
mente dell'uomo, riassumendo le nostre conclusioni nel quadro generale della teoria
concettuale delle metafore.
12
Capitolo 6Lakoff, una visione d'insieme
Solo lo sciocco guarda il dito che indica la luna.Proverbio cinese
Nel primo capitolo avevamo esposto la tesi di Lakoff riguardo la sua visione
della “mente incarnata” e la teoria “concettuale delle metafore”. Le tematiche sviluppate
riguardavano la possibilità di riprodurre con strumenti informatici la complessità di
un linguaggio metaforico, seguendo il ragionamento che l'informazione elaborata dal
cervello attraversa il sistema nervoso e quindi simulando questo con reti informatiche
è possibile ricreare il passaggio tra la sensazione corporea e il concetto (come hanno
mostrato i modelli di Regier, Bailey e Narayanan).
Questa prova della “fisicità” della mente, in quanto modello di rete neurale,
subisce però le stesse limitazioni a cui è soggetto questo tipo di software come
abbiamo mostrato nel secondo capitolo; allora abbiamo cercato di superare queste
limitazioni con un nuovo punto di vista (coerente con la teoria di Lakoff e Grady) in
cui, dopo aver descritto il funzionamento del neurone e di conseguenza del sistema
nervoso, abbiamo concentrato la nostra attenzione sui concetti di computabilità
effettiva e di sistemi aperti.
Appurato che la nostra rete nervosa funziona in maniera pluridimensionale, si
è tenuto conto delle caratteristiche del linguaggio metaforico, cercando una
matematica adatta alla sua descrizione (la logica fuzzy) e un modello fisico in cui
fosse applicata (la PNL).
Riprenderemo ora le tre principali intuizioni di Lakoff e Johnson in Philosophy
in the Flesh e le arricchiremo alla luce delle considerazioni esposte nei capitoli
precedenti.
6.1 La mente è interamente fisica
12
La mente è interamente fisica nel senso che il passaggio dell'informazione dal
mondo esterno attraverso il sistema nervoso è da intendersi come l'insieme di regole
fisiche e biologiche con cui la nostra rete neurale interagisce con se stessa e il mondo
esterno.
Fisiologicamente è riduttivo pensare che la “mente” sia formata solo dal
sistema nervoso centrale (il cervello), perché questa è formata anche dal sistema
nervoso periferico che si estende per tutto il corpo.
Ci sono molte prove del forte legame tra cervello e corpo ne citerò una per
tutte; Hamer (Hamer 1998) ha dimostrato che non esiste alcuna prova dell'esistenza
di sostanze cancerogene in quanto non è possibile provocare tumori su organi le cui
connessioni nervose con il cervello sono state tagliate (organi trapiantati) e che le
sostanze inoculate agli animali per indurre il cancro non inducono nulla se non c'è
l'intervento del cervello.
Esse possono distruggere, avvelenare ma non indurre il tumore. Le radiazioni
distruggono le cellule ma non provocano i tumori.
Fig.6.1
Quest'interazione fra sistema nervoso e l’ambiente in cui agisce porta a un
cambiamento di prospettiva secondo Lakoff & C: una prospettiva “fisica” in cui il
12
soggetto umano è ciò che il suo corpo sperimenta del mondo a qualsiasi livello, sia nel
compiere un'azione sia nel pensare un'idea.
Il termine “oggettivo” quando ci riferiamo alle funzioni inerenti il sistema
nervoso (linguaggio, pensiero, apprendimento, …) è inadatto e sostituibile secondo
Lakoff con “fisico”, perché ogni uomo nella sua esperienza è solo e irripetibile, sia per
gli input che riceve dal mondo esterno sia per come li organizza.
Dal punto di vista dei singoli neuroni la percezione sensoriale di input esterni è
soggettiva, in quanto pertinente trasporto dell’informazione propria di ogni singolo
individuo; è inoltre legata all'interazione dell’informazione con se stessa, con il
sistema nervoso (il flipper neuronale) e con l’ambiente attraverso l'esperienza e il
tempo (§ 1.4 esempio percettivo della banana).
Fig.6.2
Così anche la percezione delle funzioni superiori del sistema nervoso è “fisica”,
perché formata da “sommazioni” d'informazioni. Ciò non toglie che tutti gli esseri
umani, utilizzando lo stesso apparato percettivo, abbiano le medesime percezioni, ma
consente di dire che l'organizzazione interna al sistema nervoso dell'informazione ha
la possibilità di essere gestita diversamente da individuo ad individuo, aumentando la
possibilità di creare nuovi modelli.
Questo passaggio da oggettivo a fisico è secondo Lakoff da intendere come un
salto di qualità nella visione filosofica dell'uomo; la mente è interamente fisica, la sua
struttura è comune a tutti gli esseri con lo stesso sistema nervoso, ed è comune il suo
funzionamento, ma non è comune la sequenza di input che vengono inseriti e la loro
organizzazione.
12
Essendo i concetti derivati dalle percezioni fisiche e formati attraverso strutture
neurali, anche il linguaggio e i concetti in esso usati vengono creati e influenzati
dall'esperienza soggettiva.
Cerchiamo di focalizzare l'attenzione su quest'aspetto, quando parliamo con
un'altra persona noi utilizziamo un linguaggio formale che contiene una serie di
concetti e di metafore il cui significati profondo non è condiviso dall'ascoltatore e
difficilmente può esserlo anche se quest'ascoltatore ha convissuto con noi la stessa
esperienza, perché il suo modo di viverla cioè di percepirla sensorialmente e di
“sommare” le percezioni tra loro è diverso da persona a persona.
Lakoff sottolinea come la rete neurale “costruisca” o faccia “emergere” dalle
percezioni che riceve dall'ambiente una struttura di relazioni, una mappa per il
territorio percettivo. Questa mappa è al tempo stesso neurale e semantica, nel senso
che, come mostrato nel § 1.6, si formano quelle scene primarie che creeranno le
metafore primitive, e queste creeranno a loro volta metafore d'ordine superiore.
Contemporaneamente abbiamo la formazione di modelli in quanto
l'informazione è trasportata dalle medesime strutture nervose; questo significa che la
differenza fra una metafora per Lakoff e un modello della PNL consiste solo
nell'ambito in cui le utilizziamo, sia questo il linguaggio o un ambito cognitivo.
Un esempio di quanto mostrato applicato alle intelligenze artificiali è contenuto
nell'ultimo libro di Hofstadter (1995) in cui si affrontano i temi dei concetti fluidi e
delle analogie creative, attraverso la creazione di sistemi con una struttura linguistica
profonda e una superficiale, sviluppato al CNR di Trento.
Il COPYCAT è un programma progettato per essere in grado di scoprire
analogie penetranti in modo realistico, dal punto di vista psicologico. La sua
architettura è emergente nel senso che il suo comportamento emerge da una miriade
di piccoli atti computazionale attraverso la variazione delle attivazioni dei nodi e a
loro volta la variazione di stimolazione ai nodi vicini, in questo modo la rete si
comporta in maniera attinente alla situazione, in misura maggiore delle reti PDP
classiche.
Anche se questo modello rimane ancorato ad una concezione connessionistica
della rete, si evidenzia come un funzionamento ad alto livello possa essere derivato
dall'interagire di parti tra loro, così similmente dovrebbe accadere nel nostro sistema
nervoso; l'informazione viene organizzata in modelli che non sono rigidi e controllati
12
da sovra programmi, ma fluidi e derivati direttamente dalla struttura che li registra e
li contiene.
L'informazione, così inserita nel sistema, è paragonabile ad un'onda sul mare,
che si somma alle altre onde del mare con continuità, formando il sistema mare.
Quando comunichiamo ognuno di noi ha delle “onde” ed un “mare” proprio pur
tuttavia avendo una struttura neurale comune.
Fig.6.3
Ogni persona si costruisce una mappa del territorio diversa da quella di un'altra
persona a seconda dell'organizzazione delle sue percezioni (la sua esperienza) e di
come queste sono state organizzate in metafore (a seconda dell'importanza che gli è
stata data nella situazione vissuta); così ad esempio osservando il linguaggio
matematico possiamo dire che tutti siamo portati a recepire i numeri e le operazioni
attraverso un'esperienza simile, tuttavia accade che alcune persone siano portate più
di altre.
Secondo una spiegazione coerente con la PNL e il linguaggio metaforico, la
ricezione dei dati, cioè delle leggi della matematica, crea modelli (o metafore) alcuni
dei quali sono migliori di altri. Se ad esempio uno studente cerca di risolvere un
calcolo utilizzando un modello non adeguato, come quello usato per compiere uno
sforzo fisico, cercando di sentire i numeri dentro di lui, compierà uno sforzo maggiore
rispetto a quello che li immaginerà visivamente come scritti su una lavagna (§ 5.6).
Così può accadere che ad un certo punto della storia della matematica, pur
avendo tutti lo stesso background, ci sarà un modello adatto per risolvere l'equazione
12
di Fermat e questo lo avrà un matematico che avrà organizzato i suoi dati in maniera
innovativa.
Ricapitolando: secondo Lakoff & C. l'uomo utilizza la struttura neurale per
organizzare e gestire i dati in entrata dall'ambiente in cui s'inserisce, e lo fa attraverso la
costruzione di schemi, modelli, metafore che poi utilizza per muoversi nel mondo e per
gestire i nuovi dati che implementano così questi schemi. Inoltre le metafore sono
formate dalle stesse strutture sensomotorie del sistema nervoso, ovvero si utilizzano
le stesse strutture per creare sia azioni sia concetti.
6.2 Il pensiero è in gran parte inconscio
Il pensiero è in gran parte inconscio. Un altro aspetto sviluppato da Lakoff
riguarda la non indagabilità dei nostri processi neurali. Infatti, i vari stadi necessari
per la creazione delle metafore non sono direttamente accessibili nell'uomo; se
vogliamo andare a ritroso fino ad arrivare ad una sua forma primitiva e continuando,
se volessimo capire quali sono i dati che hanno fatto emergere questa forma primitiva,
ciò risulterebbe impossibile.
Ovvero il nostro sistema nervoso fa emergere delle mappe per il territorio
d'input che riceve, ma questa “emersione” è data da un'interazione fra piccoli sotto
sistemi (gruppi di neuroni) che a loro volta ne contengono degli altri e degli altri fino
ad ogni singolo neurone.
Ma come abbiamo visto nel capitolo quarto la logica del neurone non è
ricorsivamente enumerabile, quindi non lo è l’intero sistema.
La nozione di inconscio diviene allora una “caratteristica di sistema”, resa
possibile dalla grande capacità di conduzione dell'informazione del neurone e dalla
struttura dell'intero sistema nervoso. Possiamo dire allora che in un sistema
pluridimensionale siffatto si dà maggior risalto al “risultato” e non al processo di
“creazione del risultato”. Tale processo di “creazione” rimane di fatto sconosciuto al
sistema stesso a differenza dei processi coscienti dove l'intero processo è computabile
e algoritmico.
La mole di lavoro che svolge la parte inconscia è notevolmente superiore a
quella cosciente in quanto implica oltre alle funzioni di mantenimento vitale (dalla
12
frequenza del battito cardiaco al rilascio degli ormoni della crescita, …), anche quei
compiti che, svolti con continuità per un certo tempo, possono passare la soglia della
coscienza ed essere svolti inconsciamente.
Similmente, in quanto relativo a tale sistema, il linguaggio metaforico e tutto il
pensiero in generale è in gran parte inconscio, e non possiamo averne cognizione fino
a quando non si manifesta coscientemente.
Sembra evidente allora che la rete neuronale funzioni in maniera indipendente
anche nelle sue parti; non solo l'“incoscienza” è una caratteristica del sistema, ma la
rete è formata da parti così indipendenti tra loro che anche un trauma o una
distruzione di parte del sistema o dei suoi singoli componenti non influenza entro
determinati limiti la risposta cosciente (come mostrano gli studi su lesioni cerebrali di
Damasio 1989).
Un modello matematico di riferimento per tale sistema può essere quello della
matematica fuzzy, che aiuta a vedere le percezioni e i concetti come disposti su più
livelli. Non è l'unica matematica dimensionale, ma l' ho citata perché la tradizione di
ricerca sviluppatasi negli ultimi 2030 anni in Giappone sulle intelligenze artificiali e
non solo (Lakoff 1972) ha evidenziato che utilizzando sistemi misti di funzioni fuzzy e
reti connessionistiche si origina un comportamento semantico della rete.
Ciò equivale a trattare i concetti come strutture logicamente aperte e non
chiuse, come insiemi non delimitabili ma infiniti. In un concetto aperto possono
essercene infiniti e quindi ad esempio possono coesistere nel concetto di “sedia”
infinite sedie, inoltre posso passare da una “sedia” al “mobilio di una casa”, da
“mobili” a “casa”…, o ancora più facilmente smettendo di pensare in maniera lineare,
possiamo passare da un concetto all'altro, come nel quadro d'Escher (Fig.4.18) si
passa da un piano all'altro cambiando contemporaneamente tutti i punti di
riferimento.
Cosa vuol dire questo? Abbiamo visto nel § 4.2 che la possibilità di transitare
da un dominio all'altro in maniera fluida è precluso alle forme di pensiero
computabile, in quanto troppo limitate per compiere tali operazioni senza incorrere in
contraddizione.
Allora la parte cosciente del nostro cervello sembra comportarsi come se
operasse principalmente in maniera computabile, su un substrato inconscio fuzzy o
comunque in ambiente pluridimensionale.
12
Sappiamo che gli input in entrata vengono recepiti come variazioni
dell'informazione percepita, ovvero il flusso di input è continuo e noi notiamo solo le
alterazioni che vengono registrate dai nostri sensi.
Ma la struttura che registra tutto ciò è a sua volta implementata da una
continua attività cerebrale (pensiero, sogni, linguaggio interiore, stati emotivi,
mantenimento delle funzioni vitali) di cui possiamo esserne coscienti solo attraverso
le alterazioni dei normali stati mentali.
Come ho mostrato nel § 5.6 la percezione dei mutamenti ha delle limitazioni, noi
possiamo cioè percepire solo poche variazioni per volta, e ciò fa si che la maggior parte
del nostro pensare e più in generale del nostro vivere sia a noi precluso sotto forma
cosciente, ma sia attivo sotto forma incosciente.
6.3 I concetti astratti sono per la maggior parte metaforici
I concetti astratti sono per la maggior parte metaforici in quanto modelli
cognitivi. Il nostro flusso di pensieri è la conseguenza della nostra attività nervosa, che
si organizza per la maggior parte inconsciamente.
Sappiamo però che questa utilizza delle mappe, delle metafore, e dei modelli,
che ci permettono di gestire la serie d'input che continuamente riceviamo dal mondo
esterno.
Il nostro pensare segue quindi le caratteristiche del sistema nervoso e quindi la
creazione delle metafore è parte di questo sistema. Una metafora è da considerarsi
come una forma aperta e non chiusa e definita; quest'apertura deriva dalla sua intima
natura nervosa, in cui l'informazione viene tradotta continuamente ad ogni passaggio
da un neurone all'altro e su più dimensioni.
Abbiamo visto che il transito dell'informazione avviene attraverso domini
aperti, e abbiamo mostrato come le metafore utilizzate siano derivate da componenti
primitive, che si combinano tra loro. Il concetto di metafora di Lakoff e Grady può
essere allora definito come un insieme di input che si “sommano” fra loro in maniera non
computabile, le cui componenti sono date dagli input sensoriali, e la loro unione crea
“relazioni” fra sistemi aperti.
13
La natura di queste relazioni è lasciata volontariamente vaga in quanto a noi
preclusa perché è lo stesso sistema neurale che decide quali sono le modalità di
relazione dei concetti, sia perché sono operazioni inconsce e sia perché è la struttura
stessa dei neuroni nella sua “fisicità” che relaziona i concetti.
Quindi cercare di ricreare le metafore attraverso modelli connessionistici è un
errore di impostazione teorico, nel senso che se si vuole ricreare dei collegamenti
metaforici primitivi ciò è possibile in quanto le reti possono simulare funzioni
cerebrali semplici; ma esistono dei limiti strutturali e di gestione (§ 2.3), che non
permettono loro di simulare le funzioni elevate del cervello.
I modelli di Regier, Narayanan e Bailey, in quanto simulazioni di funzioni
semplici, sono modelli attendibili, ma pensare che le metafore complesse, come quelle
utilizzate nel linguaggio, possano essere formate dall'aggregazione di questi modelli o
di simili è un errore d'impostazione.
L'aggregazione di scene primarie fino alla formazione di metafore attraverso
quelle primitive è possibile solo se utilizziamo delle simulazioni basate su un ambiente
di sistemi aperti. Questo risulta ancora più evidente se analizziamo il processo di
creazione delle metafore alla luce delle considerazioni della PNL.
E' evidente, infatti, che i primi mattoni dell'esperienza, sia per la PNL che per
Grady, sono formati dalle 4ple e dalle metafore primitive ovvero i modelli.
Riprendiamo allora lo schema di Grady (Fig.2.1):
13
Fig.6.4
Il flusso di percezioni continue che immettiamo nel nostro corpo, viene
strutturato in forme dal nostro sistema nervoso attraverso le 4ple, come abbiamo
visto nel capitolo precedente. Inoltre avevamo descritto le scene primarie come spazi
pluridimensionali che definiscono il dominio di un termine o il campo in cui si muove un
determinato elemento; vediamo che questo coincide con la definizione delle 4ple che
sono pluridimensionali perché il segnale è trasportato attraverso la rete neurale, e
definiscono il dominio di un termine perché contengono tutte quelle informazioni
relative al determinato oggetto.
In seguito l'interazione fra le scene primarie crea una strategia (insieme di 4
ple) e successivamente dall'insieme di strategie (deconflation) si originano le metafore
primitive ovvero i modelli.
Analizziamo ora la metafora:
La vita è un viaggio
13
Questa si pone come l'interazione fra più modelli, quello della vita e quello del
viaggio e il loro dominio aperto è dato dall'insieme di dati sensoriali percepiti che si
“combinano” inconsciamente. A loro volta i nuovi dati creano un modello o recepiti da
uno già esistente s'inseriranno in un insieme di modelli ancora più vasto (fino ai
modelli inerenti la vita e il viaggio) e potrà essere accessibile direttamente dai macro
modelli (la metafora “la vita è un viaggio”).
Il linguaggio metaforico è questo relazionarsi di metafore e di modelli tra loro,
che permette di creare delle inferenze, in cui i contenuti delle metafore sono parte
integrante del sistema e della relazione stessa; non ha senso in questo caso parlare di
contenuto di una metafora in quanto è la stessa struttura neuronale che contiene
l'informazione e che è al contempo dominio della metafora e definisce la relazione che
questa ha con le altre metafore.
Se vogliamo comprendere appieno il linguaggio metaforico che usa il nostro
cervello, sembra riduttivo pensare alle metafore come formate da una forma e un
contenuto relazionati in maniera ricorsiva tra loro, mentre queste sono relazioni non
computabili fra sistemi aperti.
Ovvero la metafora è formata sì dall'architettura della rete che elabora
l'informazione che trasporta, tuttavia nell'istante precedente e successivo alla
metafora, la rete era occupata in altri compiti o era inutilizzata.
L'informazione sembra allora emergere dallo sfondo (Jackendoff R. 1983),
essere utilizzata e ritornarvi successivamente; una metafora come intesa da Lakoff,
dispone dell'informazione pari a quella del sistema, mentre in una metafora classica
come relazione tra forma e contenuto, viene automaticamente definito il dominio.
Per chiarire con un esempio informatico è come se il nostro cervello, risolvesse
un problema costruendo ogni qualvolta un software e un hardware adatto alla
soluzione, e smantellasse i componenti per risolvere il problema successivo,
memorizzando solo la soluzione.
6.4 Una macchina di Turing Universale sovra dimensionale.
13
Concludiamo con una riflessione generale sul linguaggio metaforico. Abbiamo
visto come i software attuali siano inadatti alla riproduzione delle reti neurali (Cap.
4), e abbiamo mostrato una possibilità alternativa per implementare la capacità
d'elaborazione dei computer così da poter simulare un linguaggio metaforico.
Riprendiamo ora un aspetto tecnico a cui avevamo accennato nel § 4.5. I
computer si sono sviluppati seguendo le teorie matematiche di Turing, secondo cui la
massima potenza computazionale è data da una macchina di Turing Universale.
Le generazioni di computer che si sono succedute fino all'attuale quarta (quella
dei personal computer), hanno fatto passi da gigante nella ricerca tecnologica
(miniaturizzazione dell'hardware e incremento della velocità di elaborazione)
cercando di raggiungere così quelle qualità di sistema proprie di una macchina di
Turing Universale come il nastro infinito su cui scrivere e il tempo infinito di
elaborazione.
Ma sebbene più veloci e potenti degli anni '50 fa la matematica (il software)
che li governa ha ancora il limite posto da Turing. Una possibilità di superare questo
limite è data dall'utilizzo di matematiche noncomputabili che operano su più
dimensioni relazionate fra loro.
Tali matematiche equivalgono ad una macchina Universale di Turing che ne
gestisce altre e può, seguendo il suo programma, cancellare gli input provenienti da
atre macchine.
Possiamo allora immaginare una siffatta rete formata da macchine di Turing; si
noti che una macchina di Turing che cancella il segnale di un'altra macchina compie
un'operazione computabile, è il sistema (come prodotto logico fra più macchine) che
diventa non computabile.
13
Fig.6.5
Abbiamo mostrato come nella matematica fuzzy si possano legare due concetti
fra loro, due insiemi aperti, attraverso semplici regole geometriche; similmente una
macchina di Turing Universale è un sistema aperto in quanto infinito e l'unione con
altre macchine, come detto sopra, origina la non computabilità del sistema.
Così abbiamo un primo esempio di simulazione di un linguaggio semantico
attraverso la relazione su due distinte dimensioni di due macchine di Turing
Universali (il “bicchiere mezzo pieno” e il “bicchiere mezzo vuoto”), legate da una
macchina di Turing Universale che opera in una sovra dimensione che ha la possibilità
di cancellare i risultati dell'altre macchine e questo equivarrebbe alla potenza
computazionale della frase il “bicchiere mezzo pieno e mezzo vuoto”.
La figura 4.9 mostra quali sono i punti geometrici significativi e quali no,
similmente la macchina di Turing Universale che codifica la frase completa può
cancellare i punti che non sono significativi, mentre una sola macchina di Turing
Universale si bloccherebbe di fronte alla contraddizione.
13
Fig.6.6
Se questo avviene per una semplice espressione, pensiamo allora alla
complessità di un intero linguaggio: la sua potenza computazionale appare
enormemente elevata.
Quindi se superare la potenza computazionale teorica di una macchina di
Turing Universale sembra possibile, allora ci si prospetta un nuovo limite teorico,
quello formato da una rete di macchine di Turing universali (e quindi da sistemi
aperti con infiniti valori di verità) che si relazionano infinitamente su infinite
dimensioni, entro tale limite opera il nostro cervello.
Una possibilità di descrizione di questo nuovo territorio non computazionale è
dato dalla matematica reticolare, una versione più complessa della matematica fuzzy
dove esiste solo una dimensione con infiniti valori di verità.
Sebbene la creazione d'intelligenze artificiali abbia originato notevoli progressi
tali da rendere reali computer come Al del film di Stanley Kubrick “2001: Odissea
nello spazio”, tuttavia qualcosa sembra ancora mancare per poter parlare di
un'effettiva intelligenza; si pensi allora alle potenzialità che si svilupperebbero
dall'utilizzo della matematica reticolare nei software attuali.
Riassumendo, abbiamo mostrato nel primo capitolo cosa s'intendesse per
linguaggio semantico metaforico, attraverso quella che secondo Lakoff è la prova più
importante della sua teoria, il passaggio simulato in rete dalla sensazione al concetto
utilizzando le strutture sensomotorie e abbiamo analizzato come le metafore che
operano nel linguaggio si formino, e si aggreghino tra di loro, secondo una
grammatica semantica.
13
Nel secondo capitolo abbiamo analizzato la consistenza della rete PDP, quali
sono i suoi punti critici (tra cui i problemi di addestramento e il limite dei 100 passi di
Feldman), e quali sono le restrizioni che s'imponevano al linguaggio metaforico basato
sulle reti neurali così come concepito da Lakoff.
Nel terzo capitolo abbiamo esposto le caratteristiche funzionali della rete
nervosa (principalmente la sua non computabilità, attraverso un paragone diretto con
la rete PDP) e nel quarto una sua possibile simulazione da parte di un computer;
mentre nel quinto capitolo è stato esposto un esempio di linguaggio metaforico non
computazionale, il metalinguaggio della PNL che, pur partendo da una base clinica
può orientarsi nella direzione di una grammatica delle metafore “alla Lakoff”.
In quest’ultimo capitolo abbiamo ripreso la teoria concettuale delle metafore di
Lakoff e Grady rivisitandola alla luce delle considerazioni fatte, non tanto per trarne
delle conclusioni categoriche, quanto per mostrare come le intuizioni di Lakoff, della
PNL, e dell'ultimo connessionismo convergano tutte in un quadro più generale, quello
delle matematiche dimensionali con sistemi aperti.
Tale quadro teorico ritiene valida la possibilità di creare un linguaggio
metaforico attraverso i computer. Tuttavia, per farlo in accordo con le ultime teorie
dell'intelligenza artificiale, è necessario apportare innovazioni sostanziali, in quanto il
software precedentemente usato non ha dato i risultati sperati di simulazione delle
funzioni cerebrali.
Bisogna quindi utilizzare un nuovo software che abbia caratteristiche “umane”,
caratteristiche che sono ben diverse da quelle attualmente usate dai computer. Il
limite imposto dalla macchina di Turing Universale sembra poter essere superato con
macchine di Turing sovra dimensionali, in cui l'utilizzo di una matematica reticolare
rende possibile quelle caratteristiche funzionali proprie del sistema nervoso.
E' auspicabile che una volta che un computer utilizzerà un software con tali
caratteristiche, si potrà parlare di vera intelligenza artificiale.
13
Riferimenti bibliografici
AAVV2000 The emergence of the mind, procedings of the International Symposium, 3031
march, Fondazione Carlo Erba, Milano.Amit D. J.1989Modelling brain function, Cambridge, University Press.Angela P.1983 La macchina per pensare, Garzanti, Milano.Arrighi C.2001 Il confronto fra modelli classici e modelli connessionistici nell’ambito della
scienza cognitiva, Università degli studi di Firenze, tesi di laurea.Asimov I.1968 I, Robot, St. Albans, Herts, Granada, trad. It. Io,robot, Milano, Bompiani,
1984.Bailey D.1997 A computational model of embodiment in the acquisition of action verbs, Ph. D.
Dissertation, University of California, Berkeley.Bandler R.1981 Tranceformations, Real People Press, trad. it. Ipnosi e trasformazione,
Astrolabio, Roma, 1983.Bandler R. , Grinder J. 1975 Practical Magic, Meta Publication, Cupertino, California, trad. it. Magia
Pratica, Astrolabio, Roma, 1989.Bandler R., MacDonald W.1988 An insider's guide to submodalities, Cupertino, Meta Publication, trad. It. Guida
per l'esperto alle submodalità, Astrolabio, Roma, 1991.Bateson G. 1972 Step to ecology of mind, Chandler publishing company, trad. it. Verso
un'ecologia della mente, Adelphi, Milano, 1976.1979Mind and nature a necessary unit, trad. it. Mente e natura, Adelphi Edizioni,
Milano, 1984.Boden, M.1976 Artificial intelligence and natural man, Hassocks, Sussex, Harvester.Cammarata S.1994 Sistemi a logica fuzzy, Etas libri, Milano.Cartesio1637 Disorso sul metodo, Bari, Laterza, 1985.
13
Chomsky N.1957 Syntactic structures, Mouton and Co, Den Haag, trad. it. Le strutture della sintassi, Laterza,
Bari, 1970.1965 Aspect of the theory of sintax, MIT Press, Cambridge, MA, trad. it. Saggi
linguistici, Boringhieri, Torino, 1970.1982 Some concepts and consequences of the theory of government and binding, MIT
Press, Cambridge, MA.
Church A.
1936 An unsolvable problem of elementary number theory, American Journal of Mathematics, 58, pp. 345363.
Churchland P. M
1989 Neurocomputational perspective. The nature of mind and the Structure of Science, trad. it. La Natura della Mente e la Struttura della Scienza, Società Editrice il Mulino, Bologna, 1992.
Cottrell G.W. 1988A connectionist approach to word sense disanbiguation, Pitman Publishing, London.
Copeland B.J.
1997 The ChurchTuring Thesis, The Stanford Encyclopedia of Philosophy (Fall 2001 Edition), Edward N. Zalta.
Damasio H., Damasio A.1989 Lesion analysis in neuropsychology, Oxford University, Oxford.Erickson M., Rossi E., Rossi S.1979 Tecniche di suggestione ipnotica, Astrolabio, Roma.Faconnier G., Turner M.1994 Conceptual projection and middle space, University of California, San Diego.Feldman J. A.1985Connectionist model and their applications: introduction, in “Cognitive Science”,
9, pp.12.Fodor J.A.2001 The Mind Doesn't Work That Way, MIT Press, Cambridge, MA.1986Psychosemantics, MIT Press, Cambridge, MA, trad. It. Psicosemantica, Il Mulino,
Bologna, 1990.Fodor J. A., Pylishyn Z. W.1981 How direct is visual perception: some reflections on Gibson's “Ecological
Approach”, “Cognition”, 9, pp.155170.Gentner D.1983 Structuremapping: a theoretical framework for analogy, “Cognitive Science”,
7, 2, pp.155170.Grady J.1997 Foundations of meaning: primary metaphors and primary scenes, Ph. D.
dissertation, University of California, Berkeley.
13
Gillies D.1996 Artificial intelligence and scientific method, trad. It. Intelligenza artificiale e
metodo scientifico, Cortina Editore, Milano, 1998.
Hamer R. G.
1998 Il capovolgimento diagnostico, la genesi delle malattie e in particolare il cancro, Amici di Dirk, Fuengirola, Spagna.
Hebb D. O.1949 The organisation of behaviour: a neurophychological approach, Wiley, New
York, trad. it. L'organizzazione del comportamento. Una teoria psicologica, Angeli, Milano, 1975.
Hewitt C.1985 Stereotypes as an ACTOR approach towards solving the problem of
procedural attachment in FRAME theories, in Proceedings of theoretical issues in natural language processing, Beranek & Newsman, Cambridge.
Hofstadter D. R.1979 Gödel, Escher, Bach: an eternal golden braid, Basic Books, New York, trad. it.
Gödel, Escher, Bach, Adelphi, Milano, 1988.1995 Douglas Hofstadter end the Fluid Analogies Research Group, Basic Books, New
York, trad. it. Concetti fluidi e analogie creative, Adelphi, Milano, 1996.Hofstadter D. R., Dennett D. C.1981 The mind's I, Basic Books, New York, trad. it. L'io della mente, Adelphi, Milano
1985 da cui è tratto il passo “Preludio e... mirmecofuga”, pp.162.Jackendoff R.1983 Semantic and Cognition, Cambridge, MIT Press, trad.it. Semantica e
cognizione, Il Mulino, Bologna, 1989.Johnson C.1997 The acquisition of the “what's X doing Y” construction, in
Procedings of the twentyfirst annual Boston University conference on language development 2, Cascadilla Press, Somerville, pp.343353.
JohnsonLaird P. N.1989 The computer and the mind, Harvard University Press
Cambrige, Massachusetts, trad. it. La mente e il computer, Il Mulino, Bologna, 1990.
Kandel E. R, Schwartz J. H.1981 Principles of neural science, Elsevier, New York.KarmiloffSmith C.1995 Oltre la mente modulare, Il Mulino, Bologna.Kosko B.1993 Fuzzy thinking: the new science of fuzzy logic, Hyperion, trad. it. Il fuzzy
pensiero, Baldini & Castoldi, milano 1995.Levi Montalcini R.1998La galassia mente, Baldini&Castoldi, Bologna.
14
Lurija A. R.1966Higher cortical function in man, Basic Books, New York.1973 The working brain, Penguin, London, trad. it. Come lavora il cervello, Il
Mulino, Bologna, 1977.1979 Viaggio nella mente di un uomo che non dimenticava nulla, Armando, Roma.Lakoff G.1970 Linguistic and natural logic, University of Michigan, Ann Arbor,
Michigan.1972 “Hedges: study in meaning criteria and the logic of fuzzy concepts”, in Papers
from the eighth regional meeting of the Chicago linguistic society, University of Chicago, Chicago.
1987 Women, Fire, and Dangerous Things, University of Chicago Press, Chicago.
Lakoff G., Johnson M.1985 Metaphors We Live By, University of Chicago Press, Chicago. 1999Philosophy in the flesh, Basic Books, New York.La Mettrie J. O. de1747 L'homme machine, trad. L'uomo macchina, Edizioni Feltrinelli, 1955.Lankton S.1996 Practical magic, Meta Publication, Cupertino, California, trad. it. Magia
pratica, Astrolabio, Roma, 1989.McClelland J.L. 1979 On the timerelations of mental processes: an examination of systems of
processes in cascade, in “Psychological Review”, 86, pp.287330.
McClelland J.L. , Rumelhart D. E. 1985 An interactive activation model of context effect in letter perception: I. An
account of basic findings, in “Psychological Review”, 88, pp.375407.1986 Parallel distributed processing, MIT press, Cambidge, trad. it. PDP
microstruttura dei processi cognitivi, Il Mulino, Bologna, 1991.Miller G. A.1956The magical number seven, plus or minus two, in “Phychological Review”, 63,
pp.8197.Miller G. A.,Galanter E., Pibram K.1960 Plans and the structure of behavior, Holt, Rinehart and
Winston, New York, trad. it. Piani e struttura del comportamento, Angeli, Milano, 1984.
Minsky M.1975 A framework for representing knowledge, in The psychology of computer
vision, McGrawHill, New York, pp 211277.Minsky M.L., Papert S.1969 Perceptrons, MIT Press, Cambridge.Nagel E., Newman J.R.1958 Gödel’s proof, New York University Press, New York, trad.it. La prova di Gödel,
Ed. Boringhieri, Torino, 1961Narayanan S.1997 Embodiment in language understanding: sensorymotor representation for
metaphoric reasoning about event descriptions, Ph. D. Dissertation, University of California, Berkeley.
14
Neisser U.1967 Cognitive Psicology, Appleton, New York, trad. it. Psicologia cognitivista,
Firenze, Giunti, 1976.Norman D. A., Bobrow D. G.1975 On datalimited and resourcelimited processes, in “Cognitive Psicology”, 7,
pp.4464.Odifreddi P.2000La matematica del ‘900, Enaudi, Torino.2000(1) Il computer di Dio, Cortina, Milano.Parisi D.1990Intervista sulle reti neurali. Cervello e macchine intelligenti, Il Mulino, Bologna.Penrose R. 1990 La mente nuova dell'imperatore, Edizioni Rizzoli, Milano, 1990.Peruzzi A.1981 Un mondo di sistemi, “Rivista di Filosofia”, 20, pp.335339.1996 Orme nel silicio, orme nella storia, in “Paradigmi” anno XIV, N.42, settembre
dicembre, Schena Editore.1995An essay on notion of schema, Kluver Academic Publishers, Amsterdam.Piaget, J.1952 The origins of intelligence in children, International University Press, New York,
trad. It. La nascita dell’intelligenza nel bambino, Firenze, La nuova italia, 1973.Regier T.1996 The human semantic potential: spatial language and constrained connectionism,
MIT Press, Cambridge.Rosemblatt F.1958 The perceptron, a probabilistic model for information storage
and organization in the brain, in “Psychological Review”, 62, pp. 386398.
Rumelhart D.E.1977 Toward and interactive model of reading, in “Attention and Performance VI” ,
Hillsdale, Erlbaum, New York.
Sacks O.1985 The man who mistook his wife for a hat, Oliver Sacks, trad. it. L'uomo che
scambiò sua moglie per un cappello, Adelphi, Milano, 1992.Schwartz M.F., Marin O.S.M., Saffran E.M.1979 Dissociations of language function in dementia: A case study, “Brain and
Language”, 7, pp. 277306.Schank R.C., Abelson R.P.1977 Scripts, Plans, Goals and Understanding, John Wiley and Sons, New Jersey.Searle J.R. 1987 Minds, Brains and Programs, “The Behavioral and Brain
Sciences”, 3, pp.417424, trad. it. Menti, cervelli e programmi, un dibattito sull'intelligenze artificiali, ClupClued, Milano, 1984.
1996La costruzione della realtà, Edizioni Comunità, Milano.
14
Smolensky P.1986 Information processing in dynamical system: fondation of harmony theory, in
“McClelland and Rumelhart research group”, vol. I, trad. it. Il connessionismo tra simboli e neuroni, Il Mulino, Bologna, 1992.
Tabossi P.1988 Intelligenza naturale e intelligenza artificiale. Introduzione alla scienza
cognitiva, Il Mulino, Bologna.Turing A.M.
1936 On computable numbers, with an application to the Entscheidungsproblem, Proc. London Math. Soc., Ser. 2, 42, pp. 230265.
1937 Collected works of A.M. Turing: mechanical inteligence, Elsevier science publishers, New York, trad. it. Intelligenza meccanica, Bollati Boringhieri, Torino, 1994.
Wall R.1972 Introduction to mathematical linguistics, PrenticeHall, Englewood Cliffs, New
Jersey.Zadeh L.1992The calculus of fuzzy ifthen rules, “A.I.Expert”, march.
14