Facoltà di Lettere e Filosofia - Alessandro Geloso€¦ · sistema che percepisce il mondo fisico con i suoi organi di senso, che organizza ed elabora l'informazione nel proprio

Università di Firenze

Facoltà di Lettere e FilosofiaCorso di laurea in Filosofia Teoretica

Modelli informatici e linguaggio metaforico.

Di Alessandro Geloso

Relatore: Marino Rosso

Corelatore: Alberto Peruzzi

Controrelatore: Alessandro Pagnini

Anno 2000

1

Indice

Prefazione 4

Capitolo 1 Lakoff e la filosofia nella carne

6

1.1 La filosofia nella carne 6

1.2 L'inconscio cognitivo 8

1.3 Prototipi essenziali 9

1.4 I modelli di T. Regier, D. Bailey, S. Narayanan 11

1.5 La Teoria Concettuale delle Metafore di Lakoff 15

1.6 La Teoria delle Metafore Primitive di Grady 16

Capitolo2Il Connessionismo

22

3.1 Il cervello è un emulatore della realtà 22

3.2 Come apprende la rete 28

3.3 Pregi e difetti del connessionismo 33

Capitolo 3La Neurocomunicazione

41

3.1 Come trasporta il segnale la cellula neuronale 41

3.1.1 La struttura della membrana 46

3.1.2 La costante di spazio λ 46

3.1.3 La zona d’innesco 48

3.2 La trasmissione dell’informazione nei nodi delle reti PDP 51

3.3 Il confronto fra i due modelli (neurone e nodo) 54

3.3.1 Gli stimoli inibitori 54

3.3.2 Il caso della sommazione sinaptica 56

Capitolo 4La non computabilità e i sistemi aperti

58

4.1 La macchina di Turing non computabile 58

4.1.1 I problemi P e NP 59

4.2 I sistemi aperti 66

4.2.1 La logica fuzzy 66

4.3 Il teorema di Gödel come prova dell’esistenza di altre dimensioni 68

4.3.1 Entscheidungsproblem 68

4.3.2 Una porta su altre dimensioni 70

4.4 Il sistema nervoso come un flipper, il cervello come un’orchestra 73

2

Capitolo 5La scuola di Palo Alto

78

5.1 Gli uomini e le idee di Palo Alto 78

5.2 La nozione di sistema 80

5.3 La Programmazione Neurolinguistica 83

5.4 Un nuovo modello 85

5.5 L'eleganza del modellamento 90

5.6 La sinestesi 94

Capitolo6Lakoff, una visione d'insieme

103

6.1 La mente è interamente fisica 103

6.2 Il pensiero è in gran parte inconscio 107

6.3 I concetti astratti sono per la maggior parte metaforici 108

6.4 Una macchina di Turing Universale sovra dimensionale 111

Bibliografia 115

3

Prefazione

In questa tesi abbiamo cercato di affrontare un argomento così vasto, come

quello del linguaggio metaforico, focalizzando l'accezione che né dà George Lakoff

nella sua ultima opera.

Con una decisa scelta di campo ci siamo occupati solo di quello che ci sembrava

promettente ai fini di un'analisi obiettiva dell'argomento e di una nuova visione delle

metafore, tralasciando altri approcci che, per quanto legittimi, ci avrebbero condotto

in altre direzioni.

Sono stati tralasciati anche aspetti importanti della concezione in esame come

il contrasto fra Lakoff e Noam Chomsky, le differenze della tradizione cognitivista,

vari elementi del connessionismo, così come il legame tra il connessionismo e il

pensiero di Piaget (a cui si fa solo un breve accenno).

Tutto questo è stato il risultato di scelte, criticabili forse, ma dirette ad

affrontare un argomento con una visuale di più ampio respiro, cercando di seguire

una direzione ben definita e delimitata.

Le tematiche sviluppate riguardano la possibilità di riprodurre con mezzi e

strumenti informatici la complessità di un linguaggio metaforico.

Per far questo abbiamo esposto nel primo capitolo l'argomento così come

proposto da Lakoff e da Joe Grady, secondo gli studi della N.T.L. (Neural Theory of

Language), un gruppo di ricerca dell'International Computer Science Institute

all'Università di Berkeley in California (http://www.icsi.berkeley.edu/NTL/).

Questo gruppo di lavoro ha elaborato una proposta secondo cui il

modellamento neurale con reti informatiche è una prova della fisicità della mente,

poiché si usa lo stesso meccanismo sia per la creazione dei concetti che per la

simulazione di percezioni o di meccanismi motori.

Vorrei sottolineare come in questa tesi si ponga in evidenza la teoria dei diversi

modelli neurali presentati e non tanto il loro effettivo funzionamento attraverso un

programma specifico.

Abbiamo esposto nel secondo capitolo il funzionamento delle reti informatiche

e in particolare i modelli connessionistici (PDP) di Rumelhart e McClelland,

4

http://www.icsi.berkeley.edu/NTL/

discutendo quegli aspetti che sono problematici per qualsiasi tipo di rete così

strutturata.

Il connessionismo, soprattutto quello delle reti PDP, è da prendersi come

quadro generale; in realtà le tipologie delle reti sono varie, ma il nostro obiettivo non

era quello di fare una storia dei diversi programmi d'intelligenza artificiale, quanto

quello di mettere alla prova il loro funzionamento per capire e contestualizzare le loro

limitazioni.

Nel capitolo terzo abbiamo invece illustrato come funziona la trasmissione

dell'informazione a livello neurale, paragonandola con l'informazione trasportata

nelle reti PDP e nel quarto capitolo abbiamo esposto le caratteristiche funzionali

della rete nervosa, principalmente la sua non computabilità e una sua possibile

simulazione da parte di un computer attraverso un modello matematico fuzzy che

si prestasse alla produzione di metafore.

Questo tentativo è da intendersi come propositivo. Il suo scopo è

principalmente quello di mostrare le differenze sostanziali fra una rete neurale

naturale ed un'artificiale.

Nel capitolo quinto abbiamo ampliato la prospettiva fuzzy integrandola con

una nuova e stimolante teoria, la PNL, che dà, a nostro avviso, una più adeguata

visione di quello che Lakoff chiama il “pensare metaforico”.

La motivazione principale per cui abbiamo scelto questa teoria e non altre, è

perché oltre ad essere relativamente poco indagata, sembra capace di notevoli

applicazioni pratiche.

Nell'ultimo capitolo riprendiamo la teoria concettuale delle metafore di Lakoff e

Grady rivisitandola alla luce delle considerazioni fatte, non tanto per trarne delle

conclusioni categoriche, quanto per mostrare come le intuizioni di Lakoff, della PNL, e

dell'ultimo connessionismo convergano tutte in un quadro teorico più generale, che si

apre a nuovi studi della mente.

5

Capitolo 1Lakoff e la filosofia nella carne

“ Siamo esseri neurali, i nostri cervelli ricevono input dal resto del corpo.I concetti che usiamo per pensare sono formati dalla struttura

e dal funzionamento del nostro corpo.Possiamo pensare solo quello che ci permette il nostro cervello fisico.”

George Lakoff

1.1 La filosofia nella carne

Negli ultimi trent'anni gli studi sul cervello umano e sulla sua fisiologia hanno

portato alla luce nuove ed importanti scoperte, secondo le quali sembra prendere

piede una prospettiva diversa di indagine della cognizione umana. Questa nuova

prospettiva è ancora più evidente quando c'interessiamo al linguaggio. Nella

tradizione più recente si sono contrapposte due idee del linguaggio: come formato da

precise regole grammaticali (la “grammatica generativa” di Chomsky) o come formato

da precise regole semantiche (la “semantica generativa” di Lakoff).

Queste posizioni contrastanti non sono più in contraddizione come le ritengono

i loro autori, ma diventano due aspetti coesistenti del linguaggio. Esamineremo nel

presente lavoro di tesi come ciò sia possibile, mostrando come le ultime riflessioni di

Lakoff sul linguaggio metaforico coincidano con la teoria della PNL (un metodo

basato sulla grammatica generativa chomskiana), attraverso lo sviluppo delle attuali

interpretazioni cognitive.

George Lakoff, dal 1972 professore di Linguistica all'Università di California a

Berkeley, rappresenta ad oggi uno dei più interessanti studiosi di questa nuova

prospettiva delle scienze cognitive. L'indagine di Lakoff si occupa principalmente del

linguaggio, di come questo possa avere origine dall'uomo e di come la sua struttura

fisica implichi delle funzioni superiori come pensare, fare associazioni d'idee, costruire

modelli.

6

Questi studi mostrano come si possa passare da un insieme di neuroni eccitati da

percezioni esterne, alla formazione di parole e di come queste si combinino con senso

nelle frasi di un discorso. Per far questo Lakoff e i suoi collaboratori (in seguito Lakoff

& C.) hanno delimitato il loro campo d'indagine, considerando l'uomo come un

sistema che percepisce il mondo fisico con i suoi organi di senso, che organizza ed

elabora l'informazione nel proprio sistema nervoso che agisce sul mondo fisico

attraverso il corpo.

Tale delimitazione di campo fa sì che il rapporto funzionale tra i vari neuroni

nell'uomo, la fisiologia del sistema nervoso, assuma il ruolo particolarmente rilevante

in questi studi.

Lakoff e Johnson (1999), nel loro ultimo libro Philosophy in the Flesh, mostrano

come si possa passare teoricamente dall'impulso neurale alle parole ed ai concetti,

ponendosi alcune domande: come può il cervello fisico funzionare come una mente? Il

nostro cervello è formato da enormi complessi e altamente strutturati network di

neuroni, come fa questa struttura intricata a creare i concetti? Esattamente quali

neuroni servono per fare ciò e perché? Come può il sistema neurale utilizzare nel

linguaggio i concetti?

I tentativi di rispondere a queste domande formano il lavoro della N.T.L.

(Neural Theory of Language), un gruppo di ricerca dell'International Computer

Science Institute all'Università di Bekerley in California in cui collaborano dalla fine

degli anni '80 diversi ricercatori, guidati da Jerome Feldman, Lokendra Shastri e

Lakoff.

Il gruppo N.T.L. segue l'idea di Feldman di creare una struttura

connessionistica mentale per le funzioni altamente specializzate del cervello,

attraverso una simulazione al computer del funzionamento dei neuroni. L'impresa

centrale del gruppo è stata e continua ad essere tutt'oggi quella di provare la natura

fisica dei modelli neurali, specialmente l'acquisizione e l'uso del linguaggio secondo la

“grammatica cognitiva”; il connessionismo, cioè l'elaborazione di modelli basati su reti

neurali, diventa allora il collegamento centrale fra struttura fisica, linguaggio e

pensiero.

La finalità di queste ricerche è di comprendere come sia possibile il funzionamento

del cervello e non tanto quali sono le strutture nervose adibite a tale funzionamento,

perché è importante innanzi tutto valutare la possibilità che si possa passare da una

7

funzione di basso livello come una percezione sensomotoria ad una d'alto livello come la

formazione di parole, concetti e in generale del linguaggio. Il cambiamento di

prospettiva che questo gruppo ha evidenziato con il suo lavoro, è riassunto da Lakoff

nelle seguenti affermazioni:

La mente è interamente fisica.

Il pensiero è in gran parte inconscio.

I concetti astratti sono per la maggior parte metaforici.

Queste tre asserzioni sono destinate secondo l'autore a modificare

notevolmente la visione dell'uomo e della realtà che questo percepisce e di

conseguenza la stessa ragione viene pensata come “incarnata” e resa fisica nel senso

che le tesi seguenti cercheranno di analizzare:

- La ragione non è più incorporea come una lunga tradizione ha ritenuto, ma deriva dalla

natura e dalla fisica del nostro cervello; gli stessi meccanismi neurali che ci fanno

percepire e muovere nel mondo creano anche il nostro sistema concettuale e i nostri

modi di ragionare.

- La ragione non è solo evolutiva ma utilizza gli stessi schemi di neuroni che sono

presenti, anche se meno sviluppati, negli animali; esiste in altre parole un darwinismo

della ragione.

- La ragione non è universale in senso trascendente; l'unico aspetto d'universalità è la

capacità dei nostri corpi d'avere esperienze fisiche.

- La ragione non è completamente cosciente, ma per la maggior parte incosciente.

- La ragione non è puramente letterale, ma soprattutto metaforica ed immaginativa.

- La ragione non è indipendente dalle emozioni, ma è essa stessa emozionale

1.2 L'inconscio cognitivo

La scienza cognitiva, per quanto questa disciplina sia relativamente nuova (si

parla di scienza cognitiva dal '70) ha aumentato notevolmente la nostra conoscenza

dei processi mentali. Una di queste scoperte è che la maggior parte della nostra mente

è inconscia, non in senso di “repressa”, ma nel senso che opera necessariamente sotto il

8

livello della coscienza. Gestire l'informazione senza il controllo della coscienza, non è

una qualità della mente, una sua possibilità, ma è un aspetto fondamentale del suo

funzionamento. Questo indica che gli strumenti che abbiamo utilizzato fino ad ora per

studiare la parte cosciente, mal si adattano a quell'inconscia.

Per fare un esempio pensiamo agli automatismi nei lavori complessi, come

guidare la macchina. Non dobbiamo costantemente tenere sotto controllo cosciente

quello che facciamo. La pressione esercitata sul pedale del freno, spingere il pedale

della frizione, girare il volante di tanti gradi quanti necessitano per fare una curva,

accelerare premendo il pedale con una pressione adeguata ad operare un sorpasso,

cambiare le marce in rapporto al rumore di giri del motore.

La nostra guida si presenta fluida e automatica, senza il controllo diretto della

nostra parte cosciente, che può anche essere intenta a parlare al passeggero, ad

ascoltare la radio, a riflettere sugli impegni della giornata. In questo caso parliamo

d'inconscio cognitivo, e vedremo in seguito di definirlo meglio, come opera e qual è la

metodologia d'indagine più appropriata.

Come la maggior parte della nostra mente è inconscia nell'utilizzo che ne

facciamo quotidianamente, lo è anche quando la utilizziamo nella trattazione della

metafisica. La nostra mente utilizza la parte incosciente per descrivere i concetti come

l'io, il tempo e lo spazio, la causalità, l'esistenza, la morale e lo fa attraverso l'uso di

metafore inconsce, il linguaggio dell'inconscio cognitivo. Parlare di metafore inconscie

significa pensare a relazioni fra concetti la cui base è inconscia e le cui implicazioni

possono risultare anch'esse inconscie.

Mentre, secondo una lunga tradizione filosofica, i concetti avevano una loro

realtà indipendente ed oggettiva, secondo Lakoff & C. i concetti hanno l'unica

oggettività di essere utilizzati dagli esseri umani, ma non è dato sapere i perché e i per

come del loro utilizzo, come spiegheremo nel successivo paragrafo.

Una delle vie possibili per indagare l'inconscio cognitivo è data dallo studio

della struttura neurale in cui si formano i concetti: il punto di partenza di questo studio

è il modellamento neurale, inteso come lo studio delle configurazioni di neuroni che sono

necessari per sviluppare una funzione umana (vista, tatto, colori, linguaggio…). In

quest'approccio ci si pone una domanda fondamentale: può la ragione servirsi di

pattern tratti dai sistemi sensomotori? In altre parole, possono le inferenze razionali

9

essere computate dalla stessa architettura usata nella percezione e nei movimenti

corporei? Può una serie di sensazioni formare un concetto?

La ricerca in questo campo ha suffragato l'ipotesi che è possibile che la ragione

sia fondamentalmente corporea, che le strutture della coscienza non siano separabili

dalla percezione sensoriale e più specificatamente dal nostro apparato sensomotorio;

e la struttura del nostro cervello, formata dall'evoluzione e dall'esperienza, non può

più essere trascurata dalla scienza cognitiva.

È importante introdurre un altro concetto riguardo alle strutture neurali, la

specializzazione. Siamo esseri con un cervello altamente specializzato; l'occhio umano

ha 100 milioni di cellule fotosensibili, ma al cervello arrivano solo un milione di

connessioni visive, quindi l'alto numero di informazioni in entrata vengono ridotte nel

trasporto da cellula a cellula. La specializzazione così intesa non è indagabile

direttamente dalla parte cosciente del nostro essere, ma dobbiamo utilizzare

strumenti esterni.

Se accettiamo le categorie e i concetti, che utilizziamo nel linguaggio e nel

nostro pensiero, come formati dalla nostra esperienza e dalle connessioni di neuroni,

dobbiamo allora accettare anche la loro “incoscienza” e quindi ricercare strumenti

d'indagine adeguati. Quelli che noi chiamiamo concetti sono qui definiti come

prototipi, una struttura neurale e quindi fisica, che ci permette di svolgere la funzione

dei concetti.

Un esempio di prototipo ideale è quello capace di individuare quelli elementi

standard che formano il concetto ideale di marito o di sedia. Il nostro ragionamento si

basa sull'uso dei prototipi nelle loro diverse tipologie, alcune dei quali saranno

mostrate di seguito; esistono, infatti, dei prototipi di base che sono una sorta di scala

di misura, come un sistema di riferimento linguistico, prototipi “essenziali” categorie

primitive, così come intese da Lakoff e da Joe Grady.

1.3 Prototipi essenziali

Le inferenze concettuali possono essere associate ad inferenze sensomotorie, in

altre parole i nostri concetti sono derivati dalle nostre strutture neurali, come ad

esempio nella percezione dei colori. La nostra esperienza relativa ai colori è basata su

10

quattro fattori due esterni e due interni a noi: la lunghezza d'onda della luce riflessa,

le condizioni ambientali della luce, i tre coni del colore della nostra retina e il

complesso circuito neurale connesso a questi coni.

Prendiamo ad esempio un oggetto target come una banana; la luce che riflette

è la combinazione di tutte le frequenze d'onda della luce fuorché quelle che sono

assorbite dal frutto. Se la banana viene però illuminata con una luce fluorescente o la

esponiamo alla luce del giorno o a quella della luna piena, cambia il suo colore così

come le condizioni della luce diffusa nell'ambiente. Tuttavia il nostro sistema visivo

compensa in certa misura queste variazioni permettendoci di vedere lo stesso giallo in

condizioni ambientali diverse.

Quando le radiazioni elettromagnetiche colpiscono la nostra retina e i coni del

colore n'assorbono le radiazioni, è prodotto un segnale elettrico che è elaborato dal

nostro cervello e ci permette di vedere. La percezione del colore rientra nella

prototipo “giallo” in una posizione che può essere più o meno centrale o sfumata

secondo l'intensità del segnale nel circuito neurale.

Perciò i prototipi dei colori sono derivati: da un'interazione fra gli oggetti che ci

circondano, dalla nostra percezione di questi oggetti e dalla nostra elaborazione

(come viene trasportato il segnale all'interno del cervello). La realtà non ha niente

d'oggettivo in senso classico, ma esiste solo in questa continua interazione di parti.

Alcuni particolari prototipi, oltre che formati in maniera inconscia, possono

relazionarsi, con una specie di tessuto connettivo, ai prototipi più generali che

vengono utilizzati consciamente; questi sono i concetti di relazione spaziale,

rappresentati da ciò che dà conoscenza allo spazio, che sono il cuore del sistema

concettuale di Lakoff (Peruzzi 1997). E' importante sottolineare che queste relazioni

spaziali sono date, non dagli oggetti in sé e per sé, ma dalla nostra percezione.

Davanti ad una chiesa

E' una serie d'elementi linguistici in cui “davanti” non si riferisce alla chiesa, ma

alla nostra percezione che è organizzata attraverso i prototipi di chiesa, di una parte

che noi reputiamo anteriore alla chiesa, e dalla nostra posizione spaziale nei confronti

di questi elementi. Così possiamo esserci noi davanti alla chiesa, mentre guardiamo la

sua facciata, o indicare qualcosa che si trova posizionato davanti ad una chiesa, o può

11

indicare il davanti della chiesa, cioè la sua facciata. Tuttavia in tutti i casi la relazione

può essere resa con la stessa forma linguistica.

L'uso delle relazioni spaziali è continuo nel nostro linguaggio, non indagabile in

maniera cosciente e diverso da linguaggio a linguaggio; ad esempio lo schema

gestaltico container, in cui un elemento A è contenuto in un elemento B che è

contenuto in un elemento C, è uno schema concettuale costantemente applicato (ad

esempio quando pensiamo al caffè contenuto nella tazza, che è contenuta nella

stanza).

Fig.1.1

Un altro esempio di schema concettuale usato è il sourcepathgoalschema, in

cui esiste una traiettoria di movimento da un punto iniziale ad un punto finale e

situazione di movimento su questa traiettoria.

Fig.1.2

Pensiamo ad un lavoro da compiere, formato da vari passaggi in cui siamo ad

un certo stadio, ad esempio costruire una casetta per gli uccelli, temperare una

matita, farsi una doccia. Questi schemi creano strutture che vengono utilizzate in

modo continuo e costante nella costruzione mentale del mondo e sono formati dai

concetti base e dalle relazioni che ne definiscono i rapporti. La percezione spaziale del

12

C

B A

A C

B

nostro corpo è applicata per similitudine anche agli oggetti fuori di noi; “davanti” e

“dietro”, ad esempio sono usati per cani, automobili, edifici…

Gli studi sulle relazioni spaziali da parte della “grammatica cognitiva”, hanno

mostrato che esistono poche relazioni primitive che si combinano con funzioni di

movimento nello spazio (ad esempio l'uso dei concetti verticale e orizzontale).

Tradizionalmente esiste una dicotomia tra percezione e concetto: la percezione è

accettata in questa prospettiva come formata dalle strutture neurali e dagli input che

circolano in queste strutture, mentre l'uso e la formazione dei concetti è vista

tradizionalmente come distaccata dalle abilità corporee di percepire e muoversi.

Nella visione di Lakoff il corpo forgia i concetti, il corpo non è solo percezione, ma

anche formazione dei concetti.

1.4 I modelli di T. Regier, D. Bailey, S. Narayanan

Nei recenti risultati della ricerca dei modelli neurali sui meccanismi della

percezione e degli schemi motori è stato possibile arrivare a risultati sorprendenti nel

ragionamento e nell'apprendimento del linguaggio. È stato provato cioè che la

struttura neurale, è capace di simulare la realtà percepita e di fissarla in un modello

fisico. Questo è il risultato a cui sono giunti i ricercatori del gruppo NTL: il

modellamento neurale come prova dell'esistenza della fisicità della mente, perché un

modello neurale di percezione o di meccanismi motori è lo stesso meccanismo usato per il

lavoro concettuale.

Mostriamo in seguito quali sono state le applicazioni di questi modelli,

rimandando per un più tecnico esame direttamente agli autori.

Il modello di Terry Regier per l'apprendimento dei termini di relazione spaziale

Il primo modello che qui presentiamo è quello di Regier (1996), in cui dato un

modello retinico d'input, con varie configurazioni geometriche in varie configurazioni

spaziali, unita ad una descrizione dettagliata in un dato linguaggio; il modello può

imparare il sistema di concetti di relazione spaziale così che può correttamente

13

classificare nuove configurazioni. Questo avviene sia in casi di configurazioni spaziali

statiche che di movimento.

L'idea di base è di far tradurre al programma i vari termini di relazioni spaziali

del linguaggio con le strutture neurali visive del cervello. I meriti di questo

programma sono notevolissimi, perché le mappe topografiche usate dalle strutture

neurali del campo visivo possono essere usate nella computazione di schemi

d'immagine che hanno proprietà topologiche. Ovvero, l'insieme di cellule

d'orientamento sensitivo è capace di computare gli aspetti d'orientamento spaziale dei

concetti che si riferiscono all'orientamento del corpo. Così il modello di Regier è

simultaneamente sia concettuale sia percettivo.

Il modello di David Bailey della comprensione dei movimenti delle mani

Questo modello permette, non solo di imparare a categorizzare nominandoli i

movimenti delle mani nell'ambito di qualsiasi linguaggio, ma anche di usare

correttamente quei verbi che indicano un movimento delle mani in una simulazione al

computer.

Il cuore del modello di Bailey (1997) sono modelli con schemi di controllo

motorio ad alto livello che operano in tempo reale su circuiti neurali subcorticali,

azionando automaticamente piccoli movimenti di basso livello. Far svolgere un lavoro

a tante piccole subunità gestite da un'unità supervisore è un procedimento spesso

usato in informatica, che consente di ridurre i tempi e facilitare le operazioni svolte

mantenendo la stessa complessità di sistema. Queste subunità usano i parametri degli

schemi di controllo motorio chiamati “Xschemas” (X indica executing).

L'idea del programma è questa: i verbi di movimento delle mani differiscono

considerevolmente da linguaggio a linguaggio, quindi anche la loro categorizzazione è

diversa. Ma se usiamo gli schemi delle sinergie motorie, questo meccanismo può

categorizzare e nominare le azioni, e allora passiamo da un sistema sensomotorio ai

concetti di movimento delle mani. Il successo del modello di Bailey lo dimostra.

Il modello di Srini Narayanan degli schemi motori e delle metafore

14

Narayanan (1997) evidenzia come tutti gli schemi motori abbiano le stesse

strutture di controllo agli alti livelli. Il modello è formato dai seguenti passaggi:

Preparazione

Stato iniziale

Inizio processo

Processo principale (sia istantaneo o prolungato)

Opzione stop

Opzione cancella

Opzione per ripetere o continuare il processo principale

Check degli obiettivi

Fine processo

Stato finale

Questo è un semplice modello informatico della struttura generale degli eventi,

formata da una parte concettuale e una logica, usata per il controllo motorio.

Narayanan ha scoperto che è possibile usare lo stesso programma, sia per controllare i

movimenti del corpo, che per compiere inferenze logiche e lo ha mostrato in un

modello neurale delle metafore concettuali, trovando i casi in cui le metafore motorie

sono state usate in un dominio astratto (ad esempio nell'economia internazionale).

Così frasi come: “L'India perde la sua forza nel commercio”, “La Francia

regredisce mentre la Germania viene su”, evidenziano come le inferenze proprie delle

metafore siano fondate su una proiezione degli schemi motori sui concetti. La mente

come Lakoff afferma attraverso questi programmi sembra quindi incarnata. Ognuno di

questi modelli è una prova dell'esistenza di una mente che opera attraverso una

struttura neurale.

Nei casi mostrati non è importante la corretta riproduzione della realtà

fisiologica (come approfondiremo nei prossimi capitoli), quanto la possibilità che la

realtà e la mente possano avere un'origine fisica, in quanto formate da un sistema di

cellule interagenti. Se secondo Lakoff le funzioni altamente specializzate del cervello,

come apprendimento, linguaggio e pensiero, sono formate da il nostro sistema nervoso

15

che interagisce con input esterni allora studiando attraverso simulazioni la rete neurale è

possibile ricreare il collegamento fra la percezione e la formazione di concetti.

1.5 La Teoria Concettuale delle Metafore di Lakoff

Nella teoria delle metafore di Lakoff e Johnson (1980),la metafora “concettuale

complessa” è analizzata come un tipo di legame tra un dominio concettuale e un altro,

tipo di legame che secondo gli autori utilizziamo costantemente, e che ha un valore

cognitivo oltre che grammaticale. Le metafore sono formate da concetti che si legano

tra loro seguendo una precisa direzione, il concetto di partenza è chiamato source e

quello d'arrivo target. Un esempio di metafora per Lakoff è:

La vita è un viaggio

In cui il viaggio è il source e la vita è il target. In questo contesto bisogna

considerare la metafora concettuale come un modello cognitivo e non solo come

un'unione fra due domini, così possiamo evidenziare i relativi sottomodelli:

Una persona che vive una vita è un viaggiatore

I successi nella vita sono destinazioni

Il modo di vivere è un itinerario

E' facile vedere come molti modi di argomentare sulla vita possano essere

riportati ad un modello o ad un suo sottomodello, e questi ultimi siano formati

direttamente dalla nostra esperienza e dalle caratteristiche fisiche del nostro corpo.

Ogni metafora complessa è costituita da metafore primitive, che derivano

direttamente dalla nostra esperienza percettiva del mondo, in cui il dominio

dell'origine delle metafore (source) deriva dalla struttura del sistema sensomotorio, e

in particolare secondo Lakoff & C dal peso delle sinapsi nelle connessioni neurali.

Le metafore primitive inerenti all'esempio precedente sono:

Le decisioni nella vita sono destinazioni

16

Le azioni sono movimenti

Nella sua ultima versione la teoria concettuale delle metafore proposta da Lakoff

contiene la teoria integrata delle metafore primitive, che si basa sull'apporto combinato

di quattro diverse teorie, che spiegano come le metafore complesse siano formate da

quelle primitive e come quest'ultime abbiano un'origine fisica.

- La Conflation Theory di Johnson (1997)

Un esempio di conflation, fusione, tra due o più percezioni sensoriali, è dato da

una forma linguistica come:

Vedo quello che stai dicendo

Che unisce il vedere all’udire qualcosa. Secondo Johnson questo processo

avviene prima di qualsiasi combinazione metaforica, infatti, presenta questa teoria

suffragandola da uno studio applicato sui bambini, e consiste nella capacità di unire

due domini differenti fra loro. In chiave sensomotoria una qualsiasi azione

complessa è formata da sottoazioni: l'azione di camminare è formata da quella di

muovere i piedi in un certo ordine, l'azione di prendere un oggetto su un tavolo è

formata dalla sottoazione di calibramento d'ogni parte del braccio e del tronco per

raggiungere quell'oggetto.

Per comprendere meglio si pensi al famoso programma del granchio di

Churchland (1989) in cui veniva riprodotto il comportamento sensomotorio della sua

chela unitamente a quello della sua percezione visiva. La percezione visiva “puntava”

un oggetto che veniva “raggiunto” dalla chela, così il granchio riusciva ad afferrare gli

oggetti, e alla base di quest'elementare conflation c'è un semplice programma di

simulazione.

Johnson suggerisce che questo tipo di processo sia applicato fin dall'infanzia per

calibrare i nostri concetti, in quelle che poi diventeranno forme complesse e

metaforiche del linguaggio, attraverso l'unione di più concetti distanti fra loro, ma

legati in maniera fisica.

- La Primary Metaphor Theory di Grady (1997)

17

Secondo questa teoria, il passaggio dalla realtà fisica e complessa della percezione,

ad una realtà apparentemente più semplice come quella del linguaggio e della

coscienza, avviene attraverso la creazione di forme atomiche, in cui si combinano i

dati sensoriali, che formano una specie di sfondo in cui si muovono, in un passaggio

successivo, le metafore più complesse.

- La Neural Theory of Metaphor di Narayanan (1997)

Se le associazioni metaforiche del periodo della conflation, realizzate con schemi

neurali, creano il dominio concettuale che sarà proprio delle metafore, nel modello

costruito da Narayanan, questo processo si traduce attraverso uno stimolo sensoriale

A che attiva un insieme di neuroni B che è connesso a sua volta con altri neuroni di un

altro dominio C. Si crea così la base fisica della metafora.

- La Theory of Conceptual Blending di Fauconnier e Turner (1994)

Secondo Faconnier e Turner due domini differenti si possono unire a particolari

condizioni, attraverso metafore primitive o relazioni completamente nuove rispetto

all'esperienza fisica. Ad esempio:

Se un uomo ama una donna, la rispetta

In questo caso non si ha una conflation, bensì un blending, cioè una mescolanza di

concetti che rimangono ben definiti l'uno dall'altro, in cui:

Un uomo ama una donna

Amare vuol dire rispettare la persona amata

La persona amata viene rispettata

Si uniscono così due concetti “amare” e “rispettare” rimanendo questi ben distinti

l'uno dall'altro.

18

1.6 La Teoria delle Metafore Primitive di Grady

Vediamo ora nel particolare come Grady, collaboratore di Lakoff, propone la

struttura di collegamento fra percezione sensoriale e metafora concettuale.

Fig.2.1

Mentre i nostri sistemi percettivi funzionano 24 ore su 24 e immettono in

maniera continua informazioni nel nostro cervello, le nostre percezioni sono filtrate

dalla soglia della coscienza com'eventi di base (basic event) e si staccano dallo sfondo

delle percezioni assumendo un senso ben definito (Peruzzi 1996). La continua massa

d'informazioni, che il nostro cervello riceve continuamente, è codificata in maniera

tale da essere percepita in strutture cognitive ben definite, tuttavia non le

controlliamo in maniera cosciente.

Per fare un esempio, pensiamo, ad un'informazione fissa che noi riceviamo,

come l'informazione tattile data dall'indossare una camicia ruvida e stretta; se la

indossiamo per un giorno intero, la nostra coscienza registra inizialmente il contatto

19

della pelle con il tessuto ruvido e stretto, ma a fine giornata, pur continuando ad

avere gli stessi input tattili, la percezione sarà sparita dalla nostra coscienza.

Un input tattile è dato dalla soglia d'attivazione dei bottoni sinaptici presenti

nel tessuto epiteliale e la loro continua stimolazione produce sempre lo stesso impulso

nervoso, tuttavia nel percorso dalla pelle al cervello questo stimolo può essere

cancellato. Questo avviene perché le pesature delle connessioni neurali, sono

modificabili, come vedremo meglio in seguito.

Gli eventi di base sono quindi soggettivi, nel senso che, essendo formati da

percezioni calibrate sull'esperienza soggettiva dell'individuo, dipendono dalla sua

esperienza, ovvero dalle stimolazioni del suo sistema nervoso. Prendiamo ad esempio

un sommelier e un normale bevitore di vino da tavola: le percezioni gustative variano

tra i due pur avendo lo stesso apparato percettivo, così come un guidatore di formula

uno ed uno normale avranno esperienze diverse legate alla guida, pur avendo anche

loro lo stesso sistema percettivo.

L'unione degli eventi di base origina le sottoscene e in seguito le scene primarie.

Le scene, come anche i frame, così come ideati da Schank e Abelson (1977) e altri

studiosi di sistemi artificiali, sono spazi pluridimensionali in cui si definiscono il

dominio di un termine e il campo in cui si muove un determinato elemento. Dato il

nostro apparato percettivo e gli eventi che da esso vengono percepiti, il prodotto

cognitivo tra i due è l'esperienza soggettiva degli eventi di base, cioè le scene

primarie. La correlazione fra distinte dimensioni dell'esperienza è forse l'elemento

essenziale delle metafore così intese.

In questo senso le scene primarie sono episodi temporalmente delimitati di

esperienza soggettiva, caratterizzate da un'alta correlazione fra circostanze fisiche e

risposte cognitive, come un'esperienza traumatica come un incidente oppure un

ricordo molto piacevole come la vincita al lotto. Con il ripetersi dell'esperienza, le

scene principale creano delle associazioni tra concetti diversi, e si formano i vincoli

concettuali, relazioni inconsce dell'esperienza che non sono delle semplici strutture

neurali, come invece sono i concetti, ma formano un primo livello psicologico del

pensiero dato dalla frequenza delle attivazioni neurali dei concetti. In seguito si ha la

deconflation, che è invece la forma contraria del processo studiato da Johnson, in cui i

concetti sono separati dai vincoli concettuali per creare metafore ben definite che si

staccano dallo sfondo (background).

20

A questo punto si possono formare le metafore primitive come un vincolo

(binding), fra due concetti, un concetto target appartenente ad una scena primaria e

un concetto source di un'altra scena primaria. Nel modello di Grady i concetti source

sono derivati in maniera diretta dall'esperienza (image content); mentre i target sono

operazioni definite sulle percezioni e non percezioni dirette. Così le metafore primarie

uniscono insieme tipi diversi di concetti e questo ha importanti implicazioni anche per

l'esperienza mentale soggettiva.

Infatti non si tratta di passare da bassi livelli a quelli alti, ma di far interagire

concetti basilari, ma appartenenti a domini distinti, come mattoncini Lego che a

seconda di come si combinano creano “ponti” diversi e così significati diversi.

Vediamo di concretizzare quanto detto con uno schema:

Fig.2.2

Nella metafora “la vita è un viaggio” abbiamo un collegamento fra due domini,

in cui esistono concetti principali e subordinati. Un concetto principale, in questo caso

il source, è “un viaggio” e i concetti ad esse collegati sono che la “vita può essere

vissuta”, che “la vita ha degli obbiettivi”, dei “successi”, e che esiste “un modo di vivere”.

E così per il target il “vita” esistono dei concetti subordinati come, “viaggiatore”,

“destinazioni”, “itinerari”…

Quindi la metafora principale (nello schema tra a e b)

, contiene le altre metafore come collegamenti, relazioni fra le parti subordinate di

due domini distinti (a2 e b1), creando così:

Una persona che vive una vita è un viaggiatore

I successi nella vita sono destinazioni

Il modo di vivere è un itinerario

21

Secondo Grady le caratteristiche di queste relazioni (primary source concept)

derivano dal fatto che:

- Sono relazioni formate dalle sensazioni corporee e dalle percezioni in ogni modalità.

- L'image content è un particolare livello schematico di specificità, in cui ci si riferisce a

semplici esperienze piuttosto che a complesse, formate da molte scene e concetti.

- Sono queste esperienze che dirigono le nostre azioni verso finalità inconsce.

- Sono “selfcontained” e questo le distingue da altri tipi di rappresentazioni (scene).

- Si riferiscono ad elementi universali dell'esperienza umana.

- Sono puramente relazionali (non includono la percezione fisica di cani, alberi…).

Tutte queste caratteristiche definiscono in maniera chiara quali sono le peculiarità

di tutti i primary source concept che hanno image content, in altre parole ogni concetto

del genere è ancorato direttamente ad un input sensoriale, a differenza dei target che

sono strutture d'elaborazione degli input, pur lavorando anch'essi su base fisica. I

primary target concept, infatti, sono definiti come più astratti, e si riferiscono a

funzioni cognitive di base o a livelli con accesso conscio. La tradizione linguistica

voleva vederli come astratti (si pensi ai concetti d'ideali di spazio e tempo), invece

sono il livello più basso della coscienza e utilizzano strutture connessionistiche come

quelle di Baley (1997).

In più esiste un'evidenza neurologica che mostra suddette relazioni, perché uno

stimolo (source) può essere associato ad un concetto (target), così come l'azione di

“uccidere” può essere associata al concetto di “male nella società”. Secondo Lakoff

(1999) invece, il rapporto fra source e target (chiamato il principio d'invarianza) si

fonda principalmente sulla struttura immagineschema del dominio del source, come

nei frame e nelle scene, in altre parole è lo stesso source che crea e indirizza il target.

Nella metafora:


Vengono scartate dal dominio del source “viaggio” tutte quelle associazioni non

“attinenti” come:

22

La vita è uno stivale

Ovvero è lo stesso source che delimita il dominio della metafora e questa

delimitazione è descritta attraverso i frame o scene. Per Grady invece le metafore

primitive hanno il seguente schema di rete neurale, in cui i due elementi base

“quantità” ed “elevazione” si uniscono nella metafora primitiva di “pila” (intesa come

oggetti sovrapposti verticalmente):

23

Fig.2.3

Bisogna notare inoltre che le possibilità d'associazione fra concetti e più in

generale fra gli stimoli neurali, possano seguire altre regole. In generale queste

particolari associazioni di concetti, denominate come nonprimary metaphor, sono più

un'unione d'atti linguistici complessi che una costruzione legata alla nostra

esperienza. Pensiamo a concetti come “gargoyle” o come “unicorno”, animali

mitologici che non esistono di cui però ne abbiamo e ne possiamo usare il concetto.

Un altro esempio si ha con la frase:

Achille è coraggioso come un leone

In questo caso si uniscono due concetti distinti, come Achille e leone, attraverso

un elemento che hanno in comune (il coraggio) secondo quella che Grady definisce

similarity theory of metaphor. Per comprendere meglio lo stesso Grady ne propone uno

schema neurale:

Fig.2.4

Come ho accennato prima, le operazioni di associazione che possiamo fare, dal

semplice stimolo fino alla costruzione di concetti più complessi, sono pressoché

infinite, è normale allora considerare in maniera indicativa gli aspetti più tecnici della

teoria delle metafore di Lakoff & C. Volendo essenzialmente questi cercare di

24

dimostrare la possibilità si simulare con reti connessionistiche il passaggio dalla

percezione alla costruzione delle metafore, sarà opportuno vedere quali sono i limiti

teorici di tali simulazioni, e questo sarà il compito del prossimo capitolo.

Capitolo 2Il Connessionismo

“Ogni comportamento è l'espressione di una funzione cerebrale. Quella che noi chiamiamo genericamente mente,

è l'insieme di funzioni cerebrali.Il cervello è costituito di tante unità, costituite dalle

cellule nervose (o neuroni) e dalle cellule gliali.”Eric Kandel

I modelli di Lakoff e Grady presentati precedentemente basano la forza delle

loro asserzioni sulle simulazioni al computer di modelli neurali. In questo capitolo

analizzeremo allora la simulazione di un modello neurale, con i suoi pregi, i suoi

difetti e le sue limitazioni, e introdurremo così alcune problematiche proprie di questi

sistemi, che saranno affrontate in maniera completa nel prossimo capitolo.

Nel far questo abbiamo analizzato un particolare tipo di rete (quella PDP) a

nostro avviso esemplare per tutta la categoria, in quanto tutte le reti connessionistiche

processano l'informazione ricevuta attraverso uno stesso linguaggio matematico di

medesima complessità.

3.1 Il cervello è un emulatore della realtà

Per comprendere appieno le motivazioni di tali simulazioni ci soffermeremo

sulla struttura del sistema nervoso, considerandolo come una rete di neuroni, senza

tenere conto della realtà fisiologica in cui l'informazione viene trasportata anche per

altre vie. I neuroni all'interno del cervello sono approssimativamente 10¹º.

La maggior parte dei neuroni non hanno caratteristiche funzionali, cioè non si

occupano della percezione (vista, udito o tatto…), ma sembrano finalizzati alla

25

formazione di un sistema chiuso. Ovvero la maggior parte dei neuroni non si

occupano del mondo esterno in maniera diretta, ma si occupano di un'elaborazione

dell'informazione che giunge dall'esterno.

Così i neuroni del nostro cervello sono rivolti ad emulare la realtà, come se si

fossero evoluti nel tempo per “imitare” ciò che esiste al di fuori di noi, o, in altre

parole, per costruire una “storia”. Ma gli elementi di questa storia esistono da prima

della nostra nascita, poiché nessuno c'insegna a vedere i colori, né a sentire il dolore o

le altre sensazioni. Queste facoltà nascono con noi, proprio come il naso, le orecchie e

il corpo. Noi siamo un corpo equipaggiato con un sistema di sensazioni. Il nostro

cervello è un emulatore che genera una realtà e ne verifica l'affidabilità servendosi

delle sensazioni.

Per indagare il suo funzionamento, sono stati fatti diversi tipi di simulazioni

della sua struttura attraverso modelli matematici riprodotti con il computer, e alcuni

di questi, elaborati all'interno degli studi sulle intelligenze artificiali, sono

riconducibili al connessionismo, un tipo d'impostazione sviluppato principalmente da

James McClelland e David Rumelhart.

Ovviamente esistono altri modelli di riproduzione del cervello, tuttavia questo è

quello che oltre ad essere il più recente, sembra mostrare maggiore attinenza alla

realtà fisiologica del sistema nervoso. Da quando è stato inventato il microscopio, è

diventato evidente che il sistema nervoso non è solo una gran massa gelatinosa, ma

che esso è effettivamente composto di miliardi di minuscole cellule chiamate neuroni.

Ciascun neurone può avere anche più di 100.000 connessioni con altri neuroni del

cervello.

Il compito di ciascun neurone è quello di ricevere segnali da molti altri neuroni,

migliaia o centinaia di migliaia in certi casi, e di combinarli in un modo

sufficientemente semplice da decidere se inviare o meno un segnale ai neuroni con il

quale esso è a sua volta collegato. Da questo emerge l'idea che tutta la nostra vita

mentale, tutta la nostra attività cognitiva, è in realtà il prodotto delle interazioni fra

tutte queste unita d'elaborazione molto semplici.

26

Fig.3.1

Il tentativo di riproduzione di questo modo di operare costituisce il lavoro del

connessionismo (o PDP, Parallel Distributed Process), in cui si cerca di riprodurre in

maniera computabile, cioè trascrivere in linguaggio matematico, i legami neurali,

come semplici operazioni in parallelo. L'unità di simulazione principale del neurone si

chiama perceptron ed è stato Frank Rosemblatt (1957) a costruire per primo una

connessione retinica di queste unità, anche se sicuramente il merito teorico si può far

risalire agli studi di Donald Hebb (1949).

Fig.3.2

27

Il perceptron ha un funzionamento molto semplice (JonhsonLaird 1988);

input di entrata, un valore di attivazione del nodo (chiamato peso), un input in uscita,

che di solito ha valori sono compresi fra 0 e 1, e la sua formazione si può riassumere

in tre passaggi. Inizialmente possiamo rappresentare le forze di queste connessioni in

un diagramma, oppure in una matrice in cui una riga sta per un'unità in un insieme,

una colonna sta per un'unità nell'altro insieme, e il riquadro in cui riga e colonna

s'intersecano contiene la forza della connessione tra le due unità. Questi principi

possono essere illustrati con un esempio in scala ridotta con solo due unità in ciascun

insieme, due visive e due uditive:

Fig.3.3

La forza della connessione tra due unità è la stessa in entrambe le direzioni.

Come McClelland e Rumelhart, assumeremo che la forza possa essere eccitatoria,

neutra o inibitoria; e possa così avere qualsiasi valore tra + 1 e 1. Un'unità trasmette

ad un'altra un'attivazione pari alla propria attivazione moltiplicata per la forza della

connessione; ad esempio, un'unità attiva +1 con una connessione inibitoria di 0.5

con un'altra unità, trasmette ad essa un valore di 0.5.

Il secondo passaggio è introdurre il principio che il livello d'attivazione di un'unità

è uguale alla somma di tutte le attivazioni che essa riceve da altre unità. Possiamo usare

questo principio per stabilire la forza delle connessioni in modo tale che, per esempio,

la configurazione visiva +1 1 produca automaticamente la configurazione uditiva 1

1, e viceversa. Ecco le forze di connessione che stabiliscono quest'associazione:

Fig.3.4

28

Consideriamo l'unità nella riga superiore. Il suo livello d'attivazione è uguale

alla somma dei valori (attivazione x forza di connessione) che riceve da ciascun'unità

della colonna corrispondente:

( +1 x 0.5) + (1 x 0.5) = 1

L'attivazione dell'unità della riga inferiore è determinata nello stesso modo. La

disposizione è simmetrica: se la configurazione uditiva è l'input, allora quella visiva è

l'output. In generale, la forza della connessione tra due unità deve essere positiva

quando entrambe hanno livelli di attivazione dello stesso segno; altrimenti, è

negativa. I valori numerici delle forze dipendono dal numero totale di connessioni.

Questi stessi principi possono essere usati per costruire una matrice che

stabilisca un'associazione tra un'altra coppia di configurazioni: la configurazione

visiva +1 +1 e la configurazione uditiva 1 +1:

Fig.3.5

Viene ora il terzo, e più significativo, passaggio. Sommiamo le due matrici delle

forze di connessione per ottenere:

Fig.3.6

29

Questa unica matrice è sufficiente per realizzare tutte e due le associazioni: se

date in input la prima configurazione visiva, otterrete la prima uditiva; se date in

input la seconda configurazione visiva, otterrete la seconda uditiva. Entrambe le

associazioni sono codificate in un unico insieme di connessioni tra i due insiemi di

unità e il sistema è ciò che viene definito dai matematici un sistema lineare, perché

operazioni separate, in questo caso forze di connessione, hanno effetti che possono

essere combinati in maniera additiva.

Esiste ovviamente un limite al numero di associazioni differenti che possono

essere rappresentate in un unico insieme di connessioni e tale limite è uguale al

numero di unità in uno degli insiemi. Di conseguenza, con solo due unità in ciascun

insieme possono essere stabilite soltanto due associazioni, ma una rete nervosa reale

nel cervello potrebbe rappresentare milioni di associazioni.

Configurazioni di input simili danno origine a output simili, e così se si

desidera evitare l'interferenza, si deve fare in modo che le configurazioni in input non

siano in relazione tra di loro (questa nozione ha una formulazione matematica

precisa: le configurazioni di qualsiasi coppia di input dovrebbero essere ortogonali,

cioè i prodotti incrociati della coppia dovrebbe assommare a zero, ad esempio per i

due input visivi, +1 1 e +1 +1, il prodotto incrociato (+1 X +1) + (1 X +1) è

correttamente uguale a 0).

Diverse proprietà interessanti emergono da un grande sistema di questo tipo.

L'attività di qualsiasi unità singola è relativamente poco importante: se funziona male

o viene distrutta, il sistema non ne sarà drasticamente danneggiato. Analogamente, se

una piccola parte di un input manca oppure è nascosta, il sistema può ancora fornire

l'output corretto. Infatti, se una matrice si basa sull'associazione di ciascun input con

se stesso, essa sarà in grado di completare input frammentari con le loro parti

mancanti.

Gli indirizzi numerici sono stati rimpiazzati da un sistema in cui i simboli stessi

di input attivano la memoria. Una tale memoria ha soltanto confini vaghi tra ricordo,

ricostruzione e invenzione completa. Probabilmente a questo punto può tornare utile

un esempio concreto, tratto da uno dei primi lavori di McClelland. Uno dei problemi

ai quali si è interessato fin dal principio è stato di capire come mai, quando

percepiamo qualcosa, siamo in grado di servirci della situazione per influenzare ciò

30

che vediamo. Qui, ad esempio, vediamo qualcosa che assomiglia ad una parola e che è

in parte nascosta da macchie d'inchiostro.

Fig.3.7

Ora, il problema è: che lettera è quella che è in parte cancellata? Dagli

esperimenti di psicologia della scuola gestaltica sappiamo che le persone avranno una

maggior probabilità di intravedere una parola piuttosto che un insieme indefinito di

lettere. Se ne deduce allora che la conoscenza di cui le persone si servono in questi

casi comprende la conoscenza delle sequenze di lettere che costituiscono le parole di

ciascuna lingua. Nel costruire un modello di questo caso specifico sono usate delle

unita simili a neuroni, che stanno per le parole; ce ne sono più di un migliaio solo per

le parole brevi e comuni della lingua. Inoltre sono state usate delle unità

corrispondenti a lettere; quattro insiemi di tali unità per tutte le lettere. E sotto a

queste sono state usate delle unità per gli elementi visivi o le caratteristiche delle

lettere, in modo che la rete sia capace di leggere le lettere.

31

Fig.3.8

Quindi, per far funzionare la simulazione si deve assumere che esistano delle

connessioni, fra le parole e le lettere che esse contengono, e fra le lettere e le loro

caratteristiche. Ad esempio, le lettere C, A, S, e O sono tutte legate alla parola CASO

con connessioni a doppio senso. Perciò, nella nostra simulazione possiamo limitarci ad

attivare gli aspetti visivi presenti e a consentire all'attività di propagarsi nel sistema,

per vedere com'esso si stabilizzi su un'interpretazione del segnale.

In questi casi gli aspetti visivi sono coerenti con le lettere C, A, S, mentre nel

quarto rombo (l'unità visiva) sono compatibili con una C o una O. E queste lettere

sono compatibili a loro volta con alcune delle parole che conosciamo, in particolare lo

sono in larga misura con la parola CASO. Ecco che cosa accade adesso: quando

accendiamo la rete, inizialmente vengono attivate C, A, S, e poi, nell'ultima posizione,

sia l'O che la C.

Esse a loro volta attivano CASO, e CASC, di rimando, s'innesca un feedback che

rinforza l'attivazione delle altre unità. In questo modo la simulazione del sistema

percettivo finisce per inserire un'O in questa posizione, rinforzando la sua attivazione.

In realtà, si pensa che le connessioni di ritorno continuino fino al livello degli aspetti

visivi delle lettere, in modo che possiamo in ogni modo inserirli nella nostra

esperienza percettiva, anche se non sono necessariamente tutti presenti nel segnale.

Concludendo, attraverso quest'esempio abbiamo potuto vedere all'opera in

modo molto semplice il lavoro di simulazione: costruire un insieme d'unità (in questo

caso abbiamo unità esplicite per le parole, le lettere e le caratteristiche visive delle

lettere) e inoltre costruire delle connessioni fra di loro. Infine, abbiamo un computer

con degli algoritmi molto semplici che consentono all'attività di propagarsi da un'unita

all'altra. In questo modo possiamo simulare l'attività computazionale che riteniamo

avvenga teoricamente in questi casi nella rete neurale del cervello.

3.2 Come apprende la rete

Vediamo ora come una rete siffatta possa apprendere un compito modificando

solo il peso delle sue connessioni. Uno degli elementi che più differenziano i modelli

32

connessionisti dai modelli tradizionali di rappresentazione e d'elaborazione

dell'attività mentale è costituito dal modo in cui la conoscenza è immagazzinata nella

rete. Tradizionalmente si pensava che la conoscenza fosse come scritta in un libro, in

cui vi era una forma (indice, numerazione di pagine, capitoli, paragrafi, …e la

struttura del libro stesso) e un contenuto (i concetti espressi tramite le parole).

Nei modelli connessionisti, invece, la conoscenza è direttamente contenuta nelle

connessioni interne, in altre parole è come se noi stessi fossimo il libro, dove non c'è più

differenza fra forma e contenuto, tra mente e corpo. Questo è un modo interessante e

innovativo di rappresentare la conoscenza, poiché implica che essa non sia

direttamente accessibile da parte dei processi mentali coscienti. Infatti il pensiero non

è qualcosa che noi consultiamo da un punto di vista obiettivo mentre agisce, in altre

parole non possiamo tenere il libro in mano e leggerne il contenuto, possiamosolo

viverne il suo contenuto e descriverne l’esperienza vissuta.

Le connessioni fra i neuroni non possono essere ispezionate; non possono

essere lette o interpretate per qualcun altro. Possono solo influenzare il modo in cui

un neurone attiva altri neuroni. Ecco qual è la vera differenza tra i modelli

connessionisti e l'approccio tradizionale di rappresentazione della conoscenza. Ed

ancora, supponiamo che io stia pensando a una tazza da caffè sulla quale è dipinta

una scimmia.

In termini connessionisti si pensa che a questo punto accada questo: il fatto di

pensare alla tazza con la scimmia attiva gruppi di neuroni in diverse parti del mio

cervello. Uno di questi gruppi si trova in regioni strettamente visuali o, in altre parole,

in parti del cervello che rappresentano esattamente l'aspetto della tazza, la forma del

manico e il modo in cui esso si congiungono alla tazza stessa. Un altro gruppo di

neuroni magari rappresenta il mio pensiero del momento: “Quasi quasi mi faccio un

caffè”.

Un'altra parte del mio cervello può contenere un gruppo di neuroni attivi, che

rappresenta il mio pensiero sulla scimmia: “Che immagine strana per una tazza da

caffè!” Si arriva, dunque, ad un concetto molto semplice: il contenuto del pensiero è

rappresentato da una distribuzione d'attività, la quale specifica, per ciascun neurone,

se esso è o non è attivo. E quando io penso, immagino che queste distribuzioni

d'attività evolvano e si modifichino ad ogni passaggio dei processi cognitivi.

33

Il modo in cui l'esperienza modifica le connessioni fra neuroni è uno degli

aspetti più interessanti e importanti dei modelli connessionisti. I modelli

connessionisti cercano di spiegare ciò che accade nello sviluppo comportamentale del

bambino, immaginando che il cervello usi l'informazione proveniente dalle esperienze

recenti come base per cercare di prevedere ciò che accadrà, e che quindi il cervello

osservi ciò che accade realmente. Immaginiamo che un bambino abbia di fronte uno

schermo opaco, e che una palla sia fatta rotolare sul pavimento in modo tale da farla

scomparire dietro lo schermo.

La domanda è: che cosa dovrebbe aspettarsi il bambino? Se non ha conoscenze

precedenti, può darsi che non si aspetti che la palla appaia dall'altra parte dello

schermo. Se questo è il caso, proverà davvero sorpresa a vedere riapparire la palla.

McClelland pensa che sia proprio questo tipo di sorpresa a spingere il bambino ad

apprendere che gli oggetti continuano ad esistere anche quando noi non li vediamo

più.

L'idea fondamentale è la seguente: nel corso di una qualunque esperienza la

mente continua a cercare di prevedere gli eventi futuri e ciò che accade realmente indica

alla mente ciò che essa avrebbe dovuto prevedere. Il cervello segue, quindi, una regola

d'apprendimento molto semplice: esso corregge i parametri delle nostre attese mentali, in

modo che la volta successiva le nostre previsioni siano più precise. Quando questi

parametri sono ben regolati, noi abbiamo a nostra disposizione un modello “interno”

del mondo che ci circonda.

Una rete può utilizzare, quindi, un algoritmo, denominato retropropagazione o

regola delta, che, partendo dallo scarto tra le sue previsioni e il risultato desiderato,

modifica gradualmente le forze delle connessioni tra i neuroni. Questa procedura

d'apprendimento comporta la presentazione di un insieme di coppie di pattern d'input

e d'output.

Il sistema anzitutto usa il vettore d'input per ricavarne un vettore d'output, e

poi confronta quest'ultimo con il vettore d'output desiderato, o vettore bersaglio. Se

tra i due vettori non c'è alcuna differenza, non ha luogo alcun apprendimento.

Diversamente, per ridurre la differenza, vengono cambiati i pesi. La regola per

cambiare i pesi in seguito alla presentazione di una coppia p d'input/output è data da:

34

p wji = ( tpj opj ) ipi = pj ipi

Dove tpj è l'output desiderato per il jesimo componente del pattern di output

per il pattern p, opj è il jesimo elemento del pattern di output effettivamente

prodotto dalla presentazione del pattern di input p, ipi è il valore dell'iesimo

elemento del pattern di input, pj = tpj opj , e p wji è il cambiamento del

peso della connessione dalla iesima unità alla jesima unità, che segue dalla

presentazione del pattern p.

L'applicazione della regola delta generalizzata, perciò comprende due fasi:

nella prima fase l'input viene presentato e propagato attraverso la rete per calcolare il

valore di output opj per ciascun'unità. Questi output sono poi confrontati con i valori

desiderati, generando così un segnale d'errore pj per ciascun'unità d'output. La

seconda fase comporta un percorso a ritroso attraverso la rete (analogo all'iniziale

percorso ascendente), durante il quale il segnale d'errore è trasmesso a ciascun'unità

della rete, e i pesi vengono cambiati appropriatamente. Questo percorso a ritroso

rende possibile il calcolo ricorsivo di quale è stato descritto sopra. Il primo passo

consiste nel calcolare per ciascun'unità d'output. Questo valore equivale

semplicemente al prodotto tra la derivata della funzione di schiacciamento e la

differenza fra il valore d'output effettivo e quello desiderato dell'unità. A questo

punto, è possibile calcolare le modificazioni dei pesi in tutte le connessioni che

conducono allo strato finale. Fatto questo, vanno calcolati i valori di per tutte le

unità del penultimo strato della rete e così via.

Prima di presentare i risultati ottenuti con queste reti, è bene fare alcune

considerazioni; anzitutto, va osservato che non tutti i pesi devono essere variabili, un

numero qualsiasi di pesi può essere fisso, in questo caso, l'errore è propagato

esattamente come prima, e i pesi con valore fisso non sono modificati. Occorre notare

anche che non c'è ragione per cui alcune unità d'output non possano ricevere un input

da altre unità d'output di strati precedenti.

35

In questo caso, queste unità ricevono due tipi differenti di segnale d'errore:

quello ricavato dal confronto diretto con il valore desiderato, e quello trasmesso dalle

altre unità di output di cui esse influenzano l'attivazione. In questo caso, la procedura

corretta consiste semplicemente nell'aggiungere le modificazioni dei pesi dovute al

confronto diretto a quelle trasmesse a ritroso dalle altre unità d'output.

Ricapitolando: alla rete sono presentate delle informazioni, dalle quali essa fa

delle previsioni, e di volta in volta la rete paragona le sue previsioni con i risultati

attesi, modificando, per retropropagazione, le forze delle connessioni tra i suoi

neuroni; progressivamente questo processo consente alla rete di trovare quelli che

sono i valori corretti in grado di indurre le connessioni a modificarsi, producendo le

risposte attese. C'è una famosa immagine, formata da un gran numero di macchie. Se

si osserva, all'inizio non si vede niente, ma dopo che si fissa per un po', tutte le

macchie e i punti rivelano un cane dalmata che annusa il terreno.

Fig.3.9

Se evidenziamo con una curva ciò che è appena avvenuto nell'osservatore,

rendiamo ancora più evidente il processo descritto sopra. Misureremo i tempi in

termini di “cicli d'insegnamento”. A ciascun ciclo, alla rete sono presentate

36

contemporaneamente tutte le possibili combinazioni di segnali d'entrata,

accompagnate dalla risposta corretta, in modo che essa possa imparare.

Fig.3.10

Risultato: l'errore complessivo è inizialmente abbastanza alto, ma con il passare

del tempo diminuisce un poco e quindi rimane stabile per un lungo periodo. Alla fine

raggiunge un punto in cui crolla bruscamente; qui possiamo affermare che la rete ha

risolto il problema. Il grafico mostra però che vi è un lungo periodo durante il quale,

dal punto di vista della prestazione della rete, non sembra succedere assolutamente

niente: è questo il periodo in cui la rete si prepara a raggiungere questo punto di

rapida transizione.

Secondo McClelland la forma di questa curva è correlata ad un fenomeno

studiato approfonditamente da Piaget lungo tutto l'arco della sua carriera (si veda ad

esempio KarmiloffSmith 1995). Si tratta del fenomeno della transizione fra stadi,

ossia di transizioni da uno stadio di sviluppo caratterizzato da un certo tipo di

pensiero, ad un altro stadio nel quale è adottato un modo di pensare radicalmente

diverso. Piaget aveva caratterizzato tali stadi in molti domini diversi.

Uno degli aspetti che più colpiscono nell'idea degli stadi è la presenza di

lunghi stati stazionari, durante i quali sembra che non cambi nulla, interrotti da

transizioni molto brusche che portano allo stadio successivo. Questa fu

un'osservazione davvero sconcertante per molti psicologi dello sviluppo, perché, da un

lato, essi volevano credere che l'esperienza influenzasse lo sviluppo, dall'altro lato

37

sembrava loro (e in verità non solo a loro), che l'impatto dell'influenza sullo sviluppo

si debba osservare in ogni momento.

Quello che il comportamento di questi modelli ci permette di comprendere è

che gli effetti dell'esperienza possono davvero accumularsi “sullo sfondo” durante un

particolare stadio di sviluppo, consentendo poi all'individuo di raggiungere il punto in

cui è pronto a cambiare in modo molto rapido e improvviso.

3.3 Pregi e difetti del connessionismo

Dopo avere mostrato il funzionamento delle reti è bene evidenziare anche i

loro limiti nel paragonarle alla struttura cerebrale, in seguito quindi saranno elencati

punto per punto gli aspetti tecnici di maggior contrasto con la realtà, questo ci

permetterà di comprendere meglio quelle che sono le limitazioni nelle tesi

precedentemente esposte di Lakoff e Grady.

I neuroni sono lenti

Una delle caratteristiche più importanti dei processi cerebrali, dipende dalla

velocità delle sue componenti. I neuroni sono molto più lenti delle componenti

computazionali convenzionali. Se le operazioni fondamentali nei nostri moderni

calcolatori seriali si misurano in nanosecondi, i neuroni operano in tempi che si

misurano in millesecondi, se non centesimi di secondo. Così l'hardware di base del

cervello è di 10 alla 6 circa più lento di quello dei calcolatori seriali. Immaginiamo un

rallentamento dei nostri programmi convenzionali di I.A. (intelligenza artificiale) di

un fattore 10 alla 86.

Più notevole è il fatto che si sia in grado di eseguire dei processi estremamente

complessi in poche centinaia di millesecondi. E' chiaro che il processo percettivo, la

maggior parte del recupero dalla memoria, gran parte del processo linguistico, del

ragionamento intuitivo e di molti altri processi si verificano in questo quadro

temporale. Ciò significa che questi compiti devono essere eseguiti in non più di 100

passi circa. E' questo ciò che Feldman (1985) chiama il vincolo del programma in 100

passi.

38

Si osservi inoltre, che i singoli neuroni secondo i connessionisti non calcolano

delle funzioni molto complicate. Sembra improbabile che un solo neurone calcoli una

funzione molto più complessa di una singola istruzione di un calcolatore digitale.

C'è un grandissimo numero di neuroni

Un altro aspetto autoevidente, ma importante, del processo cerebrale è il

grandissimo numero di unità che entrano in gioco. Le stime convenzionali indicano

che nel cervello il numero dei neuroni è dell'ordine di 10¹º, 10¹¹. Per di più, ogni

neurone è un'unità attiva, ciò, di fatto, fa pensare ad un parallelismo su larga scala.

Intendere il calcolo in parallelo in termini di qualche centinaio di processori

ragionevolmente complessi conduce a un modello sbagliato.

E' più che probabile che sia la scala così ampia del parallelismo del cervello che

gli dà questi prodigiosi poteri. Anche se il cervello dell'uomo è grande, il numero dei

neuroni non è illimitato. Può accadere che a volte i modelli connessionistici teorici

vadano oltre i limiti della plausibilità, per il grande numero di unità che richiedono. E'

questo un vincolo reale di cui dobbiamo tenerne conto nel valutare questi modelli.

I neuroni ricevono gli input da un gran numero d'altri neuroni

Un'altra importante caratteristica del processamento del cervello è il largo

ventaglio di collegamenti che esiste da e verso ogni unità. Le stime variano, ma i

singoli neuroni corticali possono ricevere da 1.000 a 100.000 sinapsi sui loro dendriti

(le zone di connessione in entrata con gli altri neuroni), e possono analogamente

inviare da 1.000 a 100.000 sinapsi ai dendriti degli altri neuroni. In generale, non

basta ricevere uno o pochi potenziali d'azione per generarne uno nuovo.

Ciò indica che nell'uomo il calcolo non implica circuiti logici come quelli di cui

sono composti i nostri calcolatori digitali, ma piuttosto un processo statistico in cui le

singole unità non “prendono decisioni”, ma queste sono il prodotto dell'azione

39

cooperativa di molte unità di processamento abbastanza indipendenti. L'attendibilità

dipende dalla stabilità del comportamento statistico di un ampio numero d'unità.

Ancora, questo livello di connettività dovrebbe esser messo a confronto con il

numero di “vicini” immediati dei processori degli attuali calcolatori in parallelo. Si

tratta di numeri che sono abitualmente misurati in decine (o meno) piuttosto che in

migliaia. Per di più, questa connettività così ampia indica che nessun neurone è

distanziato di molte sinapsi da ogni altro neurone.

Se, per amore di discussione, assumiamo che ogni neurone corticale sia

connesso con 1.000 altri neuroni, e che il sistema formi un reticolo, tutti i neuroni del

cervello sarebbero all'interno di quattro sinapsi al massimo l'uno dall'altro. Un ampio

ventaglio in ambo i sensi conduce così a una rete poco profonda. Si dovrebbe infine

rilevare che anche se il ventaglio è ampio, non è illimitato. I limiti possono provocare

dei problemi quando si vogliano estendere alcune idee semplici sui magazzini di

memoria e sul recupero.

I neuroni comunicano attraverso attivazioni ed inibizioni elettrochimiche

La comunicazione tra neuroni implica semplici messaggi eccitatori ed inibitori.

Così, a differenza d'altri messaggi in parallelo che attraversano sistemi come l'ACTOR

di Hewitt (1985), che consente il passaggio di messaggi simbolici arbitrati tra le sue

unità, nei modelli PDP sono richiesti numeri facilmente gestibili, numeri interi o con

pochi decimali. Ciò significa che quelli che passano in questi sistemi non sono simboli,

ma eccitazioni ed inibizioni. Nella misura in cui sono necessari dei simboli, essi

devono emergere da questo livello subsimbolico d'elaborazione (Hofstadter 1979).

Le connessioni nel cervello sembrano avere una chiara struttura geometrica e topologica

I pattern delle connessioni nel cervello presentano numerosi fatti che per

quanto importanti, ancora non hanno avuto una grande influenza sui modelli in

esame. In primo luogo, la maggior parte delle connessioni sono abbastanza corte. Ve

ne sono di lunghe (e queste tendono ad esser eccitatorie), ma non sono la

40

maggioranza. E vi sono vincoli geometrici e topologici abbastanza forti. C'è una

corrispondenza approssimativa, nel senso che i parametri dell'input (come la

localizzazione spaziale nella visione o la frequenza nell'udito) presentano delle

corrispondenze con l'estensione spaziale del cervello.

Sembra in generale che le regioni prossime in una parte del cervello

corrispondano alle regioni prossime nell'altra parte. Per di più, c'è una simmetria

generale delle connessioni. Se ci sono delle connessioni da una regione cerebrale ad

un'altra, abitualmente ci sono anche connessioni in direzione inversa.

Alcune di queste caratteristiche sono state implementate nei modelli di

McClelland e Rumelhart, anche se, e la cosa è interessante, di massima per motivi

computazionali, più che per verosimiglianza biologica. Per esempio, una caratteristica

del loro primo lavoro sulla percezione delle parole è stata una simmetria

approssimativa (McClelland e Rumelhart 1981).

La struttura geometrica delle connessioni cerebrali non ha esercitato una

grande influenza sul loro lavoro. In generale, non si sono preoccupati di dove possono

essere fisicamente le unità, le une rispetto alle altre. Se peraltro immaginiamo

l'esistenza di un vincolo per la conservazione della lunghezza delle connessioni, è

facile vedere che le unità che interagiscono dovrebbero essere le più vicine tra di loro.

Se a ciò si vuole aggiungere la concezione che uno spazio a moltissime

dimensioni determinato dal numero delle interconnessioni dovrebbe essere

incorporato in uno spazio bi o tridimensionale (forse di due dimensioni e mezzo)

corticale, possiamo vedere l'importanza della messa in corrispondenza delle più

importanti dimensioni fisiche con la geometria del cervello.

Le informazioni sono continuamente disponibili

Un'altra caratteristica importante del processamento neurale delle informazioni

consiste nel fatto che i neuroni sembrano fornire degli output continuamente

disponibili (Norman e Bobrow 1975). In altri termini, non sembra che ci sia una fase

apprezzabile di decisione durante la quale un'unità rifletta l'input in corso.

Nella misura in cui un'unità rappresenta un'ipotesi, e il suo livello d'attivazione

(il tasso istantaneo di scarica, o la probabilità di scarica) rappresenta la misura in cui i

41

dati disponibili favoriscono tale ipotesi, il livello d'attivazione dell'unità fornisce

informazioni continue sulla valutazione che si sta formulando dell'ipotesi.

Quest'ipotesi faceva parte dei precursori del lavoro sul processamento distribuito in

parallelo, specialmente del modello a cascata (McClelland 1979) e del modello

interattivo di lettura (Rumelhart 1977), ed è una caratteristica che possiedono

virtualmente tutti i modelli PDP.

Degrado graduale con danno e sovraccarico d'informazioni

Dallo studio delle lesioni cerebrali e d'altre forme di danno cerebrale, sembra

abbastanza chiaro che non esiste nessun singolo neurone il cui funzionamento è

essenziale per le operazioni d'ogni specifico processo cognitivo. Se vi sono regioni del

cervello ragionevolmente circoscritte che possono giocare dei ruoli abbastanza

specifici, particolarmente ai livelli inferiori di processamento, sembra abbastanza

chiaro che all'interno delle regioni la prestazione è caratterizzata da un degrado

graduale (graceful degradation), in cui la prestazione del sistema si degrada

gradualmente con la progressiva distruzione di neuroni, ma non c'è nessun punto

critico specifico in cui la prestazione collassa.

Un degrado graduale di questo tipo è caratteristico d'alcune sindromi globali

degenerative come la malattia d'Alzheimer (Schwartz, Marin e Saffran 1979). Ancora

una volta, abbiamo qui una netta differenza rispetto a molti modelli seriali simbolici,

in cui il danno in un singolo passo di un programma enorme può avere un effetto

catastrofico sulla prestazione complessiva del sistema. Immaginiamo un computer che

sta operando e in cui una certa istruzione non funziona.

Finché tale istruzione non viene usata, non ci dovrebbe essere nessuna

conseguenza, ma quando viene impiegata in qualche processo, questo semplicemente

non si svolge. Sembra che nel cervello il sistema sia estremamente ridondante, e

capace di operare con una perdita di prestazione circa simile per entità alla grandezza

del danno.

Controllo distribuito, e non centrale

42

C'è un aspetto conclusivo dei nostri modelli, che deriva vagamente da quanto

sappiamo delle funzioni cerebrali. E' questo il concetto base, la non esistenza di un

central executive, che sovrintenda al flusso generale del processamento. Nella cornice

della programmazione convenzionale, è facile immaginare un sistema esecutivo che

chiami delle subroutines, per l'esecuzione dei compiti necessari. In questi modelli,

tutto il processamento è sostanzialmente dall'alto in basso, o guidato dall'executive; se

non c'è executive, nessun processamento può aver luogo.

Le ricerche neuropsicologiche su pazienti cerebrolesi indicano che non c'è

nessuna parte della corteccia dalle cui operazioni dipendano tutte le altri parti.

Sembra piuttosto che tutte le parti operino insieme, influenzandosi reciprocamente, e

che ogni regione contribuisca alla prestazione complessiva nei compiti e

all'integrazione in essa di certi tipi di vincoli o di fonti di informazione. E' indubbio

che i meccanismi del tronco cerebrale controllino delle funzioni corporee vitali e lo

stato complessivo del sistema, e che certe parti della corteccia siano critiche per la

ricezione d'informazioni dalle modalità specifiche. Ma le funzioni di livello superiore

sembrano caratterizzate soprattutto da un controllo distribuito, e non centrale.

Questo punto fu chiarito già dal neuropsicologo russo Lurija (1966; 1973). Le

sue ricerche hanno dimostrato che per ogni funzione comportamentale integrata (per

esempio, percezione visiva, comprensione o produzione del linguaggio, soluzione dei

problemi, lettura) sono molte le diverse parti della corteccia che giocano un ruolo,

sicché le lesioni di ogni parte influiscono sulla prestazione, ma non sono

assolutamente cruciali per essa. Anche i lobi frontali, che vengono con maggior

frequenza associati alle funzioni direttive, non sono assolutamente necessari nella

concezione di Lurija, poiché funzioni residue si osservano anche dopo distruzioni

estese di tali lobi (e lesioni lievi in questa sede possono essere addirittura del tutto

asintomatiche).

I lobi frontali devono giocare un ruolo caratteristico, facilitando i cambiamenti

di strategia e inibendo le risposte impulsive, ma il controllo complessivo del

processamento può essere gravemente danneggiato da lesioni delle strutture del lobo

parietale, che appaiono responsabili della conservazione di rappresentazioni

organizzate, e che fanno da supporto all'attività coordinata e diretta a una meta.

43

Il rilassamento è la modalità computazionale dominante

Anche se nelle neuroscienze non c'è alcun'indicazione specifica che obblighi a

vedere la necessità del rilassamento nei processi computazionali in stile cerebrale,

tutte le caratteristiche sinora discusse hanno indotto a credere che la modalità

computazionale dominante nel cervello viene spiegata nel modo migliore come un

sistema di rilassamento, in cui il calcolo procede come un tentativo iterativo di

soddisfare un ampio numero di vincoli deboli.

Così le connessioni giocano, non il ruolo di fili in un circuito elettrico, ma

rappresentano dei vincoli alla cooccorrenza di coppie d'unità. Il sistema può essere

concepito come “la soluzione”, e non tanto “calcolante” la soluzione. Ancora una

volta, è questo un importante cambiamento di prospettiva che deriva da

un'interazione tra quel che capiamo di come il cervello opera, e di quali siano i

processi necessari per ottenere il comportamento desiderato.

44

I modelli PDP mancano di realismo neurale

Sono molti i fatti scoperti nelle neuroscienze che non rientrano in questi

modelli. Un esempio particolarmente vistoso è dato dal quasi universale assunto che

le unità hanno delle connessioni sia eccitatorie sia inibitorie, quando sembra

ragionevolmente chiaro che la maggior parte delle unità corticali sono o l'una cosa o

l'altra.

La più evidente differenza consiste nel considerare che le unità PDP

comunichino attraverso numeri, spesso associati con i “tassi medi” di scarica, mentre,

di fatto, i neuroni producono spikes, che di per sé potrebbero avere un significato

computazionale, ma come vedremo nel prossimo capitolo la propagazione degli

stimoli neurali ha caratteristiche molto diverse.

Un altro esempio di mancanza di realismo è quello dei “pattern diffusi di

comunicazione”, che si verificano quando vengono disperse sostanze chimiche in varie

regioni del cervello attraverso il circolo sanguigno. In genere assumiamo che la

comunicazione sia punto a punto, da un'unità a un'altra, in questo caso invece

abbiamo un sistema “bagnato” in cui le informazioni vengono trasportate dai vasi

sanguigni (si pensi all'ormone della crescita o all'adrenalina).

Le comunicazioni diffuse per mezzo di mediatori chimici, possono giocare un

ruolo importante nel determinare i parametri e modulare le reti, in modo che

quest'ultime possano eseguire compiti anche abbastanza diversi a seconda delle

diverse occasioni.

I modelli PDP sono per la maggior parte omogenei rispetto al funzionamento

delle unità, che sono progettate alcune come eccitatorie ed altre come inibitorie, ma,

al di là di ciò, è ben raro che siano differenziate. Sappiamo invece che ci sono forse

centinaia di tipi di neuroni, e non c'è dubbio che questi tipi diversi giochino un ruolo

in parte differenziato nel sistema di processamento delle informazioni.

Il problema unità/evento

45

Tra gli ulteriori problemi, per quel che riguarda l'approccio PDP, vi sono anche

alcuni aspetti tecnici di calcolo. Se ne può fare un elenco, ma i due più significativi

sono rappresentati dal problema unità/evento (typetoken, Jackendoff 1983) e dal

trattamento delle variabili. Il problema unità/evento consiste nell'essere in grado di

tenere conto di diverse occorrenze dello stesso concetto, a volte nel medesimo istante.

Così, se il sistema è a conoscenza del fatto che “Gianni mangia un panino” e

che “Elena mangia un panino”, il sistema deve trattare i due panini come differenti.

Questa capacità non è semplice per i sistemi PDP: le reti sono magnifiche per

rappresentare le proprietà generali, che possano valere per classi d'oggetti. E' qui che

si mostra il loro potere di generalizzare, di generare automaticamente valori per

difetto. Ma l'abilità complementare di tenere le cose distinte sembra molto più

difficile.

La necessità di una struttura valutativa ulteriore

Un problema che presentano i modelli PDP consiste nel fatto che essi sono

troppo specializzati, preoccupati così di risolvere i problemi del momento, senza

chiedersi come può collocarsi il singolo modello in un insieme complessivo.

I vari modelli ci si presentano come versioni differenti di un'unica struttura

omogenea, perfettamente idonea a svolgere i suoi compiti, ma secondo McClelland

non sufficiente per fare l'intero lavoro, come se questi modelli fossero nell'insieme

esperti muratori, tappezzieri, imbianchini, gessisti, posatori, elettricisti, che, in

assenza di un'organizzazione generale che li sovrintenda, fossero incapaci di costruire

una casa. Una struttura PDP non può eseguire un compito così complesso, perché

manca la comunicazione tra i vari sistemi.

E' un discorso che sembra particolarmente pertinente a proposito

dell'apprendimento. Anche se molte delle regole dell'apprendimento sono

autocorrettive, e tendono perciò a convergere in un modo o nell'altro verso una

prestazione ottimale, esse sembrano insufficientemente sensibili agli scopi e alle

valutazioni gobali dell'organismo in cui sono implementate.

46

Se oggi si ammette tranquillamente che di per sé l'intenzione di apprendere

non è un determinante importante dell'apprendimento, quest'intenzione però mobilita

le attività cognitive, con il risultato di un migliore apprendimento.

Non molto viene detto su queste intenzioni, la loro fonte, o i modi in cui

influenzano l'apprendimento e la prestazione del sistema. Quando si passa

all'apprendimento, è frequente il caso che ci sia un qualcosa che deve sovrintendere

alle operazioni e agisce come addestratore. Ma questo addestratore è distinto dai

meccanismo di apprendimento, e deve essere in grado di valutare la qualità della

prestazione.

Tutte queste critiche hai sistemi PDP lasciano supporre che la rete

connessionistica sia mancante di qualcosa rispetto alla realtà fisiologica. L'utilizzo di

reti piccole per ridotti insiemi di dati può ridurre questa differenza, tuttavia se si

dovessero utilizzare reti più grandi avremo problemi di addestramento (regola delta,

problema dei 100 passi di Feldman, …) o nel caso di più reti che operino

contemporaneamente avremo problemi di gestione e dovremmo utilizzare sovra

programmi e questo non è possibile per compiti altamente specializzati.

Utilizzare quindi reti connessionistiche per simulare modelli neurali di

percezione e di meccanismi motori appare allora più complesso di quanto era parso in

un primo momento. Se è corretto dire che le simulazioni (attraverso le reti ridotte) di

Bailey, Regier, Narayanan provano che è possibile considerare la mente come “fisica”,

visto che gli schemi neuronali della percezione e dei meccanismi motori sono gli stessi

utilizzati per la formazione dei concetti, è altresì valido dire che questi software hanno

delle limitazioni che ci impediscono di pensare che il cervello le utilizzi per il

linguaggio, l'apprendimento, il pensiero,…).

Cercheremo nel prossimo capitolo di superare queste difficoltà analizzando il

tipo di informazione che viene processata nei neuroni, e aggiungeremo ciò di cui sono

manchevoli le reti PDP, dando un nuovo impulso alla teoria delle metafore di Lakoff e

Grady.

47

Capitolo 3La Neurocomunicazione

“L'anima è un'ipotesi inutile:l'uomo è una macchina.”

Julien Offroy de La Mettrie

Dopo quanto mostrato fin ora, emergono delle domande: la realtà fisiologica

del cervello è quella che è riprodotta dai sistemi connessionistici o c'è qualcosa che rimane

fuori? Ciò che viene escluso, perché ne è escluso? E' una realtà riproducibile teoricamente

con una rete connessionistica? Le metafore primitive di Grady sono riproducibili con

simulazioni informatiche?

Partiremo dalle caratteristiche fisiologiche del neurone descrivendo la sua

neurocomunicazione, cioè come viene trasportata l’informazione elettrochimica tra i

neuroni, paragonandola in seguito a quella tra i nodi delle reti PDP e concluderemo

con la proposta di un modello per poterla riprodurre adeguatamente non tanto dal

punto di vista strettamente fisico (la creazione di un altro neurone) quanto per la

simulazione informatica , i passaggi logicomatematici che in esso avvengono.

3.1 Come trasporta il segnale la cellula neuronale.

I neuroni che compongono il sistema nervoso possono essere diversi per forma

e dimensioni, ma possono essere schematizzati con un modello unitario.

48

Fig.4.1

Ciascuna cellula è formata da un corpo, il soma, che dà origine a due

prolungamenti, i dendriti e l'assone. Entrambi i prolungamenti terminano con le

sinapsi ovvero i punti di contatto con altri neuroni o in alcuni casi con bottoni

sinaptici. Tra una sinapsi e l'altra scorre l'informazione, che è propagata sia in maniera

elettrica che elettrochimica.

Quell’elettrica consiste in una carica che attraversa le pareti cellulari in

entrambi le direzioni, e trasmette lo stimolo in maniera pressoché istantanea, facendo

interagire gruppi di cellule simultaneamente.

Pensiamo alla risposta motoria che ha la nostra mano quando tocca qualcosa di

estremamente caldo o la reazione classica al colpo del martelletto del dottore su un

ginocchio. L'informazione elettrochimica è invece modulabile, si ha un trasporto

dell’informazione con un flusso di ioni dai dendriti attraverso l'assone fino alla sinapsi

opposta e da qui agli altri neuroni in maniera unidirezionale.

Il passaggio non è più istantaneo come per la corrente elettrica, ma

elettrochimico; ciò vuol dire che tra un neurone e un altro esistono particolari

strutture, i bottoni sinaptici, che possono modulare il segnale con quantità (pacchetti)

di ioni.

Questi bottoni aumentano e diminuiscono il segnale da trasmettere e seconda

della frequenza dell'impulso, permettendo così ad esempio l’apprendimento delle

funzioni psicomotorie (come andare in bicicletta, sbucciare una mela con il coltello…

) all'inizio sembra un compito impossibile, invece attraverso la pratica impariamo, così

bene da sembrarci un'azione innata.

49

Questo accade in quanto l'apprendimento sembra consistere nella modifica dei

pesi della rete neuronale, cioè nel tarare le quantità di ioni rilasciati dai bottoni

sinaptici ed è per questa sua caratteristica che ci occuperemo in questa sede solo della

trasmissione elettrochimica.

La cellula neurale, qualsiasi essa sia, trasmette il segnale sempre con la solita

procedura:

A recepisce il segnale d'ingresso

B lo integra

C lo conduce (potenziale d'azione)

D lo fa uscire (potenziale sinaptico)

Fig.4.2

Il segnale d'ingresso si propaga attraverso la membrana del neurone, i tempi e i

modi di questa propagazione dipendono dalle proprietà elettrochimiche della

membrana. Nella figura 4.2 vediamo le quattro sezioni di trasmissione

dell'informazione neuronale: A è il soma a cui giunge la fine delle sinapsi in entrata di

un neurone precedente o di un bottone sinaptico (postsinapsi), B è l'insieme di

segnali che da A vengono recepiti e trasformati in frequenze di impulsi unitari che

sono trasportati dall'assone C, e infine D è la parte del bottone sinaptico in uscita (pre

sinaptica) in cui l’informazione è trasferita ad altri neuroni.

La trasmissione avviene in questo modo: la membrana si eccita cambiando il

suo potenziale di membrana a riposo, cioè la differenza di potenziale fra la parte

50

interna e quell'esterna della cellula (di solito 65mV), che viene mantenuta con

concentrazioni chimiche di ioni di sodio, potassio e cloro.

Fig.4.3

Con l'arrivo di una stimolazione, la membrana cambia il suo potenziale, e in

prossimità di una zona ben precisa del corpo della cellula (B), posta all'inizio del

corpo dell'assone, lascia partire una scarica elettrica del tipo tutto o nulla (potenziale

d'azione), che si propaga attraverso l'assone (C) fino alla parte opposta della cellula.

Fig.4.4

Un segnale tutto o nulla significa che nella zona d'innesco (B) è generato un

segnale elettrico digitale, la cui ampiezza e durata sono sempre le stesse e mantenute

51

tali dalle proprietà elettrochimiche della membrana assonica (la sua ampiezza può

essere anche di 110mV ed essere trasportata per un metro).

Nel trasporto (C) il segnale ha caratteristiche unitarie, la trasmissione delle

informazioni avviene solo grazie alla frequenza degli impulsi che attraversano

l'assone, e alla fine (D) il segnale è trasmesso alle altre cellule attraverso le sinapsi

(potenziale sinaptico).

Quest'ultime attraverso un bottone sinaptico rilasciano pacchetti di neuro

trasmettitore, cioè modulano il segnale in maniera analogica secondo il rapporto

frequenza impulso/quantità neurotrasmettitore.

Fig.4.5

L'informazione così trasportata si modifica dal passaggio da un elemento

all'altro del neurone e successivamente da un neurone all'altro. Nella figura 4.6

possiamo vedere come alla variazione dello stimolo corrisponde la variazione del

rilascio di neurotrasmettitore.

52

Fig.4.6

3.1.1 La struttura della membrana (A).

In questa descrizione dobbiamo poi tenere conto poi di altri elementi che

incidono sulla trasmissione del segnale come la struttura della membrana. Nelle

sinapsi la cellula che trasmette in quel preciso punto possiede, per usare un’immagine

un po’ fantasiosa ma efficace, una “pistola a spruzzo”: vale a dire un sistema che

spruzza sulla membrana dell’altra cellula delle sostanze chimiche. Esistono molti tipi

di queste sostanze chimiche (aceticolina, dopamina, serotonina, noradrenalina),

ognuna delle quali provoca reazioni diverse.

La cellula riceve lo spruzzo , ha in quel punto un ricettore che è sensibile a

questo messaggio chimico: e attraverso un gioco di eccitazioni e inibizioni questo

stimolo può agire come grilletto, provocando nella cellula nervosa ricevente una

scarica elettrica dovuta alla polarizzazione e depolarizzazione della membrana.

Quest’ultima non ha una distribuzione di potenziale omogenea, ma può

cambiare da zona a zona e nel tempo, in pratica è più o meno sensibile agli stimoli in

entrata e può modificare questa sua sensibilità nel tempo con la frequenza degli

impulsi che la attraversano.

53

Allora possiamo descriverla così:

Fig.4.7

Dove f1, f2, f3 sono la funzione che descrive la carica della membrana e la sua

variazione nel tempo t1, t2, t3, quindi avremo una funzione in un tempo distinto per

ogni carica in entrata m,n,p.

3.1.2 La costante di spazio .

Inoltre le sinapsi possono essere collegate spazialmente alla membrana cellulare in

qualsiasi punto, cioè vengono suddivise in sinapsi assosomatiche, assodendritiche,

assoassoniche a seconda del loro punto di contatto.

54

Fig.4.8

La disposizione spaziale delle sinapsi sulla membrana corrisponde a

caratteristiche funzionali ben precise, visto che il segnale trasportato impiega del

tempo a muoversi. Questa variazione temporale non è considerata nelle reti PDP e nei

computer in generale, perché sono reti elettriche e non elettrochimiche. Nel neurone

invece è rilevante la costante di spazio , il rapporto fra il segnale in ingresso, la

distanza percorsa e il potenziale della membrana, che modifica l'efficienza della

propagazione elettronica dei potenziali sinaptici.

Fig.4.9

Ad esempio: il potenziale d'azione di una cellula a (Fig.4.9) evoca potenziali

sinaptici nelle cellule b e c. Nel punto d'origine, i due potenziali sinaptici sono di

uguale ampiezza e percorrono la stessa distanza sia nella cellula b che in quella c. Ma

l'ampiezza del segnale d’ingresso, che arriva nella zona d'innesco della cellula b, è

tuttavia maggiore di quella del segnale che arriva nella cellula c perché la costante di

spazio dei dendriti di b è maggiore (1 mm) che non quella dei dendriti di c (0,1 mm).

Questo vuol dire che le disposizioni spaziali dei bottoni sinaptici e più in

generale la diversa propagazione nel tempo del segnale tra i neuroni, non sono

casuali, ma che, ad una loro precisa descrizione spaziale corrisponde una particolare

capacità funzionale della rete, che viene tramandata geneticamente.

55

Fig.4.10

Bisogna tenere presente inoltre come la membrana delle cellule nervose sia

molto sottile e circondata da un mezzo conduttore; essa ha perciò una capacità

elevata che rallenta la conduzione dei segnali di voltaggio.

Inoltre, le correnti che fanno variare la carica elettrica della membrana devono

propagarsi lungo una sottile colonna di citoplasma che in sostanza, rappresenta un

cattivo conduttore. Anche i canali ionici passivi che danno origine al potenziale di

riposo, contribuiscono a peggiorare la qualità dei segnali trasmessi dai neuroni.

Essi rendono, infatti, la cellula mal isolata e ciò, insieme all'elevata capacità

della membrana, limita notevolmente la distanza che i segnali nervosi sono in grado

di percorrere senza essere amplificati da processi attivi.

3.1.3 La zona d’innesco.

L'evoluzione ha tuttavia sviluppato nel sistema nervoso una serie di proprietà

tese a compensare queste limitazioni. La lunga costante di tempo dei neuroni è

sfruttata, a livello della loro zona integrativa (B), per fare una somma dei diversi

segnali in ingresso, per i tempi dell'ordine di millesecondi. La zona integrativa dei

neuroni ha piccole dimensioni; ciò fa sì che i potenziali sinaptici o del recettore

vengano generati in prossimità della zona d'innesco ottimizzando perciò l'integrazione

spaziale.

56

Fig.4.11

La zona d’innesco B trasforma il segnale analogico, quantitativamente rilevante

(valore della carica), in segnale digitale (il potenziale d’azione in cui è rilevante la

frequenza), cioè trasforma la quantità di potenziale sulla membrana in cariche

unitarie sull’assone.

Il punto B funge quindi da “modulatore ad impulsi unitari” biologico; un

modulatore è un circuito integrato che trasforma in un tempo t l’ampiezza del segnale

in entrata (A) in frequenza d’impulsi (C).

I segnali d'ingresso che diminuiscono di ampiezza con la distanza (A), vengono

codificati in una sequenza di impulsi adatti alla trasmissione a lunga distanza (C). I

canali voltaggiodipendenti che mantengono la differenza di potenziale rilasciando

ioni, danno, infatti, origine a potenziali d'azione, con un carattere di tutto o nulla, che

possono venire condotti senza decremento.

Nelle vie nervose in cui è particolarmente cruciale una segnalazione rapida, la

velocità di conduzione del potenziale d'azione è aumentata dalla mielinizzazione delle

fibre, dall'aumento del diametro degli assoni o da entrambi questi processi.

In D il potenziale d’azione g(i), dove i è l’impulso, viene trasformato in

potenziale sinaptico attraverso il rilascio da parte dei bottoni sinaptici di pacchetti di

neurotrasmettitore r,s,v. In questo caso si ha schematicamente un modulatore che

traduce la frequenza del segnale in ampiezza del segnale cioè in pacchetti di neuro

trasmettitore rilasciati g(i)=r,s,v.

57

Tuttavia il potenziale sinaptico può essere inibito o eccitato da sinapsi asso

assoniche (Fig 4.8) quindi abbiamo g(i)=h(r) e per ogni bottone sinaptico g(i)=h(r),

h(s), h(v).

Fig.4.12

Ricapitolando, nella trasmissione dell'informazione all'interno del neurone

avvengono le seguenti trasformazioni:

1)

In A avviene una propagazione dei segnali d'ingresso dai vari bottoni sinaptici, in

cui si tiene conto:

- Della frequenza dell'impulso in entrata e della sua carica (eccitatoria o inibitrice)

- Della topologia delle sinapsi, che si possono comunque disporre su tutto il corpo della

cellula

- Della sensibilità della membrana e quindi della costante di spazio fino al punto

d'integrazione B

- Della variazione nel tempo della sensibilità della membrana con l'aumentare e il

diminuire del le stimolazioni.

2)

58

In B si ha la traduzione del segnale d’ingresso (analogico) in potenziale d’azione

(digitale).

3)

Il segnale digitale attraversa C.

4)

E in D si traduce in un segnale analogico, che viene trasmesso dalla parte pre

sinaptica al successivo neurone attraverso i bottoni presinaptici.

3.2 La trasmissione dell’informazione nei nodi delle reti PDP

In una rete informatica qualsiasi, la trasmissione del segnale è assimilabile alla

trasmissione del segnale neuronale in C, in altre parole del tipo tutto o nulla, perché il

computer funziona con un segnale digitale 0/1 (Fig.3.1). I sostenitori della possibilità

di simulare un cervello con il computer (I.A. forte), simulando il funzionamento di un

neurone con un nodo di una rete, hanno sottolineato eccessivamente quest'aspetto,

non considerando la completa natura della trasmissione neuronale.

La rete PDP usa genericamente delle unità (i nodi), formate da un input, un

valore di soglia e un output, come illustrato nel diagramma seguente.

Fig.4.13

L'input ha valori di solito decimali tra zero e uno la soglia d'attivazione è una

funzione che si attiva solo per valori fissati e che elabora il segnale in uscita, il

dominio della funzione, così come il codominio è formato dall'insieme dei numeri

reali e più precisamente dai valori decimali tra 0 e 1.

59

Una rete usa una serie di queste unità collegate fra loro, dando ad ognuna un

valore d'attivazione ed un peso diverso, trasformando un valore in entrata in uno in

uscita. Matematicamente:

(1) y = f (x)

Nel caso di più entrate (come illustrato sotto):

Fig.4.14

I valori d'input sono sommati così:

(1.1) y = f ( n + m + p … + q )

Dove n + m + p … + q sono gli input provenienti dagli altri nodi e f è la

funzione di soglia del nodo, quindi per semplicità possiamo considerare il valore x =

n +…+ q e continuare ad usare la (1). I nodi in questione formano una rete (come

abbiamo visto nel precedente capitolo), in cui l'informazione in uscita è data dalla

somma delle varie funzioni (1) dei relativi nodi:

60

Fig.4.15

(1.2) y = c ( g(n) + h(m) + l(p) )

Ma la somma di più funzioni può a sua volta essere scritta come un valore e

quindi considerando x = n 1 + m1 + p1 si torna alla forma (1).

Ciò è ovvio in quanto una rete artificiale connessionistica ha dei precisi vincoli;

la computabilità. Per comprendere pienamente il significato e le implicazioni di un

sistema computabile dobbiamo inserire la nozione di algoritmo.

Informalmente un algoritmo è l’indicazione di come si risolve un problema di

qualsiasi natura: esso consiste nella descrizione dei passi che un esecutore, sia umano

che meccanico, deve poter interpretare senza ambiguità per raggiungere la soluzione.

Poiché il problema deve poter essere risolto in tutte le sue istanze un algoritmo

è definito per un’assegnazione arbitraria di dati d’ingresso e deve produrre un

risultato corretto per ciascuna assegnazione.

Ogni algoritmo ha una lunghezza finita, ma la sua esecuzione può non

terminare in un tempo finito per qualche insieme di dati; ciò avviene se per tale

insieme, alcuni passi dell’algoritmo devono essere ripetuti illimitatamente o nella

trattazione d’insiemi infiniti.

I problemi per cui esiste un algoritmo che termina in ogni caso sono detti

problemi computabili. Dire che la rete qui descritta è computabile significa che noi

conosciamo i dati in entrata (x) o meglio il loro dominio e la relazione (f) che li lega

ai dati in uscita (condominio y).

61

Fig.4.16

La rete opera in uno spazio logicomatematico ben delimitato, in cui il dominio

e il condominio sono dati da un sottoinsieme dei numeri reali e che la relazione che

lega i due domini opera in un tempo finito.

Inoltre i passaggi che vengono operati tra nodo e nodo sono ricorsivamente

enumerabili. Il paradigma della ricorsività afferma che la soluzione di un problema si

ottiene attraverso la soluzione del problema stesso per uno o più sottoinsiemi dei dati

di partenza e la combinazione dei risultati così ottenuti.

Un algoritmo ricorsivo richiama dunque se stesso su un sottoinsieme di dati,

per un’esecuzione interna alla precedente e avente anch’essa forma ricorsiva, finché

opportune clausole consentano l’arresto della catena dei richiami (si noti che ricorsivo

si impiega nella logica anche con il significato di computabile con una macchina di

turing, vedi capitolo 4).

Il paradigma di enumerazione è impiegato per i problemi che si risolvono

attraverso la successione di scelte, eseguite in tutti i modi possibili. Il nuovo costrutto

linguistico “scegli (insieme)” provoca la scelta di tutti gli elementi dell’insieme

specificato, a uno a uno.

Per tutti gli elementi l’algoritmo procede con computazioni indipendenti che

possono nuovamente incontrare costrutti di scelta dando luogo a ramificazioni

successive, in una struttura complessiva ad albero. Quindi ogni relazione da x a y può

essere letta anche da y a x, questo implica che la rete sia finita e operi in un tempo

finito.

Concludendo, nella rete l'informazione si trasforma ed è trasportata sempre in

maniera ricorsivamente enumerabile, nel senso che si può sempre associare

un'informazione in entrata ad un'informazione in uscita.

Ricapitolando:

62

- qualsiasi sia la funzione la risultante del segnale in entrata sarà sempre nella forma (1)

cioè esisterà sempre un algoritmo che la calcola.

- la rete darà origine sempre ad un sistema ricorsivamente enumerabile.

- il segnale è sempre computabile cioè riproducibile da una macchina.

3.3 Il confronto fra i due modelli (neurone e nodo)

Come abbiamo visto nel § 4.1 la trasmissione delle informazioni nel neurone

possono essere descritte con una serie di funzioni, che chiariremo ora, approfondendo

la loro vera natura.

Nella zona d’ingresso dell’informazione abbiamo la funzione:

f1t1(m)

Questa funzione ft è lineare in quanto calcola la carica m che raggiunge la

membrana ne altera il suo potenziale propagandosi fino al punto B; la costante è

un valore fisso. Con lineare si intende in questo contesto che la funzione è

computabile e ricorsivamente enumerabile, in quanto associa a valori in entrata valori

in uscita in maniera biunivoca.

Nello specifico ad una carica elettrica in entrata associa una carica elettrica in

uscita in B. Similmente sappiamo che la zona di integrazione del segnale B funziona

come un modulatore ad impulsi unitari e quindi anch’esso opera in maniera lineare

trasformando la carica risultante f4t4(x) in frequenza d’impulsi g(i).

La trasmissione del segnale lungo l’assone (C) non crea problemi, in quanto il

segnale rimane immutato. Infine nell’ultima parte la carica viene riconvertita in

analogico attraverso h(r) che funziona come un modulatore inverso al primo. Nel

processo l’informazione sembrerebbe totalmente computabile e lineare e può essere

riprodotta artificialmente da una rete connessionistica; l’informazione elettrochimica

subirebbe delle modifiche nel suo percorso che possono essere simulate attraverso un

qualsiasi linguaggio informatico in quanto soddisfano le condizioni di riproducibilità

logicoinformatica (computazione), esiste cioè un algoritmo che descrive l’opera svolta

dal neurone.

63

Possiamo programmare a piacere i vari nodi di una rete per calcolare le

funzioni f 1t1(m), f4t4(x), g(i), h(r) o programmare un solo nodo che calcoli la

funzione che esprime l’algoritmo formato da tutte queste funzioni. Teoricamente

quindi la funzionalità del sistema neuronale potrebbe essere riprodotta da una rete

artificiale, se sappiamo i vari parametri (la quantità di carica m, la disposizione

spaziale dei dendriti ,…) ; ipoteticamente potremmo riprodurre l’ intero cervello.

3.3.1 Gli stimoli inibitori

Tuttavia nella neurocomunicazione c’è di più, in quanto abbiamo volutamente

tralasciato alcuni aspetti; la prima questione, la più importante, è la possibilità di

inibizione dei bottoni sinaptici, in quanto come abbiamo visto nella Fig. 4.8 esistono

delle cariche negative (pacchetti di ioni) che inibiscono l’informazione trasportata.

Inibire vuol dire cancellare una o più parti della carica trasportata all’interno

del neurone, grazie alla natura elettrochimica dell’informazione (ioni negativi che si

annullano con ioni positivi).

Fig.4.17

Pensiamo ad esempio allo stimolo che ci fa ritrarre la mano quando ci

avviciniamo a qualcosa di estremamente caldo in quel caso per quanto doloroso, la

nostra mente può controllare la stimolazione involontaria inibendo lo stimolo che ci fa

ritrarre la mano in modo che questa si ustioni (come narrano di Muzio Scevola).

64

Fig.4.18

In questo caso l’informazione non rimane “da qualche parte nel sistema”, ma

viene “eliminata” definitivamente, un’operazione che un computer non può fare,

perché viola pesantemente il principio di computabilità.

Un computer può calcolare problemi finiti e problemi infiniti se si rende conto

che non terminano, ma non può calcolare problemi infiniti in un sistema che non sa

qual è l’informazione elaborata. Cioè il neurone diventa non ricorsivamente

enumerabile poiché associa ad un valore in entrata un non valore, cioè esistono delle

funzioni che non hanno valore (e non valore 0 che sarebbe già un valore), perché la

carica si cancella, non si annulla. Tutto questo non è più simulabile con un calcolatore,

come vedremo nel prossimo capitolo .

3.3.2 Il caso della sommazione sinaptica

Ed ancora, nel punto d’integrazione del segnale (B) abbiamo trattato il segnale

come una somma di cariche, tuttavia Bateson (1979), come altri scienziati cognitivi,

fa notare che nel processo biologico c'è di più: le informazioni in ingresso tra A e B si

combinano tra loro sulla membrana cellulare a seconda dei messaggi inibitori o

eccitatori e tra questi viene fatta una sommazione sinaptica.

“Sommazione sinaptica è il termine tecnico usato in neurofisiologia per indicare

quei casi in cui un neurone è attivato solo dalla combinazione dei neuroni 1 e 2. 1 da

solo e 2 da solo sono insufficienti per attivare il neurone in questione (A/D); ma se i

neuroni 1 e 2 si attivano insieme entro un intervallo di pochi microsecondi, allora la

membrana viene eccitata. Si noti che il termine tradizionale per questo fenomeno,

“sommazione”, farebbe pensare ad un'assommarsi dell'informazione proveniente da una

sorgente, all'informazione proveniente da un'altra.

In realtà, non si tratta di una somma, ma della formazione di un prodotto logico,

processo più affine alla moltiplicazione. L'effetto di tale meccanismo sulle informazioni

65

che il neurone 1 potrebbe fornire da solo è una segmentazione o ripartizione delle

attivazioni di 1 in due classi, cioè le attivazioni di 1 accompagnate da 2 e le attivazioni

di 1 non accompagnate da 2. Analogamente le attivazioni del neurone 2 sono suddivise

in due classi: quelle accompagnate da 1 e quelle non accompagnate da 1.” (pp.101102)

Fig.4.19

Alla luce di questa osservazione consideriamo la tipologia del segnale in

entrata, e trattiamoli come se fosse un’operazione logica booleana su un circuito

stampato. Una somma logica e definita secondo la tabella di verità:

Fig.4.20

Mentre un prodotto logico è definito come:

Fig.4.21

Quello che fa notare Bateson è che la realtà fisiologica non usa una singola

tabella di verità, ma può contenerne molteplici, perché non usa i valori 0/1 ma

cariche modulabili. Se pensiamo a cariche unitarie in entrata, una inibente e due

66

eccitanti, è normale ritenere che alla soglia arrivi una carica eccitante, se invece

pensiamo a cariche di 65, +75, +95 mV alla soglia arriva una carica di +105mV.

Cosa vuol dire questo; che dovremo usare delle tabelle di verità basate su una

logica matematica non booleana, come vedremo nel prossimo capitolo con la logica

fuzzy. Se poi pensiamo che i dendriti in entrata sono anche 100.000 allora abbiamo

una potenza computazionale del neurone elevatissima, in cui le possibili interazioni di

carica danno origine ad un segnale sull’assone per diversi valori di carica.

Allora il neurone viene definito così come una serie di input in entrata

f 1t1(m) , una somma di questi input non computabile f4t4(x), il trasporto del

segnale in forma digitale g(i) e un’uscita analogica h(r) che come abbiamo visto può

essere anch’essa non computabile; ne segue che la struttura neuronale elabora

l’informazione in maniera diversa dagli attuali computer creando delle difficoltà

notevoli per la sua simulazione e di questo ci occuperemo nel prossimo capitolo.

67

Capitolo 4

La noncomputabilità e i sistemi aperti

In questo capitolo chiariremo quali sono le caratteristiche che un computer

dovrebbe avere per riprodurre l’informazione neuronale, quelli che possono essere

considerati i suoi requisiti minimi di sistema. La ferma convinzione che tale processo

sia riproducibile pare plausibile vista l’evidenza dei processi neurali; che questo sia

possibile con una simulazione logicomatematica booleana usata da un computer è

una questione che andremo ora ad affrontare.

4.1 La macchina di Turing non computabile

Abbiamo accennato precedentemente alla nozione di computabilità, algoritmo

e alla proprietà ricorsivamente enumerabile, le amplieremo inserendo il concetto di

macchina teorica: la macchina Universale di Turing (Turing 1965).

La macchina di Turing è un dispositivo ideale consistente in un’unità di

controllo che evolve tra stati interni ed un insieme finito S, ed è guidata da una

testina di lettura/scrittura che scorre su un nastro infinito su cui sono scritti i dati in

ingresso con i caratteri di un insieme infinito C (per simulazioni di computer si

possono usare valori binari); la macchina legge sul nastro un carattere per volta e

decide in conseguenza di scrivervi un nuovo carattere, di muovere la testina sul

carattere a destra o a sinistra, e di portarsi in un nuovo stato interno.

Fig. 4.1

Una macchina di Turing si descrive mediante un insieme finito di quintuple del tipo

sc, cl, cs, m, sp ove sc S è lo stato interno corrente, cs C è il carattere

68

letto dal nastro, m destra,sinistra è lo spostamento della testina, sp S è lo

stato interno successivo. Tutte le quintuple iniziano con coppie sc, cl distinte, quindi

la macchina ha funzionamento deterministico; essa si arresta sulle coppie sc, cl, che

non sono contenute in alcuna quintupla.

Interpretando il contenuto del nastro come descrizione dei dati di un problema

P e il contenuto finale come descrizione del risultato, la macchina di Turing è un

algoritmo che risolve P; se P è computabile la macchina s’arresta in un tempo finito

per ogni contenuto iniziale del nastro.

L’I.A. introduce l’algoritmo quale struttura interpretativa intermedia tra il

mentale e il fisiologico abbandonando ogni tentativo di imitazione diretta del

substrato materiale del pensiero. Il fondamentale interesse che riveste la macchina di

Turing è legato alla tesi di Church (Church 1936), universalmente accettata, secondo cui

tutte le definizioni ragionevoli di algoritmo sono equivalenti.

In termini attuali, possiamo affermare che tutti i calcolatori possono eseguire

gli stessi algoritmi, che sono poi tutti gli algoritmi possibili, sempre che non eccedono

i loro limiti di memoria, in tal senso la macchina di Turing non ha alcuna limitazione,

perché utilizza un nastro infinito.

La tesi di Church implica che tutti i calcolatori, nonché la macchina di Turing e

ogni altro modello di computazione, possano simularsi a vicenda. Essi hanno tutti la

stessa potenza, anche se i tempi per eseguire lo stesso algoritmo sono diversi.

La macchina di Turing è un modo di definire meccanicamente un algoritmo,

cioè l'insieme di passi che si devono compiere per risolvere un problema; ed è formata

in sostanza da un nastro infinito di celle unitarie su cui scorre un cursore che vi incide

0 o 1.

La massima computabilità per questo tipo di macchine è data dalla macchina di

Turing Universale T(U), formata da tutte le macchine di Turing, quindi formata da

tutti gli algoritmi che risolvono tutti i problemi in un tempo finito.

La potenza computazionale di questa macchina teorica è elevata, perché

possiamo descrivere, in un tempo infinito, qualsiasi problema lineare, cioè risolvibile

in un numero finito, per quanto lungo, di passi.

4.1.1 I problemi P e NP

69

La definizione di Turing di algoritmo divide la funzioni numeriche in due

classi: calcolabili e non. Questa suddivisione non costituisce però che una prima

approssimazione, perché molte funzioni che sono calcolabili in teoria non lo sono

affatto in pratica.

Per esempio un algoritmo la cui esecuzione richieda un tempo più lungo della

durata dell’universo, o anche solo di una vita umana, non può certo essere ritenuto

eseguibile, benché possa esserlo in astratto.

Da un punto di vista applicativo è dunque necessario restringersi ad algoritmi

che abbiano tempi di esecuzione sufficientemente veloci. Nel 1965 Edmonbs e

Cobham proposero, come seconda approssimazione, la distinzione fra algoritmi

eseguibili in tempo polinomiale e non.

Il tempo di esecuzione viene qui misurato mediante il numero di passi eseguiti

dal calcolatore e la variabile del polinomio corrisponde alla dimensione dei dati su cui

l’algoritmo opera, per esempio alla loro lunghezza: così un algoritmo quadratico non

richiede più di cento passi su numeri di dieci cifre, più di diecimila passi su numeri di

cento cifre e così via.

Naturalmente il tempo di esecuzione di un algoritmo dipende fortemente dal

tipo e dalla potenza del calcolatore che viene usato per eseguirlo. Sorprendentemente

però se un algoritmo opera in un tempo polinomiale su un particolare calcolatore,

esso continua ad operare in un tempo polinomiale su qualunque altro: detto

altrimenti, la differenza fra i vari modelli di calcolatori e le loro varie implementazioni

si può sempre contenere in un fattore polinomiale, che può essere combinato con un

tempo di esecuzione polinomiale senza mutarne la natura.

L’essere eseguibile in un tempo polinomiale costituisce dunque una

caratteristica intrinseca e non accidentale di un algoritmo. La classe dei problemi per i

quali una soluzione polinomiale esiste si indica con il simbolo P. Nel 1972 S.Cook, R.

Karp e L. Levin hanno scoperto una classe potenzialmente più ampia di P, indicata con

il simbolo NP, i cui problemi, benché non necessariamente risolubili in tempo

polinomiale lo sono quasi: nel senso che, di ogni proposta soluzione, si può verificare

in tempo polinomiale se essa funziona oppure no.

La differenza tra P e NP è dunque la seguente: per stare nella prima classe è

necessario che un problema ammetta un metodo per trovare la soluzione in tempo

70

polinomiale, mentre per stare nella seconda classe è sufficiente che un problema

ammetta un metodo per verificare la soluzione in un tempo polinomiale.

Per esempio verificare che un certo numero di telefono corrisponde ad una

certa persona è facile, perché basta consultare l’elenco telefonico in ordina alfabetico;

ma trovare la persona che ha un certo numero di telefono è difficile perché richiede

una ricerca esaustiva dell’intero elenco.

Una delle scoperte sorprendenti di Cook, Karp e Livin fu che tutti questi

problemi con la sola possibile eccezione della scomponibilità così come migliaia di

altri nelle aree più disparate della matematica pura e applicata, sono sostanzialmente

equivalenti: trovare una soluzione polinomiale per uno qualunque di essi

significherebbe trovarne una per tutti perché esistono traduzioni polinomiali di

ciascuno di essi negli altri.

Trovare una soluzione polinomiale, oppure dimostrare che essa non esiste, per

uno qualunque dei problemi equivalenti isolati da Cook, Karp e Livin è risultato finora

impossibile: il problema se P e NP siano o no la stessa classe ha dunque acquistato il

sapore di una sfida ed è divenuto il più noto problema per l’informatica teorica.

La macchina di Turing universale è l’equivalente astratto dei moderni

calcolatori seriali, sui quali può essere eseguito un qualsiasi programma, debitamente

codificato, su qualsiasi insieme di dati, anch’essi forniti alla macchina nell’opportuna

codifica: una macchina “calcolatrice” non è limitata quindi a elaborare dati numerici,

ma può elaborare qualsiasi cosa di cui si possa fornire una rappresentazione

numerica, e può fornire la soluzione di qualsiasi problema per il quale si sia in grado

di congegnare un programma e una codifica dei dati.

In questo modo rendiamo evidenti e concreti concetti astratti come

computabilità e algoritmo; l’enfasi sulla similitudine fra comportamento intelligente e

l’elaborazione di un computer è stata indebitamente accresciuta da una diffusa ma

errata interpretazione della nota tesi ChurchTuring (Turing 1936): la tesi di Church,

secondo la quale “una funzione di interi positivi è effettivamente calcolabile solo se è

ricorsiva” equivale alla tesi di Turing, la quale, in una delle sue enunciazioni più

informali, ipotizza che “tutto ciò che è descrivibile come procedura puramente meccanica

equivale ad una macchina di Turing ”.

Queste due tesi equivalenti servono a formulare quella che fino ad allora era

una idea intuitiva nel campo della logicamatematica, ovvero quella di computabilità

71

effettiva o di procedura meccanica. Troviamo una definizione informale di procedura

meccanica nel contributo di B. J. Copeland (Copeland 1997) alla Stanford

Encyclopedia of Philosophy:

1) deve essere espressa nei termini di un numero finito di istruzioni esatte (ogni

istruzione espressa per mezzo di un numero finito di simboli);

2) se viene eseguita senza errori, produrrà sempre il risultato desiderato in un

numero finito di passi;

3) tale procedura può essere “eseguita”, in linea di principio, da un essere umano

senza l’aiuto di alcuno strumento tranne carta e penna;

4) la procedura non richiede né comprensione né applicazione di “ingegno” da

parte dell’umano che la applica.

Questa definizione in nessun modo può essere estesa a significare

“computabile da qualsiasi macchina” in generale. È vero che le architetture della

maggior parte dei calcolatori oggi in circolazione sono figlie della macchina di Turing

(in particolare di quella universale, in grado di simulare qualsiasi altra macchina di

Turing), ma questo non vuol dire che l’attività di qualsiasi macchina con qualsiasi

architettura debba necessariamente equivalere all’attività di una macchina di Turing.

Possiamo invece trovare, come fa notare con Copeland, che la tesi di Turing

viene spesso interpretata come se dicesse che qualsiasi procedura finita che opera su

un insieme di dati finiti possa essere calcolata da una macchina di Turing; da cui

l’indebita conclusione che, se consideriamo il cervello come qualcosa che esegue

operazioni finite sul numero finito degli impulsi neurali, allora il compito che il

cervello esegue è Turingcomputabile.

Nel capitolo precedente abbiamo mostrato come il neurone e quindi il cervello

non segua i principi della macchina di Turing, quindi deve esistere ed essere possibile

altresì la creazione di una macchina di Turing non computabile: ma vediamo di

analizzare i passaggi che compie la trasmissione neuronale alla luce di una reale

procedura meccanica.

72

Fig. 4.2

Vediamo come la zona di elaborazione dell’informazione sia situata fra le post

sinapsi di un neurone in uscita e la zona d’integrazione dei segnali nel neurone

successivo, la zona di trasporto del segnale, l’assone C, non ha caratteristiche

funzionali, ma solo di trasporto quindi trascurabile hai fini della nostra analisi.

Riprendiamo allora le nostre funzioni descrittive dell’informazione neuronale;

la carica nella postsinapsi del primo neurone viene convertita in analogico attraverso

h(m) che funziona come un modulatore ed è quindi computabile; abbiamo una

quantità m di neurotrasmettitore che viene rilasciato in prossimità della membrana

cellulare del secondo neurone e il segnale si propaga in esso secondo la funzione:

f1t1(m)

Questa funzione ft è computabile secondo Turing in quanto calcola l’alterazione

che la carica m causa al potenziale della membrana propagandosi fino al punto di

integrazione (B); la costante è un valore fisso. Similmente sappiamo che la zona di

integrazione del segnale B funziona come un modulatore ad impulsi unitari e quindi

anch’esso opera in maniera computabile trasformando la carica risultante f4t4(x) in

frequenza d’impulsi g(i).

h(m) f 1t1(m) g(i)

73

Fig. 4.3

Aggiungiamo ora l’elemento non Turing computabile: l’inibizione dell’impulso a

livello della sinapsi. Il neurone può essere simulato con una macchina di Turing

“Neurone” T(N) che ne descrive l’algoritmo di funzionamento, mentre l’inibizione

dell’impulso può essere simulata con un’altra macchina di Turing “Inibizione” T(I) in

quanto risultato dell’attività dell’algoritmo di un altro neurone. La loro interazione

rende il processo non Turing computabile, non meccanicamente riproducibile.

Fig. 4.4

Ovvero a livello del singolo neurone T(N), la macchina esegue la sua normale

procedura deterministica, ma la applica ad un insieme di input incompleti, quindi non

si ha più una computabilità effettiva o una procedura meccanica , si ha qualcosa di

diverso: una procedura meccanica noncomputabile.

È come se il programma svolto dalla macchina T(N) fosse modificato “a sua

insaputa” dal programma T(I), che come un virus benigno ne altera il funzionamento

74

cancellando così le informazioni ma implementando le capacità del sistema (come

vedremo meglio nel prossimo capitolo).

Questo significa che il segnale binario trasportato alla fine del processo

nell’assone è privo di alcune informazioni che si sono perse. Affrontiamo alcuni aspetti

del modello qui proposto:

1) È possibile che due macchine computabili originino un sistema noncomputabile?

Abbiamo visto che due macchine che svolgono una procedura meccanica

possono lavorare in modo tale che l’una renda noncomputabile l’altra, cosicché

l’informazione che deriva da quest’ultima sia in ultima analisi noncomputabile.

La relazione che lega queste due macchine è una relazione particolare in

quanto la macchina T(N) è una sottomacchina, ha un rapporto di subordinazione

logica a T(I), ma è la macchina che elabora l’informazione e che da un output.

La macchina T(I) si limita a dire quale informazione deve essere cancellata

seguendo il suo programma, quindi si comporta in maniera computabile secondo

Turing. È come se un programma utilizzasse un altro programma per compiere

un’operazione, ma decidesse lui quali dati lasciare che siano immessi, cancellandone

altri.

Facciamo un esempio pratico: la macchina T(N) è una macchina che sa giocare

a “Tetris” allinea i mattoncini che gli vengono dati per costruire un muro secondo un

suo algoritmo: la macchina T(I) decide secondo il suo algoritmo quando ci sono dei

mattoncini che non conviene usare.

Il muro sarà costruito da T(N) con tutti i mattoncini che le sarà permesso

usare, quindi la sua costruzione non sarà più computabile, così l’informazione in

uscita dal neurone sarà manchevole di alcuni dati persi irrimediabilmente e non più

recuperabili.

Questa procedura rende il programma T(N) non deterministico, non per la sua

procedura perché entrambi le macchine funzionano secondo un algoritmo

deterministico, ma per i dati in uscita che non sono più ricorsivamente enumerabili.

Le macchine lavorano su due dimensioni diverse: consideriamo una dimensione

una serie quantità legate da una relazione, nell’attuale contesto pensiamo ad una

dimensione come una macchina di Turing universale, quindi formata da tutti gli

algoritmi che risolvono tutti i problemi in un tempo finito.

75

2) Le due macchine di Turing sono riproducibili da una terza macchina che simuli il

comportamento di entrambe?

Una siffatta macchina T(S) avrebbe in entrata i dati disponibili, un algoritmo

costituito dalla somma dei due algoritmi delle due macchine e in uscita alcuni dati

non ricorsivamente enumerabili, quindi la macchina non è deterministica. Sommare

gli algoritmi vuol dire descrivere quando l’algoritmo T(I) debba intervenire su T(N), è

cioè un algoritmo dimensionale; non si tratta di sommare parti di codice, quanto più

dire quando il codice di una macchina debba intervenire su quello dell’altra.

Vuol dire che le due macchine lavorano indipendentemente su due dimensioni

diverse, ma quando avviene un determinato evento in un tempo tı in T(N), T(I) lo

cancella. Tenendo conto di questa differenza, una macchina che simuli le altre due è

una macchina che non è turing computabile.

3) Qual è la massima potenza computazionale di una siffatta macchina?

La potenza massima ideale che un computer può raggiungere non è più la macchina

universale di Turing, ma una macchina formata da infinite macchine universali per

infinite dimensioni, ed è di quest’ordine la massima potenza computazionale del

nostro cervello.

Ovvero una dimensione ha la sua massima potenza computazionale in una

macchina di turing universale; due dimensioni hanno la loro massima potenza

computazionale non nella somma di due macchine di Turing universali, che darebbe

un’altra macchina di turing universale, ma nella somma delle due dimensioni che

originano una macchina di turing sovradimensionale non computabile da una

singola macchina.

Se una retta infinita è una dimensione ovvero una macchina di Turing

Universale allora uno spazio pluridimensionale è pensabile come intersezione di più

macchine tra loro.

76

Fig. 4.5

Per infinite dimensioni avremo infinite macchine di Turing universali, collegate

come scatole cinesi fino ad una macchina di turing sovradimensionale che le

racchiude tutte.

Se il neurone opera su una dimensione, due neuroni possono crearne tre, si

pensi a quante dimensioni possono essere generate da 10¹º, 10¹¹ neuroni; si pensi a

quante altre possono essere generate da 5 miliardi di cervelli, e se consideriamo anche

solo 2000 anni di storia si pensi a qual è la potenza computazionale del genere

umano.

4.2 I sistemi aperti

4.2.1 La logica fuzzy

Affrontiamo ora il caso della sommazione sinaptica. Abbiamo mostrato alla fine

del precedente capitolo come sulla membrana operi una matematica speciale derivata

dall’interazione delle cariche, una matematica non booleana ma dimensionale; negli

ultimi anni nel campo delle intelligenze artificiali si è utilizzato molto un modello di

matematica dimensionale, la logica fuzzy (Cammarata 1994, Zadeh 1992, Kosko

1993).

77

Questo non è l'unico modello di matematica dimensionale, ma è sicuramente

molto facile da gestire, soprattutto per sistemi semplici con poche variabili. Facciamo

un esempio, secondo la logica bipolare vero/falso la frase:

il bicchiere è mezzo pieno e mezzo vuoto

dà origine a paradossi e contraddizioni in un sistema logico a due valori di verità,

perché quando cerchiamo di descrivere la frase in maniera lineare, partendo dalla

condizione del bicchiere, abbiamo la coesistenza di due stati “mezzo pieno” e “mezzo

vuoto” contemporaneamente.

Nella logica fuzzy invece gli input sono elaborati in uno spazio particolare

chiamato appunto fuzzy, dove i valori di verità sono infiniti, cioè ci sono infinite

sfumature fra vero e falso. La descrizione che viene fatta del bicchiere è facilmente

definibile con una funzione su un piano cartesiano, in cui colleghiamo i due concetti

fra loro, su un asse poniamo i valori di verità possibili e sull'altro la quantità d'acqua,

avremo quindi delle funzioni che rappresentano le seguenti affermazioni:

il bicchiere è pieno

Fig. 4.6

il bicchiere è vuoto

78

Fig. 4.7

il bicchiere è 1/2 pieno e 1/2 vuoto

Fig. 4.8

Le tre funzioni prendono il nome di funzioni membership e la superficie che

delimitano definisce un insieme fuzzy (i due trapezi e il triangolo). L'utilità di una

simile rappresentazione è che se le applichiamo alle frasi relative ai bicchieri pieni

d'acqua, possiamo gestirle con insiemi fuzzy.

Possiamo vedere ad esempio che il bicchiere è mezzo pieno e mezzo vuoto

corrisponde geometricamente ai punti interni al triangolo della figura 4.21, e che ha

parti in comune con il concetto di bicchiere è pieno e di bicchiere è vuoto.

Questo passaggio tra la dimensione lineare delle rette e l’area da loro definita è

un passaggio di dimensione tra la logica bipolare e quella fuzzy.

Quindi non solo coesistono più dimensioni in uno stesso punto senza paradossi,

ma anche il passaggio da una dimensione all'altra non subisce sbalzi logici, infatti

79

come vedremo nella figura sottostante, se prendiamo un mezzo bicchiere d'acqua,

poco cambia se ne aggiungiamo una piccola quantità in più o in meno, rimarrà

sempre descrivibile come un mezzo bicchiere.

Fig. 4.9

E' interessante notare che se vogliamo estrarre da questo insieme fuzzy un

valore preciso e non ambiguo, come la determinazione della quantità d'acqua esatta

per avere un bicchiere che appartenga a tutte e tre le frasi suddette, possiamo

compiere una specie di media, calcolando il baricentro degli insiemi.

Quest'operazione si chiama defuzzificazione ed è presumibilmente quello che

succede nel neurone al punto B. Infatti, possiamo pensare che sulla membrana del

neurone e nella zona d’innesco successiva, si abbia una fuzzificazione e una

defuzzificazione, in maniera tale che l'informazione viene operata in uno spazio pluri

dimensionale e trasportata attraverso il segnale digitale.

Questo tipo di matematica presuppone che gli insiemi utilizzati siano insiemi

aperti cioè in qualche misura infiniti nei loro valori di verità e che i sistemi che

originano dalle loro aggregazioni siano sistemi aperti, cioè non delimitati da una sola

dimensione ma agenti su più dimensioni. Tutto ciò è ancora più facilmente

comprensibile se facciamo simulare il teorema di Gödel una macchina di Turing.

4.3 Il teorema di Gödel come prova dell’esistenza di altre dimensioni

4.3.1 Entscheidungsproblem

80

Negli anni ’20 in mondo matematico era sotto l’influsso del programma di

Hilbert che proponeva un quadro concettuale di riferimento per i fondamenti della

matematica centrato sulla formalizzazione delle teorie e del ragionamento all’interno

di sistemi logici rigorosi.

L’obiettivo specifico era quello di dimostrare la non contraddittorietà della

teoria dei numeri e dell’analisi; lo scopo più generale era quello di studiare

matematicamente le teorie matematiche.

Il prerequisito necessario era che le formule, i teoremi e le loro dimostrazioni,

fossero presentati come oggetti finiti e strutturati in modo tale da poter svolgere su di

essi ragionamenti matematici combinatori e induttivi.

Il programma di Hilbert prende corpo nel momento dell’irruzione nella

matematica dei metodi infiniti, sullo sfondo di una generale resistenza a essi e

dall’accettazione piena e sicura del solo finito.

L’intenzione di Hilbert era quella di giustificare l’uso dell’infinito in

matematica, attraverso una dimostrazione del suo carattere strumentale: una finzione

utile per le dimostrazioni ma senza una realtà autonoma. Sarebbe stato sufficiente

provare che l’uso dell’infinito non poteva portare a dimostrare cose false almeno tra

quelle verificabili.

Spostata l’attenzione dai contenuti e dai significati alle espressioni formali,

finite e alle teorie irreggimentate nei calcoli, non è difficile vedere con qualche

passaggio tecnico che l’obiettivo sopra indicato è equivalente alla dimostrazione di

non contraddittorietà delle teorie in questione.

Nei dettagli, quello che si richiede, dopo aver descritto le teorie in un

linguaggio dalla sintassi rigorosamente precisa, è che l’insieme degli assiomi

costituisca un insieme decidibile, cioè tale che esista un algoritmo per riconoscere gli

assiomi, e questo in vista di una richiesta più generale, cioè che la nozione di prova

sia decidibile.

Gli oggetti su cui si ragiona devono essere individuabili in modo non ambiguo;

risulta quello che oggi chiamiamo teoria formalizzata o sistema formale: le prove sono

successioni finite di espressioni ottenute l’una dall’altra applicando un numero finito

di regole di trasformazione effettive.

81

L’interesse del problema stava nel fatto (problema della decisione) che le varie

branchie della matematica si possono uniformemente presentare attraverso sistemi di

assiomi da cui i teoremi si derivano mediante la sola logica.

Un algoritmo come quello richiesto da Hilbert avrebbe dunque permesso ai

matematici di concentrarsi sulla formulazione di assiomi e l’enunciazione di enunciati

interessanti e di lasciare all’algoritmo la parte più faticosa cioè la dimostrazione degli

enunciati a partire dagli assiomi.

Il problema fu risolto indipendentemente nel 1936 da Church negli Stati Uniti e

da Turing in Inghilterra. La soluzione, come si può prevedere dal fatto che le

dimostrazioni hanno continuato a essere la parte centrale dell’attività matematica, fu

negativa.

Un algoritmo come quello richiesto da Hilbert non esiste ma la dimostrazione

di questo fatto presuppone un progresso sostanziale: mentre infatti una dimostrazione

di esistenza di un algoritmo richiede semplicemente la sua esibizione, una

dimostrazione di non esistenza, richiede l’esclusione di ogni possibile algoritmo e

dunque la caratterizzazione completa della nozione stessa di algoritmo.

Il fatto che una tale nozione vaga e intuitiva ammetta effettivamente una

caratterizzazione precisa e formale, fu una scoperta sorprendente, alla quale si arrivò

mediante una serie di tentativi di definizione che risultarono, a posteriori, essere tutti

equivalenti.

Ma fu proprio l’approccio di Turing a convincere definitivamente che si era

arrivati alla soluzione del problema: oggi la sua definizione si può riformulare in

maniera quasi banale, dicendo che un algoritmo è ciò che si può tradurre in un

programma per calcolatore, in uno qualunque dei linguaggi detti universali (Pascal,

Lisp, Prolog).

Turing derivò la soluzione negativa del entscheidungsproblem traducendo, nel

linguaggio della logica, il cosiddetto problema della fermata: decidere se un dato

programma si ferma su un dato argomento.

Che questo problema sia indecidibile, nel senso che non esista nessun

programma che lo possa decidere, si può dimostrare facilmente mediante il classico

metodo diagonale, introdotto da Kant in teoria degli insiemi, e poi sfruttato da Russel

per il suo paradosso e da Gödel per il suo teorema di incompletezza: metodo che era

82

dunque ben noto a Turing e a Church (che risolse il problema in maniera analoga

usando però la sua equivalente definizione di algoritmo in termini di lambda calcolo).

Dal punto di vista matematico, l’applicazione più interessante del metodo fu la

soluzione negativa del decimo problema di Hilbert: trovare un algoritmo per decidere

se un polinomio (in una o più variabili) ha coefficienti interi (positivi o negativi)

ammette zeri interi; o in altri termini se la cosiddetta equazione diofantea che si

ottiene uguagliando il polinomio a zero ammette radici intere.

4.3.2 Una porta su altre dimensioni

Il primo teorema di incompletezza di Gödel afferma che ogni teoria adeguata

per un minimo di aritmetica è incompleta, nel senso che esiste una proposizione tale

che né essa né la sua negazione sono teoremi. Una simile proposizione di dice

indecidibile nella teoria. Al momento della dimostrazione 1931, questo risultato

apparve sconvolgente perché tutti si aspettavano in contrario e per ragioni di fondo.

Tale risultato infatti sembrava mettere in discussione nozioni fondamentali del

pensiero matematico, come quelle di teoria, dimostrazione, verità.

Spostata l’attenzione dai contenuti e dai significati alle espressioni formali,

finite e alle teorie irreggimentate nei calcoli, non è difficile vedere con qualche

passaggio tecnico che l’obiettivo sopra indicato è equivalente alla dimostrazione di

non contraddittorietà delle teorie in questione.

Veniva così anche dato un significato più pregnante all’esigenza della non

contraddittorietà aldilà della diffusa posizione che equiparava esistenza e non

contraddittorietà in matematica.

Nei dettagli, quello che si richiede, dopo aver descritto le teorie in un

linguaggio dalla sintassi rigorosamente precisa, è che l’insieme degli assiomi

costituisca un insieme decidibile, cioè tale che esista un algoritmo per riconoscere gli

assiomi, e questo in vista di una richiesta più generale, cioè che la nozione di prova

sia decidibile.

Gli oggetti su cui si ragiona devono essere individuabili in modo non ambiguo.

E risulta quello che oggi chiamiamo teoria formalizzata o sistema formale: le prove

sono successioni finite di espressioni ottenute l’una dall’altra applicando un numero

83

finito di regole di trasformazione effettive. Adesso bisogna spiegare in che senso

questo non è vero, perché infatti alla luce del teorema di Gödel qualcosa non torna.

I fenomeni negativi di incompletezza e di impossibilità legati

all’autoriferimento si manifestano per un motivo naturale e convincente. I problemi

riguardanti i calcoli ed i processi meccanici che richiedono una risposta si, no,

presentano una simmetria tra le due risposte; una di solito è data dal verificarsi di una

situazione completa, l’apparizione ad un certo punto di un simbolo sul nastro, che

mette fine alla computazione; l’altra è data dalla realizzazione che un simile fatto non

accadrà mai.

Quindi, bisogna dimostrare o comunque accorgersi, in un numero finito di

passi, di un fatto che involve una quantità infinita di informazioni. Affrontiamo a

grandi linee la parte più importante del ragionamento di Gödel (Nagel, Newman

1958).

Gödel mostrò come fosse possibile assegnare un unico numero a ciascun segno

elementare, a ciascuna formula e a ciascuna dimostrazione del calcolo aritmetico;

questi numeri vengono chiamati godeliani.

Se si prendono gli assiomi di PeanoDedekin come teoria, dal momento che

questi hanno un'unica realizzazione, le loro conseguenze logiche sono le proposizioni

vere in N (insieme dei numeri naturali) e se le dimostrazioni logiche danno tutte le

conseguenze logiche degli assiomi, i teoremi potrebbero essere tutti enunciati veri in

N, quindi non dovrebbe esserci nessun enunciato indecidibile.

Una volta effettuata l’aritmetizzazione dei linguaggi scatta il fenomeno

dell’autoriferimento. Autoriferimento vuol dire che i termini della teoria numerica

denotano anche elementi del mondo linguistico in cui si svolge la teoria e le formule

aritmetiche fanno affermazioni sulle formule attraverso i loro gödeliani.

I gödeliani degli assiomi dell’aritmetica di Peano formano un insieme decidibile

e ricorsivo, quindi rappresentabile; le dimostrazioni sono sequenze finite il cui

carattere di derivazione, per i legami interni tra i singoli passi, è decidibile quindi,

esiste una relazione rappresentabile.

1) Gödel mostrò in che modo sia possibile costruire una formula artimetica G che

rappresenti la proposizione metamatematica: “la formula G non è dimostrabile”.

Questa formula allora evidentemente afferma la sua non dimostrabilità.

84

2) Gödel dimostrò anche che G è dimostrabile se e solo se la sua negazione formale ¬G

è dimostrabile. In base a ciò il calcolo è autocompatibile, sia G che la sua negazione

formale ¬G sono formalmente deducibili dagli assiomi dell’aritmetica.

3) Gödel dimostrò che sebbene G non sia formalmente dimostrabile, tuttavia è una

formula aritmetica vera. E’ vera nel senso che afferma che ogni intero possiede una

certa proprietà aritmetica che può essere esattamente definita ed è posseduta da

qualsiasi intero assegnato.

4) Dato che G è vera e insieme formalmente indecidibile, gli assiomi dell’aritmetica non

sono completi. In altre parole non possiamo dedurre tutte le verità aritmetiche dagli

assiomi.

Inoltre Gödel dimostrò che l’aritmetica è essenzialmente incompleta anche se si

supponessero altri assiomi aggiuntivi tali da permettere la formale deduzione della

formula vera G dall’insieme più ampio si potrebbe costruire un’altra formula vera ma

formalmente indecidibile.

5) Gödel descrisse la maniera in cui costruire una formula aritmetica A che rappresenti la

proposizione matematica: “l’aritmetica è autocompatibile” e dimostrò che la formula è

formalmente dimostrabile. Ne segue che l’autocompatibilità dell’aritmetica non può

essere stabilita con argomenti rappresentabili nel calcolo aritmetico formale.

Quindi il primo teorema di incompletezza di Gödel afferma che ogni teoria

adeguata per un minimo di aritmetica è incompleta, nel senso che esiste una proposizione

tale che né essa né la sua negazione sono teoremi. Una simile proposizione di dice

indecidibile nella teoria.

Tuttavia il teorema di Gödel è in linea con quanto detto precedentemente sulla

macchina di Turing sovradimensionale; esistono dei dati che sono veri e autentici ma

che non sono riconducibili ad un processo ricorsivamente enumerabile, in quanto

“dimensionalmente enumerabile”.

I problemi riguardanti i calcoli ed i processi meccanici che richiedono una

risposta si/no, presentano una simmetria tra le due risposte; una di solito è data dal

verificarsi di una situazione completa, l’apparizione ad un certo punto di un simbolo

sul nastro, che mette fine alla computazione; l’altra è data dalla realizzazione che un

simile fatto non accadrà mai.

85

E’ evidente la simmetria tra le due risposte; nel primo caso si può pensare che

un algoritmo universale simuli la macchina, e se e quando questa si ferma ne prende

atto; nel secondo caso, occorre accorgersi, dopo un numero finito di passi, che il

calcolo andrà avanti all’infinito, e che in ogni istante successivo la macchina avrà del

lavoro da svolgere.

Quindi, bisogna dimostrare o comunque accorgersi, in un numero finito di

passi, di un fatto che involve una quantità infinita di informazioni.

Fisicamente immaginiamo una macchina di Turing che computa, ad un certo

punto parte del suo nastro si sovrappone a quello di un’altra macchina di Turing, in

quello istante si sovrappongono due dimensioni e i dati di una dimensione scivolano

nell’altra. In entrambe le dimensioni i processi sono computabili, tuttavia una

macchina in una dimensione non può calcolare i dati anche nell’altra dimensione.

Il teorema di Gödel mostra come esistano in matematica proposizioni vere ma

che non sono state definite nella dimensione del linguaggio sorgente; il teorema

simbolicamente è una porta verso altre dimensioni, tutte contenute nella matematica;

Gödel dimostra così come la matematica sia dimensionale.

Ed ancora, gli insiemi ricorsivi sono quelli generati da un processo meccanico

che uno dopo l’altro espelle gli elementi dell’insieme. Il processo si può identificare

con una funzione ricorsiva, di cui l’insieme è l’immagine; oppure l’insieme si può

identificare con il dominio di una funzione parzialmente definita: quando i calcoli

terminano, l’input sta nell’insieme; quando i calcoli non terminano, la funzione non è

definita e l’elemento non sta nell’insieme.

La famiglia di questi insiemi ha una ricca struttura. Un insieme ricorsivamente

enumerabile è ricorsivo se è l’immagine di una funzione ricorsiva strettamente

crescente; un insieme è ricorsivo se sia lui sia il suo complemento sono ricorsivamente

enumerabili. Esistono insiemi ricorsivamente enumerabili non ricorsivi; i problemi

indecidibili.

Un insieme siffatto è l’insieme degli indici delle macchine che applicate al loro

indice si fermano in un numero infinito di passi. Una forma di auto riferimento del

tutto analoga a quella di Gödel. Il fenomeno è infatti intimamente legato al teorema

di Gödel.

Le teorie per cui vale il teorema sono quelle per cui si rappresenta fedelmente i

fatti delle computazioni meccaniche; se l’aritmetica di Peano fosse completa, allora

86

per decidere il problema della fermata basterebbe aspettare che arrivi l’affermazione

che la macchina si ferma o arriva la sua negazione.

4.4 Il sistema nervoso come un flipper, il cervello come un’orchestra.

Quanto qui ipotizzato è coerente con la realtà fisiologica, perché in un sistema

siffatto non è importante l’informazione trasportata quanto il percorso che essa fa.

Avevamo visto come le sinapsi si comportassero come pistole a spruzzo che sparano

scariche elettrochimiche.

Queste scariche elettriche correranno lungo le ramificazioni e provocherà a sua

volta altri spruzzi sui punti di contatto con altre cellule nervose e così via. Tutto ciò

probabilmente lascia qualche traccia nel sistema. Infatti il passaggio del segnale mette

in moto una serie di meccanismi che interessano le membrane, i punti di trasmissione

e ricezione, la produzione di sostanze chimiche, il loro riassorbimento.

È in questo modo che vengono immagazzinate le informazioni, cioè queste

modificazioni rappresentano per così dire una nuova messa in forma dei circuiti e

quindi costituiscono una traccia del passaggio dei precedenti stimoli.

La memoria allora potrebbe essere il frutto di queste alterazioni strutturali e

chimiche, la memoria è il prodotto di queste modificazioni delle sinapsi; o magari in

certi casi, il prodotto dell’emergere di nuove sinapsi. In altre parole pensiamo che

l’attività mentale, l’apprendimento, o i ricordi, siano impulsi che viaggiano attraverso

questa rete di comunicazione.

Ad esempio nella famosa associazione del cane di Pavlov tra rappresentazione

della carne e il suono del campanello. Il fatto che dopo un certo numero di ripetizioni,

basti il suono del campanello per provocare la salivazione nel cane significa che è

stato stabilito o rafforzato un collegamento tra sistema uditivo e neuroni che

controllano le ghiandole salivari; un’associazione che prima non esisteva.

Gli impulsi nervosi diventano capaci di percorrere sentieri che prima non

avevano mai percorso e questo rappresenta un apprendimento. Quando ricordiamo o

impariamo qualcosa vuol dire che gli impulsi nervosi hanno preso strade che prima

non avevano mai percorso. Inoltre è stato dimostrato che in certi tessuti di coltura

87

possono stabilirsi nuove connessioni nervose in tempi rapidissimi: da qualche minuto a

mezz’ora. Quindi un’efficace sinapsi si può stabilire in 1015 minuti.

Partendo dall’idea che un processo mentale superiore non può essere

ovviamente il frutto di una sola connessione o di un solo tracciato, bensì di un insieme

di tracciati, si sta cercando di vedere se un certo stimolo, anziché passare come una

meteora nel cervello e scomparire, non rimbalzi per così dire nella rete analogamente

a quanto avviene per la pallina di un flipper che va a colpire con un’elaborata

geometria vari punti e torna magari sui rocchetti già toccati.

Naturalmente questi esperimenti che richiedono l’introduzione di sottilissimi

elettrodi nel cervello, non possono essere fatti sugli uomini. Alcuni ricercatori

giapponesi studiano però animali impegnati in processi cognitivi, osservando il

comportamento di certe cellule della corteccia cerebrale durante l’apprendimento.

Ebbene hanno scoperto che l’attività incerte cellule aumenta dopo qualche

secondo dallo stimolo. Ciò sembra indicare l’esistenza di un processo d’elaborazione

dell’informazione attraverso una serie di rimbalzi nel sistema interessato.

È come se la cellula attraverso tutti i suoi punti di contatto ricevesse un’onda di

ritorno che riflette l’attività della complessa rete di cui fa parte. È questa forse una

delle chiavi di accesso alle attività superiori del cervello.

Si è scoperto che oltre alle sinapsi ci sono altri rubinetti chimici nel cervello:

dalle zone profonde salgono infatti altre ramificazioni nervose che non sono collegate

direttamente ai neuroni della corteccia ma che durante gli stati emotivi inietta in delle

sostanze chimiche nella zona interessata così come può fare una siringa.

L’ipotesi è che siano proprio queste iniezioni che provengono dalle parte

primitiva del cervello a influire nelle zone nobili della corteccia. Seymour Katy usa

una delle immagini più efficaci per visualizzare questo concerto chimico che avviene

nel cervello: quello dell’orchestra.

“In passato pensavamo che ogni sostanza chimica trasmettitrice producesse un

particolare stato emotivo: la noradrenalina l’eccitazione, la serotonina la sonnolenza…

ma ci siamo resi conto che questa concezione era molto semplicistica. Un’analogia

migliore è quella dell’orchestra, in un’orchestra possono esserci cento musicisti e magari

25 strumenti diversi.

Ebbene, l’orchestra è in grado di produrre una vasta gamma di stati d’animo:

felicità, tristezza, eccitazione, noia…ma non crea questi stati d’animo con un particolare

88

strumento bensì attraverso il modo in cui gli strumenti sono in relazione gli uni con gli

altri. Taluni strumenti suonano più forte, altri più piano, alcuni più in fretta, altri più

adagio.”

Ora possiamo capire meglio le differenze fra i modelli presentati e le loro

relazioni con le funzioni alte del cervello. Seguendo la linea critica di Smolensky

(1986) secondo cui “una singola unità (un subsimbolo, un neurone) non costituisce

una rappresentazione, ma è soltanto un elemento che permette alla rappresentazione di

emergere ad un livello più astratto” (pp.56), le nostre considerazioni sembrano

dirigerci verso un quarta dimensione nel cervello che va oltre le tre dimensioni

percepite sensorialmente.

Questa è derivata dall'elaborazione delle percezioni sensoriali (Amit 1989) o

addirittura sembra che le dimensioni interne al cervello siano molteplici se non

infinite. Se il modello PDP mantiene tutte le caratteristiche negative e le limitazioni

viste nel precedente capitolo, il modello reale del neurone opera in maniera più varia

e completa.

La conseguenza è che mentre il modello PDP dà origine a reti che sono in grado

di apprendere compiti facili, ma con dei limiti, nella realtà invece il singolo neurone

funziona già in modo talmente ricco che il sistema nervoso che deriva

dall'associazione di queste cellule è immensamente più potente.

Questo è possibile come si è visto precedentemente, perché l'informazione

computata è su due livelli completamente diversi. Un nodo può calcolare x

informazioni secondo una funzione f (x) e dare come risposta y informazioni, ma le

entrate non sono così elevate come nel neurone, altrimenti il sistema collassa e non è

addestrabile, e soprattutto è possibile applicare solo un'operazione per volta.

Il neurone può calcolare normalmente 100.000 funzioni diverse in entrata, in

uno spazio pluridimensionale che le combina tra loro secondo più operazioni logiche,

teoricamente tutte le loro possibili combinazioni, in realtà in quanto potenziali

modulabili le loro combinazioni aumentano ancora.

Un'interessante critica in questa direzione viene da J.Fodor e Z.Pylyshyn (1981)

secondo cui “il connessionismo è impossibilitato nella creazione di sistemi di

rappresentazione che godono della proprietà di "composizionalità", tali cioè che un

numero potenzialmente illimitato di rappresentazioni complesse possa essere generato da

un insieme finito di rappresentazioni atomiche, in maniera che il significato delle

89

rappresentazioni complesse dipenda sistematicamente dal significato delle loro

componenti” (pp.139).

Ma quello che dobbiamo tenere presente in questo caso è la particolare ottica

con cui si osserva il trasporto dell’informazione; non conta tanto la quantità

dell’informazione, ma la sua qualità. Per qualità intendo che il nodo può trasportare

sempre e solo l’informazione su una dimensione; nel neurone invece, l’informazione

può essere creata exnovo all’interno della membrana cellulare su più dimensioni.

Ma dov’è che si rende evidente questa pluridimensionalità? Non sicuramente

nel singolo neurone quanto nelle caratteristiche del sistema nervoso. Pensiamo alla

differenza fra una formica e il formicaio; è stato osservato dagli etologi, come il

comportamento del formicaio abbia caratteristiche simili a quello di un essere vivente

dotato di un’elevata intelligenza a differenza della semplice formica (Hofstadter e

Dennett 1981).

Il formicaio è capace di prendersi cura di se, meglio di quanto sappia fare la

formica singola, data la sua alta specializzazione nei compiti.

Ovviamente il formicaio non esiste come “essere”, ma come “insieme di

formiche”, tuttavia quando lo indichiamo intendiamo qualcosa di più della semplice

unione di formiche, data la sua alta funzionalità.

Un altro esempio di questa nuova prospettiva dimensionale, cioè di come siano

trasmesse informazioni su più dimensioni, è dato dai famosi quadri di Escher.

90

Fig. 4.10

Qui le molte dimensioni coesistono in un’unica realtà (cioè in un’unica

dimensione: quella del quadro) così come le molte dimensioni delle sinapsi coesistono

all'interno della cellula nervosa.

Questa capacità di operare come una scatola cinese su diversi livelli appare

evidente nelle funzioni cerebrali, ma è impossibile in quelle PDP, una rete non sarà

mai in grado di comprendere questo quadro, perché non glielo permette la sua

struttura.

Nel prossimo capitolo troveremo un'applicazione pratica nella trattazione del

linguaggio metaforico e del “pensare dimensionale”, oltre ad un maggior chiarimento

delle capacità delle macchine sovra dimensionali e dell’utilità di cancellare

l’informazione nel sistema nervoso.

91

Capitolo 5La scuola di Palo Alto.

Granchio: Capire l'olismo è la cosa più semplice del mondo. E' semplicemente credere che

“l'intero è maggiore della somma delle sue parti”. Nessuna persona sana di mente

oserebbe rifiutare l'olismo.Formichiere: Capire il riduzionismo è la cosa più semplice del mondo.

E' semplicemente credere che“l'intero può essere completamente capito

quando si capiscono le sue parti e la natura della loro “somma””.Nessuna persona sana di mente

oserebbe rifiutare il riduzionismo.Douglas R. Hofstadter

Vediamo allora quali sono le peculiarità di funzionamento del sistema nervoso,

analizziamo cioè le caratteristiche che permettono ad un tale sistema fisico la

creazione e gestione delle metafore e del relativo linguaggio metaforico.

Se da una parte esiste una ricerca “tecnologica” induttiva, come abbiamo visto

con il connessionismo e del modellamento neurale, che indaga sulla riproduzione di

funzioni hightlevel del cervello umano, parallelamente si è sviluppata una ricerca

“psicologica” deduttiva che tende al solito fine utilizzando l'osservazione empirica dei

comportamenti umani: è il caso della Programmazione Neurolinguistica che seguendo

una via diversa è giunta a considerazioni simili a quelle di Lakoff & C.

Il modello usato dalla PNL (Neurolinguistic Programming) ha molti riscontri in

casi clinici ed è suffragato da un'esperienza più che ventennale nella cura di disturbi

psichici e comportamentali in genere, basandosi su un modello di linguaggio

chomsckiano e di cura attraverso le metafore.

5.1 Gli uomini e le idee di Palo Alto

Il termine “Scuola di Palo Alto” è una comoda etichetta per designare un gruppo

di ricercatori di differenti prospettive scientifiche che, in un dato momento della loro

92

esistenza, hanno lavorato a Palo Alto, San Francisco, orientando il loro lavoro lungo

tre grandi direzioni di ricerca: una teoria della comunicazione, una metodologia del

cambiamento, una pratica terapeutica.

Ma l'unità di queste ricerche è la visione sistemica del problema uomo, in altre

parole come questo riesca a svolgere funzioni molto complesse come comprendere e

comunicare con gli altri uomini, ovvero come agente in un sistema dinamico.

L'ispiratore del gruppo è Gregory Bateson che, dal 1949, ha lavorato presso l'ospedale

psichiatrico della Veterans Administration a Palo Alto.

Bateson non ha “inventato” l'approccio sistemico, il suo merito è di aver cercato

di applicarlo in maniera metodica e rigorosa, al terreno delle relazioni umane e in

particolare alle alterazioni psichiche di natura traumatica.

E' questo che costituisce la vera innovazione rispetto ai precedenti

procedimenti della psicologia. L'approccio sistemico non è una nuova scienza e

neppure una nuova disciplina; è un punto di vista originale sulla realtà, un metodo

per affrontare i fenomeni complessi (Peruzzi 1981).

Consente una visione sintetica dei problemi, a differenza della visione analitica;

infatti, laddove l'analisi scompone un fenomeno in molte parti elementari, di cui

studia le proprietà e va dal semplice al complesso, la sintesi cerca di pensare la

totalità nella sua struttura e nella sua successione; invece di “dissociare”, “ricompone”

l'insieme delle relazioni espressive che legano gli elementi in interazione, facendo

corrispondere a queste la nozione di sistema.

Facciamo ora un rapido excursus storico per chiarire queste nozioni e mostrare

a quali preoccupazioni concrete abbia risposto l'approccio sistemico e quale ne sia la

portata operativa. La nozione di sistema non è nuova.

Tuttavia, il modo di procedere sistemico ha conosciuto un nuovo slancio negli

Stati Uniti negli anni Quaranta, quando ha potuto utilizzare strumenti di grande

efficacia come la cibernetica e, un po' più tardi, l'informatica e la robotica. Il padre

della cibernetica Norbert Wiener, matematico che, prima dell'ultima guerra insegnava

al MIT (Massachusetts Institute of Technology), lavora nel 1940 alla messa a punto

d'apparecchi di guida automatica per cannoni antiaerei.

Scopre allora che simili servomeccanismi presentano talune analogie

sorprendenti con il funzionamento del sistema nervoso; dimostrando in particolare che

per controllare un'azione orientata verso un fine, il flusso delle informazioni necessarie

93

deve formare un “ciclo” chiuso in cui la macchina valuta gli effetti delle sue azioni e

corregge il suo comportamento futuro utilizzando le prestazioni passate: questo

procedimento è designato con la nozione di feedback (o retroazione).

Da allora il procedimento cibernetico consiste sempre più nell'applicare a tutti i

terreni di condotta e di gestione d'organismi complessi, i modelli nati dall'incontro tra

la meccanica e la biologia.

Nello stesso tempo, questo nuovo procedimento si estende ad altre discipline,

come l'economia, la gestione aziendale, la sociologia o l'antropologia; in quest'ultimo

settore Margaret Mead e Bateson si mostrano molto interessati alle ricerche di Wiener

e si sforzano di applicarle alla comprensione dei processi culturali.

Negli anni cinquanta, una nuova invenzione va a dare un impulso decisivo alle

ricerche sull'intelligenza artificiale e i robot: il computer.

Uno dei più efficaci per l'epoca è costruito nel 1951 al MIT da un giovane

elettronico che si occupava del laboratorio dei servomeccanismi, Jay Forrester,

utilizzava una memoria magnetica ultrarapida.

Poco tempo dopo, Forrester è incaricato dai servizi della Difesa di studiare un

sistema di allerta per proteggere il territorio americano; progetta una rete che

accoppia radar con computer e coglie, in questa circostanza, l'importanza

dell'approccio sistemico per concepire e controllare degli insiemi molto complessi di

interazioni che comportano l'intervento di uomini e macchine.

Nel 1952, Bateson, anche lui in una prospettiva sistemica, lancia il suo progetto

di ricerca sulla comunicazione a Palo Alto e nel 1954, un biologo, Ludwig Von

Bertalanffy, crea un'équipe di ricerca che tenta di inglobare la cibernetica in una

pratica più vasta: lo studio generale dei sistemi.

Appare così chiaro come si siano unite tra loro discipline distanti e come

quest'unione abbia avuto come sfondo la comune volontà di comprendere il

funzionamento dell'uomo.

5.2 La nozione di sistema

94

La nozione di sistema è una nozione generale di cui sono state date numerose

definizioni. La più usuale è: “Insieme d'elementi talmente in interazione che una

qualsiasi modificazione di uno di loro comporta una modificazione di tutti gli altri”.

Si tratta di una definizione estremamente ampia, che può essere applicata

praticamente ad ogni fenomeno. Portiamo subito un esempio: la cellula di un

organismo vivente può essere considerata come un sistema; costituisce una totalità

che obbedisce a delle regole precise, mantiene la sua organizzazione interna

nonostante il flusso d'energia e di materiali che la attraversano.

Per assicurare la permanenza della sua struttura e delle sue funzioni la cellula

ricorre a degli agenti di trasformazione, gli enzimi, che sono dei catalizzatori che

controllano l'attività cellulare, e agli acidi nucleici che contengono le informazioni

necessarie all'assemblaggio delle proteine e degli enzimi e alla riproduzione della

cellula. E' anche provvista di molecolesegnali che permettono le comunicazioni.

Una membrana assicura il filtro della comunicazione con l'esterno e controlla le

entrate e le uscite di energia e di informazioni. Il meccanismo di controllo dell'attività

cellulare è realizzato da “repressori” che bloccano o sbloccano l'informazione che

proviene dagli acidi nucleici.

Così la cellula appare come un sistema autoregolato, trasformatore d'energia,

capace in ogni momento di equilibrare la sua produzione in funzione del consumo

interno e all'energia di cui dispone.

Da quest'esempio si possono ricavare le caratteristiche essenziali di un sistema:

Anzitutto presenta una struttura composta di un limite, che separa il sistema dal

suo ambiente, e da elementi che possiedono certe proprietà e che sono legati tra loro

da una rete di comunicazione che consente la circolazione d'energia, di materie e

d'informazioni tra gli elementi.

- Un sistema ha anche un aspetto funzionale. Il funzionamento è assicurato da alcuni

flussi d'energia, d'informazioni o d'elementi che percorrono il sistema e assicurano la

sua conservazione, la sua autoregolamentazione, la sua riproduzione e il suo

adattamento all'ambiente.

La maggior parte di queste funzioni implica lo scambio d'informazioni e in particolare

un'informazione sullo stato del sistema stesso e del suo ambiente; questo ruolo è svolto

da cicli di retroazione (o feedback) che assicurano l'ordinamento dei processi funzionali.

95

Vi sono delle “entrate” (input), che sono il risultato dell'azione dell'ambiente sul

sistema e delle “uscite” (output), che corrispondono alle azioni del sistema

sull'ambiente. I cicli di retroazione rinviano anche delle informazioni che, a loro volta,

provocheranno in uscita altre azioni o trasformazioni rivolte verso l'interno o l'esterno

del sistema.

Fig. 5.1

Queste caratteristiche possono essere generalizzate per ogni sistema, sia si

tratti di una cellula, che di una vettura, di un'azienda o di una città.

La teoria generale dei sistemi non riguarda soltanto i sistemi meccanici,

biologici o sociali, ma può essere applicata anche alle relazioni di un individuo con

l'ambiente esterno, senza per questo significare una visione meccanicista dei fenomeni

umani.

Se, quindi, ci si propone di elaborare un'analisi sistemica delle relazioni umane,

gli oggetti che costituiscono gli elementi del sistema saranno gli individui in

interazione, e i loro attributi saranno le loro azioni e le loro reazioni.

E le relazioni tra gli oggetti saranno le interazioni che si sviluppano tra gli

individui presi in considerazione. La nozione d'interazione è, dunque, una nozione

centrale di un procedimento sistemico.

Suggerisce l'idea di un ciclo in cui le reazioni di B influenzano a loro volta A e

dove ciascun comportamento dei protagonisti svolge, secondo il punto di vista che si

adotta, il ruolo di stimolo/risposta (o di rinforzo) in rapporto al comportamento degli

altri.

L'interazione implica la comunicazione, ma quest'ultima va intesa in senso

ampio: può essere verbale o non verbale; in una situazione di presenza simultanea e

96

di relazione, ogni comportamento, sia esso vocale, essenziale o posturale, assume un

valore comunicativo.

In questa prospettiva, si può definire l'interazione come una sequenza di

messaggi scambiati da alcuni individui in relazione reciproca. Un sistema non

s'individua soltanto per le sue caratteristiche interne, ma anche per l'ambiente nel

quale si situa, che si designa con la nozione di situazione. La situazione è l'insieme di

quegli elementi dell'ambiente i cui attributi interagiscono col sistema o ne sono

influenzati.

Così, l'interazione all'interno di un gruppo di persone non sarà la stessa a

seconda che queste persone si trovino in una situazione professionale, in casa di una

di loro o in un locale. Quest'esempio non deve suggerire che la situazione si riduce ad

un quadro materiale; è altresì un quadro simbolico, un insieme di norme culturali e

sociali, un'istituzione nel senso antropologico del termine (vale a dire, l'insieme delle

regole che governano questa o quest'altra situazione d'interazione).

I sistemi umani sono, in generale, dei sistemi aperti, che comunicano in modo

costante con il loro ambiente. Pertanto l'insieme formato da un sistema e il suo

contesto può essere considerato esso stesso come un sistema; per esempio, se si

considerano come sistema le interazioni tra due “contabili” di un'azienda, inserendo

questo “servizio” (la contabilità) nel quadro dell'azienda esso diventa un sottosistema

in rapporto alla totalità.

Vale a dire che abbiamo a che fare con un sistema gerarchico in cui ciascun

livello serve da situazione per il livello inferiore (La “contabilità” è il contesto in cui

s'inscrive, per esempio, la relazione tra i due “contabili”) e da elemento per il livello

superiore (il sistema “azienda” è colto come un'interazione di servizi, tra cui anche la

“contabilità”).

Nella figura sottostante ogni ellisse è un sistema ed è colta la relazione fra il

contabile A, il contabile B e l'ambiente. La conclusione metodologica di queste

osservazioni è che lo studio di un sistema d'interazioni include l'assunzione della

situazione in cui queste interazioni s'inscrivono.

97

Fig.5.2

5.3 La Programmazione Neurolinguistica

Il lavoro iniziato dalla scuola di Palo Alto negli anni '50 ha dato interessanti

sviluppi teorici con i suoi successori, Richard Bandler e John Grinder, sia in campo

neurofisiologico che linguistico, come testimonia Bateson:

“E' uno strano piacere scrivere l'introduzione a questo libro [La Struttura della

Magia] perché John Grinder e Richard Bandler hanno fatto qualcosa di simile a ciò che i

miei colleghi ed io abbiamo cercato di fare quindici anni fa. Il compito era facilmente

definibile: dare origine ad una base teorica appropriata per la descrizione dell'interazione

umana (…).Sono riusciti a fare della linguistica una base teorica e al tempo stesso uno

strumento terapeutico.

Ciò assicura loro un duplice controllo sui fenomeni psichiatrici; essi hanno capito

qualcosa che noi, come vedo oggi, siamo stati sciocchi a farci sfuggire (…).Questa

scoperta sembra ovvia quando l'argomentazione muove dalla linguistica, (…), anziché

muovere dal contrasto culturale e dalla psicosi, come facevamo noi (…) nel 1955 (…) ”

(pp.911).

L’utilizzo della linguistica, e più in particolare della grammatica

trasformazionale di Chomsky, per la definizione delle relazioni umane, ha avuto esiti

chiarificatori in questo campo. Con l'espressione programmazione neurolinguistica

98

s'indica il procedimento fondamentale usato da tutti gli esseri umani per codificare,

trasferire, guidare e modificare il comportamento.

Per Bandler, un linguista, e Grinder, un matematico, il comportamento è

programmato con la combinazione e la disposizione in sequenza delle

rappresentazioni del sistema neurale visioni, suoni, sensazioni, odori e sapori

indipendentemente dal tipo del comportamento stesso.

Neuro sta ad indicare il principio fondamentale secondo cui ogni

comportamento è creato attraverso processi neurologici. Linguistico indica che i

processi neurali sono rappresentati, ordinati e disposti in sequenza, in modelli e

strategie, attraverso il linguaggio e i sistemi di comunicazione.

Programmazione si riferisce al processo d'organizzazione degli elementi di un

sistema (in questo caso le rappresentazioni sensoriali) per il conseguimento di risultati

specifici.

Gli uomini hanno elaborato molti sistemi o modelli per capire l'universo in cui

vivono e operare con lui. Tipicamente ciascun modello si sovrappone in qualche punto

ad altri e può comprendere, al suo interno, modelli minori: così la scienza comprende

la fisica, la biologia, l'oceanografia, la chimica, ecc.

Ogni modello differisce dagli altri per la parte dell'esperienza umana che esso

rappresenta e alla quale dà rilievo, e per il modo in cui organizza e usa il proprio

insieme selezionato di rappresentazioni. Tutti sono simili sotto il profilo del

fondamentale interesse che ciascuno presenta per i risultati del comportamento

umano.

Ogni modello ha lo scopo di individuare schemi costanti d'interazione tra il

comportamento e l'ambiente, affinché il comportamento dei singoli esseri umani possa

essere reso sistematico nella situazione prescelta per conseguire nel modo più efficace,

completo e coerente i risultati adattivi auspicati.

Come organismi costruttori di modelli, noi escogitiamo, tramandiamo ed

estendiamo i nostri schemi culturali, non operando direttamente sul mondo, ma

attraverso interpretazioni codificate dell'ambiente, sperimentando nei nostri sistemi

rappresentazioni sensoriali attraverso la vista il suono, l'odore, il sapore e la

sensazione.

Le informazioni sull'universo esterno (come pure sui nostri stati interni) sono

ricevute, organizzate, unificate e trasmesse per mezzo della nostra rete neurale. Tali

99

informazioni sono quindi trasformate mediante le strategie d'elaborazione interne che

ogni individuo ha appreso. Il risultato è ciò che chiamiamo comportamento.

Fig.5.3

Nella PNL, si definiscono come comportamento tutte le rappresentazioni

sensoriali sperimentate ed espresse interiormente ed esteriormente, di cui vi sia

evidenza da parte di un soggetto o di un osservatore umano di quel soggetto.

Ossia, l'atto di sciare lungo un bel pendio montano coperto di neve e l'atto di

immaginarsi di farlo vanno considerati entrambi comportamenti nella situazione della

programmazione neurolinguistica. Così tanto il macrocomportamento quanto il

microcomportamento, naturalmente, sono programmati attraverso il nostro sistema

neurologico.

Il macrocomportamento è palese e facilmente osservabile, come guidare

l'automobile, parlare, lottare, mangiare, ammalarsi o andare in bicicletta. Il

microcomportamento implica fenomeni più sottili, anche se egualmente importanti,

come il battito cardiaco, il tono di voce, le alterazioni del colorito, la dilatazione delle

pupille ed eventi come vedere mentalmente o avere un dialogo interno.

Certo, non tutti i modelli di comportamento trasmessi culturalmente sono stati

incorporati da tutti i membri della specie umana, ma la maggior parte di noi ne

dispone nei propri sistemi rappresentazionali, così come l'elaborazione di questi

modelli e il comportamento che ne consegue, costituiscono strategie utili alla propria

sopravvivenza.

10

In definitiva, i modelli si conservano o si eliminano in base alla loro capacità

d'adattamento o alla loro utilità come guide di comportamento dei membri della

specie, costituendo un particolare “genoma umano”.

5.4 Un nuovo modello

La programmazione neurolinguistica è una naturale estensione di questo

processo evolutivo con un nuovo modello. E' importante rendersi conto che i modelli,

come quelli sopra citati, non sono qualcosa che sta “laggiù” in qualche luogo, esterno

a noi come individui.

La PNL differisce da altri modelli di comportamento per il fatto di costituire

esplicitamente un modello del nostro comportamento di costruttori di modelli. E' ciò

che chiamiamo un metamodello, un modello dello stesso processo di modellamento. La

costruzione d'ogni modello richiede l'individuazione e la rappresentazione:

1) di un insieme di elementi strutturali

2) di una sintassi

In questo caso gli elementi strutturali sono i dati sensoriali percepiti.La sintassi è

invece l'insieme delle regole che descrivono il modo di unire gli elementi strutturali.

Nei modelli linguistici, per esempio, gli elementi strutturali tipici sono le parole: i

vocaboli scritti e parlati.

La sintassi è il complesso delle regole grammaticali che stabiliscono in che

modo si possano associare le varie parole. La lingua italiana ha un vocabolario

relativamente esiguo, ma nel corso della storia dei parlanti italiani sono state

pronunciate milioni di frasi diverse e milioni d'idee diverse sono state messe in parole.

Ciò è possibile perché le parole possono essere riunite in ordini, sequenze e

forme diverse che forniscono contesti particolari, in cui esse possono evocare un

significato e una significatività unici. Tutti i libri in lingua italiana che mai siano stati

scritti sono composti dalle stesse parole usate più e più volte in ordini diversi; a loro

volta le parole sono ricavate dalle stesse lettere dell'alfabeto, quindi da un

determinato alfabeto e da determinate regole.

10

Secondo la grammatica generativa chomskyana (Chomsky 1957) il significato è

relativo alla forma grammaticale con cui si presenta la frase, e la PNL sottolinea ciò

considerando la forma comunicativa (non solo la grammatica del linguaggio, ma

anche la postura, il tono della voce, …) come retta da regole precise ed esplicite.

Grazie al lavoro di Chomsky (1982) e di altri trasformazionisti (Wall 1972) è

stato possibile elaborare un modello formale per descrivere gli schemi regolari con cui

esprimiamo la nostra esperienza.

I grammatici trasformazionali hanno elaborato un metamodello del nostro

linguaggio, che funge da sistema di rappresentazione per le nostre esperienze, che,

com'essere umani, sono enormemente ricche e complesse. Se il linguaggio deve

adempiere in modo adeguato la propria funzione di sistema rappresentazionale, esso

deve procurarsi una ricca e complessa serie d'espressioni per rappresentare le

esperienze che possiamo avere.

I grammatici trasformazionali si sono accorti che un approccio semantico allo

studio dei sistemi delle lingue naturali attraverso lo studio diretto di questa ricca e

complessa serie d'espressioni sarebbe stato un compito troppo arduo.

Hanno quindi deciso di studiare non già le espressioni in sé, ma le regole per la

formazione delle espressioni stesse (sintassi). Per esempio, tutti coloro che parlano

italiano come loro lingua nativa, fanno una distinzione coerente fra:

(1) Pallide idee verdi hanno il sonno agitato

(2) Agitato sonno il hanno verdi idee pallide.

Anche se il primo gruppo di parole sembra un po' bizzarro, lo si riconosce come

grammaticale o ben formato in qualche modo in cui non sembra esserlo il secondo

gruppo. Ciò che stiamo mostrando qui è che le persone hanno intuizioni coerenti circa la

lingua che parlano, ovvero riescono ad organizzare la loro esperienza in forme

comunicative al di là del significato.

Descriveremo in che modo le intuizioni coerenti che individuiamo nella nostra

lingua siano rappresentate nel metamodello, attraverso la grammatica

trasformazionale. I parlanti nativi hanno due specie d'intuizioni coerenti su ogni frase

della loro lingua.

Essi sanno stabilire come le unità più piccole, quali le parole, si combinino per

formare la frase (intuizioni sulla struttura a costituenti) e anche quale sarebbe la

10

rappresentazione completa della frase (la completezza della rappresentazione logica).

Per esempio, di fronte alla frase:

Io amo Denis

un parlante nativo è in grado di raggruppare le parole in costituenti o unità di

livello più ampio come:

/io / / amo/ / Denis/

Il linguista rappresenta queste intuizioni su ciò che si combina all'interno di

una frase disponendo le parole, che formano un costituente, in quella che si chiama

una struttura ad albero e che si presenta così:

Fig.5.4

La regola è che le parole, che come parlanti nativi raggruppiamo in un unico

costituente, si colleghino allo stesso punto o nodo della struttura ad albero. E' quella

che si chiama struttura superficiale. Il secondo tipo d'intuizioni coerenti, riguarda

quella che sarebbe la rappresentazione completa della sua struttura.

Denis è amato da me

10

Fig.5.5

E' quella che si chiama la struttura profonda. Stiamo mostrando come seguendo

l'idea di Chomsky si possa passare da una forma comunicativa all'altra nell'ambito del

modello trasformazionale, concentrandoci per ora sulla possibilità di analizzare il

linguaggio su diversi livelli e sulle relazioni che li legano.

L'intuizione dei sostenitori della PNL è quella di associare queste trasformazioni

grammaticali ad un corrispettivo significato nel soggetto parlante, senza curarsi nel

contempo del significato che il soggetto associa hai modelli che utilizza, ma osservando le

relazioni usate.

Nel momento in cui associamo le trasformazioni grammaticali(sintassi) ad un

significato(semantica) creiamo un legame logico molto forte. Si passa così da una

grammatica generativa chomskyana ad una semantica generativa di Lakoff in cui i

significati associati alla struttura profonda possono essere derivati con regole da

quella superficiale e viceversa.

Così ogni frase viene analizzata a due livelli di struttura che corrispondono ai

due tipi di intuizioni che hanno i parlanti nativi: la struttura superficiale di tipo

deduttivo, in cui le loro intuizioni sulla struttura a costituenti ricevono la

rappresentazione di una struttura ad albero, e una struttura profonda induttiva, in cui

sono date le loro intuizioni su quella che è la rappresentazione completa delle

relazioni semantiche logiche.

Poiché il modello dà due rappresentazioni per ciascuna frase (la struttura

superficiale e la struttura profonda), spetta ai linguisti stabilire esplicitamente come i

due livelli si colleghino. Il modo in cui essi rappresentano questo collegamento è un

processo, o derivazione, che consiste in una serie di trasformazioni.

10

Una trasformazione è l'enunciazione esplicita di un certo tipo di schema

costante di cui i parlanti nativi riconoscono l'esistenza tra le frasi delle loro lingue.

Confrontiamo per esempio le due frasi:

Io amo Denis

Denis è amato da me

I parlanti nativi riconoscono che sebbene queste strutture superficiali siano

diverse, il messaggio comunicato, o la struttura profonda delle due frasi, è lo stesso.

“Quando gli uomini desiderano comunicare la loro rappresentazione, la loro esperienza

del mondo, formano della loro esperienza una rappresentazione linguistica completa, che

è chiamata struttura profonda. Quando cominciano a parlare, effettuano una serie di

scelte (trasformazioni) relative alla forma in cui comunicheranno la loro esperienza. In

genere queste scelte non sono scelte coscienti. La struttura di una frase può essere

considerata il risultato di una serie di scelte sintattiche effettuate nel generarla. Tuttavia,

quando operiamo queste scelte, il nostro comportamento è regolare e conforme a certe

norme. Il procedere a questa serie di scelte porta alla struttura superficiale, che può essere

considerata la rappresentazione della “rappresentazione linguistica completa” della

struttura profonda” (Gentner 1983, pp.162).

Come possiamo indagare la struttura profonda se ciò che ci viene mostrato è un

risultato finale di una serie di trasformazioni secondo regole a noi sconosciute?

Bandler e Grinder hanno utilizzato una semplice regola di scomposizione della

grammatica superficiale e l’hanno applicata alle frasi dei soggetti, notando che le frasi

erano logicamente incomplete, quasi una forma sintetica della struttura profonda.

Nelle seguenti trasformazioni linguistiche fra terapeuta e paziente notiamo

come da una forma grammaticale superficiale passiamo ad una forma grammaticale

profonda che è associabile ad un significato semantico proprio del paziente.

P Io sono confuso

T Chi ti confonde? (o cosa ti confonde?)

P La gente mi confonde

T Chi ti confonde in particolare? (o quale tipo di persone ti confondono?)

….

10

Il significato proprio del paziente non è interessante hai fini delle

trasformazioni, così se il paziente rispondesse “Sono confuso dai ragni” il terapeuta

non deve concentrarsi sul significato ma sulla forma della frase e preoccuparsi che

questa sia resa in ogni sua parte esplicita con una struttura profonda (“come ti

confondo i ragni o cosa fanno per confonderti?”).

Se il soggetto rispondesse dopo alcune trasformazioni: “Una volta un ragno mi

ha morso quando ero ad un campeggio estivo”, secondo Bandler e Grinder ciò

corrisponde alla struttura profonda della frase “io sono confuso”, in quanto non più

trasformabile.

Appare evidente che la teoria della PNL sebbene muova da quella chomskyana

non vi coincide, visto che ha qualsiasi livello di struttura grammaticale abbiamo anche

un corrispettivo semantico, ovvero il modello neuronale di percezione e di meccanismi

motori è lo stesso usato per il linguaggio (Cap.1).

In ogni modello dobbiamo considerare il significato che il soggetto lega a quel

modello, non nel senso di comprenderlo, ma nel senso di tenerlo in considerazione

come significante per quel modello.

Riepilogando, il sistema neurale (e in particolare il linguaggio umano) è un

modo di produrre rappresentazioni del mondo. Esiste un legame tra ciò che prova un

individuo e ciò che comunica esteriormente; non è importante per noi osservatori il

significato dell'informazione comunicata, quanto la forma con cui viene comunicata.

Questa forma è un modello e può essere trasformato attraverso opportune

regole, che qui non mostrerò, in altri modelli più completi e precisi; la trasformazione

non è semplicemente solo grammaticale, ma contemporaneamente semantica nel

senso che la forma è strettamente legata al significato.

Ed ancora il sistema nervoso, responsabile della produzione del sistema

rappresentazionale del linguaggio, è lo stesso sistema nervoso che produce altri

modelli come il pensiero, la vista, il movimento, ecc).

In ciascuno di questi modelli operano gli stessi principi della struttura nervosa.

Pertanto i principi formali che i linguisti hanno individuato nell'ambito del sistema

rappresentazionale chiamato linguaggio ci offrono un approccio esplicito alla

comprensione di ogni sistema di modellamento umano.

10

La programmazione neurolinguistica mostra come si possano ridurre le

complessità del comportamento umano (al pari del numero infinito delle possibili frasi

ben formate di una lingua) ad un numero finito d'elementi strutturali e ad una sintassi.

Così ogni comportamento è il risultato di sequenze sistematicamente ordinate di

rappersentazioni sensoriali.

Considerando che gli uomini non operano direttamente sul mondo attraverso

continue trasformazioni sensoriali, ci rendiamo anche conto che la “verità” è più una

metafora piuttosto che un criterio di misura assoluto della realtà esterna. I modelli

culturali non esprimono la “verità”, ma prescrivono campi d'esperienza nel cui ambito

il comportamento è organizzato secondo determinanti schemi.

Nella misura in cui si selezionano e si definiscono arbitrariamente gli elementi

strutturali, la sintassi e i limiti di ciascun modello, potremmo considerare i modelli in

genere come metafore.

5.5 L'eleganza del modellamento

Il termine “eleganza” qui si riferisce al numero delle regole e delle distinzioni

che un determinato modello richiede per poter assicurare tutti i risultati per i quali è

stato concepito. Il modello più elegante sarebbe quello che impiega il minor numero

di distinzioni pur riuscendo a garantire una gamma di risultati uguale o superiore a

quella conseguita con modelli di maggiore complessità.

Il passaggio ad una maggiore eleganza di modellamento avviene in due modi:

1) Focalizzando l’attenzione sugli elementi primitivi dell’esperienza, per

esempio, nella PNL le cinque categorie dell'esperienza sensoriale (vista, udito, tatto

olfatto e gusto, a cui viene aggiunta anche quella cenestesica, o propriocettiva) sono la

base delle strategie con le quali originiamo e guidiamo il comportamento.

2) Il modello si orienta assai più nel senso della forma che del contenuto

(intendiamo per “forma” i principi o regole d'interazione tra gli elementi strutturali

che generano i possibili stati o interazioni del sistema). Conoscendo gli elementi

fondamentali e le regole generative di un dato modello di comportamento, qualunque

siano i suoi contenuti, non occorre dedicare anni allo studio dei particolari del

comportamento nell'ambito di ciascun modello per essere in grado di padroneggiarlo.

10

Difatti, con lo sviluppo di modelli più eleganti, si è sempre avuto un progresso

nell'efficacia e nella potenzialità didattica.

Il nostro postulato è che ogni nostra esperienza in atto può essere utilmente

codificata come composta da qualche combinazione di queste categorie sensoriali.

Prendiamo ad esempio una quadrupla ordinata (4pla) d'input sensoriali come forma

generale della nostra esperienza:

Le maiuscole sono le abbreviazioni delle principali fonti sensoriali o sistemi

rappresentazionali che usiamo per la costruzione dei nostri modelli del mondo:

A = Auditivo

V = Visivoimmaginativo

C = Cenestesico

O = Olfattivo Gustativo

Gli esponenti “e” e “i” indicano se le rappresentazioni provengono da fonti

esterne (“e”), come quando guardiamo, ascoltiamo, odoriamo o gustiamo qualcosa

che è fuori di noi, o se sono invece interne (“i”), come quando ricordiamo o

immaginiamo una figura, un suono, una sensazione, un odore o un sapore. Possiamo

anche presentare la 4pla così:

Fig.5.6

Supponendo che in questo momento il lettore stia seduto comodamente in un

posto tranquillo e stia leggendo da solo, si può usare la 4pla per rappresentare così la

sua attuale esperienza del mondo:

10

Fig.5.7

La specifica 4pla rappresenta l'esperienza del lettore, dove lo spazio vuoto (0)

indica la mancanza d'esperienza in quella modalità. In altri termini, l'attuale

esperienza del mondo del lettore è rappresentata da una descrizione dell'input visivo

originato dalle parole, dalle sue attuali sensazioni cenestesiche e dalle sensazioni

olfattive disponibili.

Poiché supponiamo che il lettore si trovi in un luogo esterno, il valore della

variabile V, C e O sono specificati da una descrizione dell'input proveniente dal

mondo che in questo momento si sta ripercotendo sul lettore.

Possiamo servirci della 4pla per rappresentare la sua esperienza totale ossia la

sua attuale esperienza in corso indipendentemente dal fatto che essa abbia origine o

meno nel mondo esterno. La distinzione può essere fatta agevolmente con la

collocazione di un esponente su ogni elemento della 4pla: una “i” (per l'origine

interna) o una “e” (per l'origine esterna).

Supponendo quindi che in questo momento il lettore stia leggendo con un

dialogo interno, e ricorrendo agli esponenti che distinguono le componenti di origine

interna da quelle di origine esterna, la 4pla del lettore assumerà questa forma:

10

le parole stampate (e), la sensazione (e), le qualità (i), l'odore (e),

del libro, i giochi della sedia, di ritmo e tono della stanza,

di luce la temperatura del dialogo la freschezza

della stanza….. la stanza…… interiore….. dell'aria

Nella PNL i sistemi sensoriali hanno una rilevanza funzionale assai maggiore di

quella a essi attribuita dai modelli classici in cui i sensi sono considerati meccanismi

passivi di input. Le informazioni o distinzioni sensoriali ricevute attraverso ciascuno di

questi sistemi mettono in moto e adattano i processi comportamentali e l'output

dell'individuo.

Ogni categoria percettiva forma un complesso sensomotorio che diviene

responsabile, nel senso di capace di dare certe risposte, per classi di comportamento. Tali

complessi sensomotori sono chiamati in PNL sistemi rappresentazionali. Ogni sistema

rappresentazionale forma una rete tripartita:

1) Input

2) Rappresentazione/elaborazione

3) Output

Il primo stadio, l'input, riguarda la raccolta delle informazioni e la ricezione di

feedback da parte dell'ambiente, tanto interno, quanto esterno. Lo stadio di

rappresentazione/elaborazione comprende la costruzione della mappa dell'ambiente e

l'instaurazione delle strategie comportamentali, come l'apprendimento, la presa di

decisioni, l'accumulo delle informazioni, ecc.

L'output è la trasformazione causale del processo di rilevamento

rappresentazionale. In questo ambito s'intende per comportamento l'attività in

qualunque di questi stadi che rientra in qualsiasi sistema rappresentazionale.

Gli atti di vedere, ascoltare o avere sensazioni sono comportamento. Lo è anche il

“pensare” che, se scomposto nelle sue parti costituenti, comprenderebbe specifici

processi sensoriali come vedere mentalmente, ascoltare un dialogo interno, avere

sensazioni su qualcosa e così via.

Ogni output, naturalmente, è comportamento: da microcomportamenti, come i

movimenti laterali degli occhi, il cambio di torno di voce e del ritmo del respiro, ai

macrocomportamenti, come un litigio, una malattia o un calcio al pallone.

11

Nella programmazione neurolinguistica chiamiamo strategie gli schemi formali di

queste sequenze.

Fig.5.8

Immaginiamo un giovane in camice bianco, seduto comodamente, con la luce

del sole che si riversa da un'alta finestra sul suo lato destro e alle sue spalle. Alla sua

sinistra un libro con la copertina a carattere in argento.

Guardandolo meglio, ne vediamo lo sguardo assorto su un gran foglio bianco,

le pupille dilatate, i muscoli facciali sciolti e immobili, quelli delle spalle leggermente

tesi mentre il resto del corpo è in riposo. Respira poco profondamente, di petto e in

modo regolare. Chi è questa persona?

Stando a questa descrizione, potrebbe essere un fisico nell'atto di osservare una

serie di complesse espressioni matematiche riguardanti i fenomeni fisici che egli vuole

capire. Ma quanto si è detto potrebbe altrettanto bene riferirsi ad un artista che stia

creando delle vivide fantasie visive per la preparazione di un quadro ad olio.

11

Oppure quest'uomo potrebbe essere uno schizofrenico, talmente preso in un

mondo di fantasticherie interne da aver perduto ogni contatto con il mondo esterno.

Ciò che accomuna i tre uomini è il fatto di impiegare lo stesso sistema

rappresentazionale, di seguire delle immagini visive interne.

Ciò che li distingue l'uno dall'altro è il modo di utilizzare questa ricca

esperienza interiore d'immagini. Può darsi che ad un certo momento il fisico vada da

un collega e traduca le proprie immagini in parole, comunicando attraverso il sistema

auditivo di costui qualche nuovo schema scoperto nelle proprie visualizzazioni.

L'artista può afferrare il foglio bianco e cominciare a tracciarvi col pennello forme e

colori, molti dei quali tratti direttamente dalle proprie immagini interiori, traducendo

l'esperienza interna in esperienza esterna.

Lo schizofrenico può continuare il suo sogno ad occhi aperti lasciandosene

assorbire completamente, tanto che le immagini che crea lo distoglieranno dal

rispondere alle informazioni sensoriali che giungono dal mondo esterno.

Il fisico e l'artista differiscono dallo schizofrenico per la funzione delle loro

visualizzazioni nel contesto della sequenza delle attività del sistema

rappresentazionale che influiscono sul risultato del loro comportamento: nel modo di

utilizzare le visualizzazioni.

Il fisico e l'artista possono scegliere di seguire visivamente il mondo esterno o

quello della loro esperienza interna. Sotto il profilo neurologico, il processo con cui si

crea l'esperienza visiva interna è identico per i tre uomini.

Di per sé una rappresentazione visiva può essere tanto una limitazione quanto

una risorsa per la potenzialità umana, secondo il modo in cui si adegua al contesto e

di come si usa. Il fisico e l'artista controllano il processo; mentre lo schizofrenico n'è

controllato.

Per il fisico e per l'artista il fenomeno naturale della visualizzazione appartiene

alla categoria delle variabili di decisione; per lo schizofrenico, alla categoria della

variabili ambientali.

5.6 La sinestesi

11

L'esistenza di sequenze ordinate di rappresentazioni, che chiamiamo strategie,

presuppone delle reti interconnesse di attività a livello neurologico. Le connessioni

incrociate fra complessi di sistemi rappresentazionali, per cui l'attività di un sistema

dà l'avvio all'attività di un altro sistema, sono chiamate sinestesi.

Udire un tono di voce aspro e sentirsi a disagio è un esempio di sinestesi

auditivocenestesica. Vedere il sangue e provare nausea sarebbe una sinestesi visivo

cenestesica. Essere arrabbiati e rimproverare verbalmente qualcuno dentro di sé

sarebbe una sinestesi cenestesicoauditiva.

Ascoltare della musica e immaginare una bella scena sarebbe una sinestesi

auditivovisiva. Se cerchiamo nella letteratura troviamo molti esempi di sindromi

sinestesiche, una per tutte quella descritta da O. Sacks (1985) in L'uomo che scambiò

sua moglie per un cappello.

Gli schemi sinestesici costituiscono gran parte del processo con cui gli uomini

rendono significativa la loro esperienza. Le correlazioni tra le attività dei sistemi

rappresentazinali sono alla radice di processi complessi come la conoscenza, la scelta

e la comunicazione.

La capacità e la perizia che gli uomini dimostrano nei settori e nelle discipline

più vari sono il risultato diretto delle connessioni incrociate che si stabiliscono tra i

complessi rappresentazionali neurali.

Le maggiori differenze tra individui in possesso di capacità, ingegno e abilità

diversi sono dovute alle correlazioni sinestesiche nell'ambito dei loro particolari campi

d'esperienza. Appare evidente allora come il nostro comportamento a livello

macroscopico, sia formato dall’interagire di precise sequenze d'input sensoriali, che si

relazionano tra loro.

Nel precedente capitolo abbiamo mostrato come questo relazionarsi sia non

computabile. Questo vuol dire che tentare di comprendere il nostro comportamento come

una serie ricorsivamente ordinata di elementi strutturali e di regole ricorsive che li

relazionano è scorretto.

La PNL mette ben in mostra quest'aspetto sviluppando la nozione d'inconscio. Il

nostro comportamento è solo la punta di un iceberg della nostra attività; è vero che

utilizziamo un determinato linguaggio, ma questo è solo una forma sintetica della

nostra attività mentale.

11

Infatti, sebbene la PNL consideri molte varianti metodologiche per la soluzione

dei problemi dei pazienti da parte degli psicoterapeuti, non si può negare che una

parte essenziale viene svolta dall'ipnosi.

In questo caso l'ipnosi è uno strumento che permette un contatto con la parte

incosciente del soggetto e con la sua struttura profonda (Erickson M., Rossi E., Rossi

S. 1979, Bandler 1981).

Come abbiamo visto una strategia, è una serie di 4ple che si sovrappongono,

nella quale, in ciascuno stadio, agisce su ogni 4pla un operatore attraverso i segnali

d'accesso e gli schemi sinestesici, conferendo ad un dato sistema rappresentazionale

più significatività comportamentale che agli altri.

Gli esiti di questo processo determinano quale sarà la 4pla successiva che verrà

innescata o ancorata, quale la sequenza delle 4ple e, in definitiva, quale risultato

comportamentale ne conseguirà. Possiamo illustrare tale processo così:

Fig.5.9

La precisione con la quale, passando per i vari stadi di una strategia,

sintonizziamo o calibriamo i nostri sistemi neurali e fisiologici per accogliere le

informazioni provenienti da un particolare sistema rappresentazionale determinerà la

misura della sovrapposizione o interferenza degli altri sistemi rappresentazionali.

Certo, talvolta la sovrapposizione delle informazioni provenienti da sistemi

rappresentazionali diversi può essere utile e importante, come nei test pluri

rappresentazionali.

Molte persone sovrappongono i segnali d'accesso per agevolare la

combinazione sinestesica di due sistemi rappresentazionali o il processo sinestesico

del passaggio dall'uno all'altro sistema. Può accadere però che questo genere di

sovrapposizione porti ad ostacolare o trascurare informazioni importanti provenienti

da un particolare sistema rappresentazionale.

11

Non è affatto necessario avere coscienza di tutte le fasi di una particolare

strategia perché esse entrino in azione. Avviene, anzi, il contrario: quanto più abituale

e inconsapevole diventa un comportamento, tanto più sicuro è il fatto che lo abbiamo

incorporato completamente.

Nella programmazione neurolinguistica la coscienza è considerata il semplice

risultato dell'intensità relativa all'attività che ha luogo nei nostri sistemi

rappresentazionali. Più che un'entità in se stessa (come altri la concepiscono), è

un'indicazione della misura in cui viene usato un particolare sistema

rappresentazionale.

La PNL la tratta come una proprietà emergente dell'attività del sistema neurale,

non come un iniziatore di tale attività. Dire che la nostra coscienza o consapevolezza

ha controllato o influenzato il nostro comportamento sarebbe come dire che le

proprietà di “umidità” o “formazione del ghiaccio” hanno controllato o influenzato le

combinazioni delle molecole di HO da cui le proprietà stesse derivano.

La coscienza è piuttosto un effetto collaterale, l'indicazione di parte di ciò che sta

avvenendo durante il processo rappresentazionale.

Abbiamo messo in rilievo che la significatività comportamentale di una data

rappresentazione sarà stabilita dalla sua intensità rispetto a quella di tutte le altre

rappresentazioni in atto. Sosteniamo che una rappresentazione diventa cosciente solo

se raggiunge un certo livello d'intensità. Tuttavia questo ci dice ben poco sulla sua

significatività comportamentale.

Fig.5.10

Il diagramma rappresenta delle ipotetiche fluttuazioni d'intensità nel tempo dei

tre sistemi rappresentazionali fondamentali. A provocare tali fluttuazioni

contribuiscono i segnali d'accesso e i collegamenti neurali sinestesici.

11

La linea centrale indica la soglia della coscienza. Le rappresentazioni diventano

coscienti solo se la loro intensità supera quel valore. Il diagramma indica che nel

punto 1 il sistema rappresentazionale auditivo ha il più elevato valore relativo di

segnale ed è cosciente.

Nel punto 2 l'intensità relativa più elevata è quella del sistema

rappresentazionale cenestesico. Nel punto 4 il sistema rappresentazionale auditivo ha

di nuovo la massima intensità relativa e quindi la maggiore significatività

comportamentale, ma non ha raggiunto il livello della coscienza.

Analogamente, nel punto 5 il sistema cenestesico assume il controllo principale

ma resta al di sotto del livello cosciente.

Nel punto 6 sono nella coscienza i sistemi visivo e auditivo, ma poiché il primo

ha un segnale leggermente più elevato sarà il più valutato in questa fase. Nel punto 7

riprende il controllo principale il sistema visivo, che resta però fuori della coscienza.

Nel punto 8 i sistemi rappresentazionali visivo e cenestesico si sovrappongono

fuori della coscienza, forse per l'esecuzione di un test plurirappresentazionale.

In sostanza il diagramma riporta parte di una strategia, che abbiamo suddiviso

o articolato in otto fasi:

Fig.5.11

Quattro fasi sono tuttavia al di sotto della coscienza: la 4, la 5, LA 7 E LA 8. Ma

ciò nulla toglie alla significatività comportamentale di queste fasi. E' importante

sottolineare che la significatività comportamentale è determinata dall'intensità relativa

delle rappresentazioni e di come queste emergono nelle interazioni con il sistema nel suo

complesso.

Una rappresentazione subliminale di bassa intensità in un certo istante

contribuirà pur sempre a stabilire le condizioni generali del sistema e ci potrà

provocare alterazioni, che nell'istante successivo la faranno salire o faranno salire

qualche altro sistema rappresentazionale alla più elevata intensità relativa.

Se i valori di segnale sono sufficientemente ravvicinati, si può avere una

risposta multipla. Ciò accadrebbe nel caso di chi dicesse: “Sì”, ma al tempo stesso

11

scuotesse inconsciamente la testa in un: “No”. Due strategie possono avere luogo

simultaneamente, provocando, se nessuna di esse ha abbastanza forza, risposte scisse

e incongruenze di comportamento.

E' qui che assume importanza la calibrazione. Siccome la significatività

comportamentale è funzione di valori di intensità, può anche avvenire che l'attività di

un sistema rappresentazionale, pur raggiungendo la coscienza, resti relativamente non

significativa. E' il caso illustrato da questo diagramma:

Fig.5.12

Esso ci mostra che il sistema rappresentazionale cenestesico, cioè il senso

legato all'equilibrio fisico e alla percezione corporea in generale, pur avendo raggiunto

un livello d'intensità sufficientemente elevato per entrare nella coscienza, si è

stabilizzato con variazioni minime rispetto agli altri sistemi rappresentazionali.

Poiché in questo caso i segnali dei sistemi rappresentazionali visivo e auditivo

presentano variazioni di maggiore ampiezza, sia reciprocamente sia nei confronti del

sistema cenestesico, sarà la loro attività ad avere il maggiore effetto comportamentale

relativo.

L'individuo che si trovi in questo stato sarà pienamente cosciente delle proprie

sensazioni, ma i suoi principali processi interni avranno luogo per la maggior parte al

di sotto del livello della consapevolezza.

Le strategie e le rappresentazioni che avvengono al di sotto di tale livello

costituiscono quello che spesso viene definito l'inconscio. Ciascun essere umano è

sottoposto continuamente a una quantità enorme di informazioni, in parte dovuta al

nostro contatto con le parti del mondo esterno che riusciamo a percepire con i nostri

canali sensoriali.

11

La mole delle informazioni forniteci dalla nostra esperienza in atto supera di

gran lunga la nostra capacità di percepire la regolarità o le costanti insite nella nostra

esperienza e di elaborare dentro di noi programmi per far fronte al mondo a livello di

comportamento inconscio.

Per esempio, la capacità di leggere e capire proprio questa frase è un

programma che in una certa epoca della nostra vita non riuscivamo a eseguire.

Abbiamo dovuto imparare a riconoscere dapprima le lettere, poi le parole e

infine i sintagmi e le frasi. Ciascuna di queste fasi comportava appropriati schemi

specifici di scansione oculare. Imparare ad associare un certo input visivo con

l'insieme dei significati da esso rappresentati è stato un compito relativamente lungo e

arduo.

La capacità di leggere rapidamente e di cogliere il senso del testo dipende in

gran parte dalla capacità di porre inconsciamente in azione questi schemi di basso

livello della scansione oculare e del riconoscimento delle lettere.

La maggior parte della nostra esistenza quotidiana è occupata dalla messa in

atto di schemi di comportamento inconscio estremamente complessi. La nostra

capacità di impegnarci nelle attività che ciascuno di noi trova interessanti e piacevoli

andrebbe in gran parte perduta se non fossimo in grado di programmarci per attuare

un'esecuzione, a livello comportamentale inconscio di schemi di comportamento

complessi (pensiamo all'ingombro enorme della nostra esperienza se fosse necessario,

per esempio, mantenere consciamente il ritmo e l'ampiezza della respirazione, il tono

muscolare, il livello di zucchero nel sangue…).

Il processo di creazione dei programmi che ci sono utili, cioè il processo

d'apprendimento, è un processo di cambiamento in corso, e lo definiamo

modellamento. Esso avviene ad un livello di comportamento tanto cosciente quanto

inconscio.

Il processo di apprendimento con cui capiamo e parliamo la nostra

madrelingua è un esempio di processo di modellamento inconscio. Il processo di

apprendimento attraverso il quale impariamo a leggere e a scrivere è un esempio di

modellamento cosciente.

Osserviamo tuttavia che anche nel caso del modellamento cosciente molto di

ciò che si impara riguarda la disposizione sequenziale e l'organizzazione di schemi di

11

comportamento di livello inferiore di cui già disponiamo sul piano comportamentale

inconscio.

Per esempio, ai bambini che imparano l'ortografia non si insegna

esplicitamente a formare immagini mentali delle parole che stanno imparando, cioè a

impiegare le loro strategie di visualizzazione, eppure gli scolari che sanno compitare

meglio usano inconsciamente questa facoltà.

L'atleta che si allena sui 100 metri sta imparando a disporre in sequenza e a

utilizzare schemi di movimento muscolare che già possiede a livello di

comportamento inconscio. La sua capacità di correre i 100 metri alla massima velocità

dipenderà in gran parte dalla sua capacità di rendere inconsci gli schemi con i quali

dispone in sequenza proprio gli schemi del comportamento inconscio che già

possiede.

La coscienza è un fenomeno limitato. Specificamente, come uomini, siamo

limitati a rappresentarci nella coscienza un numero finito ed esiguo d'elementi

d'informazione. Nel suo ormai classico articolo "Il magico numero sette più o meno

due", Miller (1956), traccia un accurato profilo dei limiti della coscienza. In sostanza

la sua ricerca lo porta alla conclusione che noi siamo in grado di ospitare nella

coscienza 7 più o meno 2 pezzi (chunk) di informazione alla volta.

Una delle implicazioni di maggiore interesse dell'articolo è che le dimensioni

del pezzo sono variabili. In altre parole, il limite del 7 più o meno 2 non riguarda il

numero dei bit di informazione, ma quello dei pezzi.

Pertanto, con l'oculata selezione del codice con cui organizziamo la nostra

esperienza cosciente, abbiamo un'ampia latitudine entro la quale aumentare la

quantità dei bit d'informazione che ci possiamo rappresentare consciamente. Molto

abilmente Miller resta nel vago quando esamina che cos'è un pezzo d'informazione.

Se assimiliamo il termine pezzo alla nozione di uno schema di comportamento

che non abbia ancora raggiunto lo status d'inconscio, diventa utile l'interazione tra la

funzione della coscienza nel processo d'apprendimento e la scomposizione in pezzi

(chunking).

Quando impariamo a identificare il modellamento (patterning) che avviene

nella nostra esperienza e a rispondervi con sistematicità, riusciamo a rendere inconsce

parti della nostra esperienza che prima dovevano trattare al livello della coscienza.

11

Un pezzo presente nella coscienza è un modellamento o regolarità che è nella

nostra esperienza e che non siamo ancora riusciti a rendere inconscio. Pertanto, agli

inizi dell'apprendimento di un dato compito, le dimensioni del pezzo saranno

piuttosto esigue, in quanto abbracceranno nella nostra esperienza un modellamento o

regolarità relativamente corto.

Quando il pezzo di queste dimensioni consegue lo status di inconscio, la nostra

coscienza è libera di applicarsi a schemi di più ampio livello, che sono costituiti dalla

disposizione sequenziale e dall'organizzazione dei TOTE (TestOperazioneTestUscita)

(Miller, Galanter e Pibram 1960), dai quali sono composti, o di applicarsi al

modellamento in altri sistemi rappresentazionali o settori d'esperienza.

Facciamo un esempio tratto dalla nostra esperienza personale. Quanti di noi a

suo tempo abbiano imparato ad andare in bicicletta ricorderanno come siano stati

complessi gli inizi. Trovatici per la prima volta in sella, siamo stati quasi sopraffatti

dalla quantità delle cose a cui badare: tenersi in equilibrio, spingere i pedali su e giù,

girare il manubrio tenendo d'occhio la direzione era più di quanto non riuscissimo a

padroneggiare e forse nostro padre o un amico ci reggeva la bicicletta per il sellino in

modo da permetterci di badare soltanto a pedalare e a sterzare.

Se poi eravamo tra i fortunati che erano già in possesso di un programma di

“pedalamento” inconscio, dovuto al precedente possesso di un triciclo, il compito si

riduceva a imparare a coordinare la sterzata e la pedalata con l’equilibrio.

Una volta inserite nel nostro comportamento, queste capacità di manifestavano

automaticamente, tanto che, senza neppure accorgerci che nostro padre ci lasciava

andare limitandosi a correrci dietro, proseguivamo imparando a coordinare l'atto di

pedalare e di sterzare con quello di tenerci in equilibrio.

Trascorso un certo tempo, ci eravamo a tal punto programmati per azionare la

bicicletta da escludere dalla coscienza tutti gli aspetti di questo compito, restando così

liberi di goderci il paesaggio o conversare con un compagno di viaggio.

Anche se abbiamo passato moltissimo tempo senza inforcare una bicicletta, il

programma rimane, e se risaliamo in sella ricomincerà a funzionare, e saremo in

grado di riprendere la corsa senza pensare neppure per un istante a tutte le fasi di

questo complesso processo.

Esse sono state suddivise in vari pezzi e disposte in sequenza a livello inconscio

lasciandoci liberi di godere della passeggiata. Se fossero consce dovremmo pensare in

12

ogni istante a pedalare, sterzare, mantenerci in equilibrio e la nostra coscienza

n'avrebbe un tale ingombro da farci persino cadere o sbattere contro qualcosa.

Vi sono individui che nelle loro strategie possiedono test che li obbligano ad

assicurarsi che ogni rappresentazione presente nei vari stadi delle strategie stesse,

raggiunga il valore di segnale necessario per l'accesso alla coscienza.

In qualche caso l'esigenza di segnali così elevati può essere appropriata, ma

essa tende troppo spesso a rallentare il processo perché l'individuo deve continuare ad

operare per aumentare il valore di segnale.

Altri invece si distraggono consciamente per essere sicuri che la strategia abbia

luogo a livello inconscio. Citiamo l'esempio della strategia messa in azione da un

provetto matematico, il quale dava prova di possedere l'insolita capacità di sommare

regolarmente e senza errori lunghissime colonne di numeri (si veda anche Lurija

1979).

Richiesto di spiegare come potesse avvenire una prodezza del genere rispose

che, quando gli veniva presentata una serie di numeri, lui non faceva assolutamente

nulla. Si limitava a farsi l'immagine mentale di una lavagna e a guardarla, sino a

quando su di essa non compariva una mano per scrivere la risposta che egli doveva

semplicemente leggere.

Con questo non vogliamo dire che nel processo d'apprendimento l'attività

interna cosciente non abbia importanza. Nella maggior parte dei casi l'alto valore di

segnale di un particolare sistema rappresentazionale è importantissimo per fissare la

fase iniziale della strategia.

Ma una volta fissato lo schema, la strategia si snellisce se il segnale diviene

abituale. Quanto si è imparato ad andare in bicicletta, per esempio, continuare a

occuparsi consciamente di mantenere l'equilibrio, pedalare, sterzare, ecc. è più

d'impaccio che d'aiuto.

Riassumiamo ora ciò che abbiamo esposto in questo capitolo. Innanzitutto la

trattazione del problema uomo come sistema aperto sottolinea l'importanza della

comunicazione; questa avviene attraverso la creazione di modelli e metamodelli,

definiti come l'organizzazione dei dati sensoriali percepiti dall'essere umano.

La creazione di linguaggi, permette all'individuo di comunicare con se stesso e

con i suoi simili, attraverso l'uso e la creazione di nuovi modelli, così da utilizzare le

proprie risorse in maniera costruttiva.

12

Un modello è una metafora, e ha, rispetto alla realtà, lo stesso rapporto che

esiste tra la mappa e il territorio, serve cioè a muoversi in una realtà altrimenti

difficilmente definibile e gestibile (Lankton 1980). Il linguaggio come metamodello

tiene in considerazione non tanto l'esperienza vissuta, quanto la semantica della sua

organizzazione attraverso rapporti fra le varie esperienze.

Questo avviene perché, data la mole dei dati sensoriali e il loro continuo

ingresso nel sistema uomo, hanno bisogno di una loro interpretazione per essere

utilizzati, e come abbiamo visto l'interpretazione è formata dall'insieme di 4ple

percepite.

Il legame fra la struttura profonda e quella superficiale è dato da una prospettiva

dimensionale. Infatti, se le relazioni fra i dati sensoriali sono dimensioni non

computabili, qualsiasi altro rapporto successivo fra i modelli e i metamodelli, come

formati da dati sensoriali, è sempre di tipo non computabile.

Come abbiamo visto nel precedente capitolo esistono delle matematiche (come

quella fuzzy, ma non solo), che trattano i concetti come insiemi aperti che si

sviluppano su più dimensioni permettendo così di applicare quelle operazioni logiche

proprie di un linguaggio naturale, come la coesistenza di più concetti nello stesso

termine e il passaggio da un concetto all'altro senza contraddizioni, ma anzi con una

certa fluidità del sistema.

Non conta che la nostra realtà sia per la maggior parte inconscia, e che questi

processi avvengano oltre la soglia della nostra coscienza, così da non essere

controllabili; quello che è importante, come sottolinea Lakoff, è che sia possibile

indagare il linguaggio in questa direzione, quella cioè che esista un possibile legame

tra le percezioni sensoriali e i concetti usati nel linguaggio.

Vedremo allora nel prossimo capitolo di concludere questo nostro viaggio nella

mente dell'uomo, riassumendo le nostre conclusioni nel quadro generale della teoria

concettuale delle metafore.

12

Capitolo 6Lakoff, una visione d'insieme

Solo lo sciocco guarda il dito che indica la luna.Proverbio cinese

Nel primo capitolo avevamo esposto la tesi di Lakoff riguardo la sua visione

della “mente incarnata” e la teoria “concettuale delle metafore”. Le tematiche sviluppate

riguardavano la possibilità di riprodurre con strumenti informatici la complessità di

un linguaggio metaforico, seguendo il ragionamento che l'informazione elaborata dal

cervello attraversa il sistema nervoso e quindi simulando questo con reti informatiche

è possibile ricreare il passaggio tra la sensazione corporea e il concetto (come hanno

mostrato i modelli di Regier, Bailey e Narayanan).

Questa prova della “fisicità” della mente, in quanto modello di rete neurale,

subisce però le stesse limitazioni a cui è soggetto questo tipo di software come

abbiamo mostrato nel secondo capitolo; allora abbiamo cercato di superare queste

limitazioni con un nuovo punto di vista (coerente con la teoria di Lakoff e Grady) in

cui, dopo aver descritto il funzionamento del neurone e di conseguenza del sistema

nervoso, abbiamo concentrato la nostra attenzione sui concetti di computabilità

effettiva e di sistemi aperti.

Appurato che la nostra rete nervosa funziona in maniera pluridimensionale, si

è tenuto conto delle caratteristiche del linguaggio metaforico, cercando una

matematica adatta alla sua descrizione (la logica fuzzy) e un modello fisico in cui

fosse applicata (la PNL).

Riprenderemo ora le tre principali intuizioni di Lakoff e Johnson in Philosophy

in the Flesh e le arricchiremo alla luce delle considerazioni esposte nei capitoli

precedenti.

6.1 La mente è interamente fisica

12

La mente è interamente fisica nel senso che il passaggio dell'informazione dal

mondo esterno attraverso il sistema nervoso è da intendersi come l'insieme di regole

fisiche e biologiche con cui la nostra rete neurale interagisce con se stessa e il mondo

esterno.

Fisiologicamente è riduttivo pensare che la “mente” sia formata solo dal

sistema nervoso centrale (il cervello), perché questa è formata anche dal sistema

nervoso periferico che si estende per tutto il corpo.

Ci sono molte prove del forte legame tra cervello e corpo ne citerò una per

tutte; Hamer (Hamer 1998) ha dimostrato che non esiste alcuna prova dell'esistenza

di sostanze cancerogene in quanto non è possibile provocare tumori su organi le cui

connessioni nervose con il cervello sono state tagliate (organi trapiantati) e che le

sostanze inoculate agli animali per indurre il cancro non inducono nulla se non c'è

l'intervento del cervello.

Esse possono distruggere, avvelenare ma non indurre il tumore. Le radiazioni

distruggono le cellule ma non provocano i tumori.

Fig.6.1

Quest'interazione fra sistema nervoso e l’ambiente in cui agisce porta a un

cambiamento di prospettiva secondo Lakoff & C: una prospettiva “fisica” in cui il

12

soggetto umano è ciò che il suo corpo sperimenta del mondo a qualsiasi livello, sia nel

compiere un'azione sia nel pensare un'idea.

Il termine “oggettivo” quando ci riferiamo alle funzioni inerenti il sistema

nervoso (linguaggio, pensiero, apprendimento, …) è inadatto e sostituibile secondo

Lakoff con “fisico”, perché ogni uomo nella sua esperienza è solo e irripetibile, sia per

gli input che riceve dal mondo esterno sia per come li organizza.

Dal punto di vista dei singoli neuroni la percezione sensoriale di input esterni è

soggettiva, in quanto pertinente trasporto dell’informazione propria di ogni singolo

individuo; è inoltre legata all'interazione dell’informazione con se stessa, con il

sistema nervoso (il flipper neuronale) e con l’ambiente attraverso l'esperienza e il

tempo (§ 1.4 esempio percettivo della banana).

Fig.6.2

Così anche la percezione delle funzioni superiori del sistema nervoso è “fisica”,

perché formata da “sommazioni” d'informazioni. Ciò non toglie che tutti gli esseri

umani, utilizzando lo stesso apparato percettivo, abbiano le medesime percezioni, ma

consente di dire che l'organizzazione interna al sistema nervoso dell'informazione ha

la possibilità di essere gestita diversamente da individuo ad individuo, aumentando la

possibilità di creare nuovi modelli.

Questo passaggio da oggettivo a fisico è secondo Lakoff da intendere come un

salto di qualità nella visione filosofica dell'uomo; la mente è interamente fisica, la sua

struttura è comune a tutti gli esseri con lo stesso sistema nervoso, ed è comune il suo

funzionamento, ma non è comune la sequenza di input che vengono inseriti e la loro

organizzazione.

12

Essendo i concetti derivati dalle percezioni fisiche e formati attraverso strutture

neurali, anche il linguaggio e i concetti in esso usati vengono creati e influenzati

dall'esperienza soggettiva.

Cerchiamo di focalizzare l'attenzione su quest'aspetto, quando parliamo con

un'altra persona noi utilizziamo un linguaggio formale che contiene una serie di

concetti e di metafore il cui significati profondo non è condiviso dall'ascoltatore e

difficilmente può esserlo anche se quest'ascoltatore ha convissuto con noi la stessa

esperienza, perché il suo modo di viverla cioè di percepirla sensorialmente e di

“sommare” le percezioni tra loro è diverso da persona a persona.

Lakoff sottolinea come la rete neurale “costruisca” o faccia “emergere” dalle

percezioni che riceve dall'ambiente una struttura di relazioni, una mappa per il

territorio percettivo. Questa mappa è al tempo stesso neurale e semantica, nel senso

che, come mostrato nel § 1.6, si formano quelle scene primarie che creeranno le

metafore primitive, e queste creeranno a loro volta metafore d'ordine superiore.

Contemporaneamente abbiamo la formazione di modelli in quanto

l'informazione è trasportata dalle medesime strutture nervose; questo significa che la

differenza fra una metafora per Lakoff e un modello della PNL consiste solo

nell'ambito in cui le utilizziamo, sia questo il linguaggio o un ambito cognitivo.

Un esempio di quanto mostrato applicato alle intelligenze artificiali è contenuto

nell'ultimo libro di Hofstadter (1995) in cui si affrontano i temi dei concetti fluidi e

delle analogie creative, attraverso la creazione di sistemi con una struttura linguistica

profonda e una superficiale, sviluppato al CNR di Trento.

Il COPYCAT è un programma progettato per essere in grado di scoprire

analogie penetranti in modo realistico, dal punto di vista psicologico. La sua

architettura è emergente nel senso che il suo comportamento emerge da una miriade

di piccoli atti computazionale attraverso la variazione delle attivazioni dei nodi e a

loro volta la variazione di stimolazione ai nodi vicini, in questo modo la rete si

comporta in maniera attinente alla situazione, in misura maggiore delle reti PDP

classiche.

Anche se questo modello rimane ancorato ad una concezione connessionistica

della rete, si evidenzia come un funzionamento ad alto livello possa essere derivato

dall'interagire di parti tra loro, così similmente dovrebbe accadere nel nostro sistema

nervoso; l'informazione viene organizzata in modelli che non sono rigidi e controllati

12

da sovra programmi, ma fluidi e derivati direttamente dalla struttura che li registra e

li contiene.

L'informazione, così inserita nel sistema, è paragonabile ad un'onda sul mare,

che si somma alle altre onde del mare con continuità, formando il sistema mare.

Quando comunichiamo ognuno di noi ha delle “onde” ed un “mare” proprio pur

tuttavia avendo una struttura neurale comune.

Fig.6.3

Ogni persona si costruisce una mappa del territorio diversa da quella di un'altra

persona a seconda dell'organizzazione delle sue percezioni (la sua esperienza) e di

come queste sono state organizzate in metafore (a seconda dell'importanza che gli è

stata data nella situazione vissuta); così ad esempio osservando il linguaggio

matematico possiamo dire che tutti siamo portati a recepire i numeri e le operazioni

attraverso un'esperienza simile, tuttavia accade che alcune persone siano portate più

di altre.

Secondo una spiegazione coerente con la PNL e il linguaggio metaforico, la

ricezione dei dati, cioè delle leggi della matematica, crea modelli (o metafore) alcuni

dei quali sono migliori di altri. Se ad esempio uno studente cerca di risolvere un

calcolo utilizzando un modello non adeguato, come quello usato per compiere uno

sforzo fisico, cercando di sentire i numeri dentro di lui, compierà uno sforzo maggiore

rispetto a quello che li immaginerà visivamente come scritti su una lavagna (§ 5.6).

Così può accadere che ad un certo punto della storia della matematica, pur

avendo tutti lo stesso background, ci sarà un modello adatto per risolvere l'equazione

12

di Fermat e questo lo avrà un matematico che avrà organizzato i suoi dati in maniera

innovativa.

Ricapitolando: secondo Lakoff & C. l'uomo utilizza la struttura neurale per

organizzare e gestire i dati in entrata dall'ambiente in cui s'inserisce, e lo fa attraverso la

costruzione di schemi, modelli, metafore che poi utilizza per muoversi nel mondo e per

gestire i nuovi dati che implementano così questi schemi. Inoltre le metafore sono

formate dalle stesse strutture sensomotorie del sistema nervoso, ovvero si utilizzano

le stesse strutture per creare sia azioni sia concetti.

6.2 Il pensiero è in gran parte inconscio

Il pensiero è in gran parte inconscio. Un altro aspetto sviluppato da Lakoff

riguarda la non indagabilità dei nostri processi neurali. Infatti, i vari stadi necessari

per la creazione delle metafore non sono direttamente accessibili nell'uomo; se

vogliamo andare a ritroso fino ad arrivare ad una sua forma primitiva e continuando,

se volessimo capire quali sono i dati che hanno fatto emergere questa forma primitiva,

ciò risulterebbe impossibile.

Ovvero il nostro sistema nervoso fa emergere delle mappe per il territorio

d'input che riceve, ma questa “emersione” è data da un'interazione fra piccoli sotto

sistemi (gruppi di neuroni) che a loro volta ne contengono degli altri e degli altri fino

ad ogni singolo neurone.

Ma come abbiamo visto nel capitolo quarto la logica del neurone non è

ricorsivamente enumerabile, quindi non lo è l’intero sistema.

La nozione di inconscio diviene allora una “caratteristica di sistema”, resa

possibile dalla grande capacità di conduzione dell'informazione del neurone e dalla

struttura dell'intero sistema nervoso. Possiamo dire allora che in un sistema

pluridimensionale siffatto si dà maggior risalto al “risultato” e non al processo di

“creazione del risultato”. Tale processo di “creazione” rimane di fatto sconosciuto al

sistema stesso a differenza dei processi coscienti dove l'intero processo è computabile

e algoritmico.

La mole di lavoro che svolge la parte inconscia è notevolmente superiore a

quella cosciente in quanto implica oltre alle funzioni di mantenimento vitale (dalla

12

frequenza del battito cardiaco al rilascio degli ormoni della crescita, …), anche quei

compiti che, svolti con continuità per un certo tempo, possono passare la soglia della

coscienza ed essere svolti inconsciamente.

Similmente, in quanto relativo a tale sistema, il linguaggio metaforico e tutto il

pensiero in generale è in gran parte inconscio, e non possiamo averne cognizione fino

a quando non si manifesta coscientemente.

Sembra evidente allora che la rete neuronale funzioni in maniera indipendente

anche nelle sue parti; non solo l'“incoscienza” è una caratteristica del sistema, ma la

rete è formata da parti così indipendenti tra loro che anche un trauma o una

distruzione di parte del sistema o dei suoi singoli componenti non influenza entro

determinati limiti la risposta cosciente (come mostrano gli studi su lesioni cerebrali di

Damasio 1989).

Un modello matematico di riferimento per tale sistema può essere quello della

matematica fuzzy, che aiuta a vedere le percezioni e i concetti come disposti su più

livelli. Non è l'unica matematica dimensionale, ma l' ho citata perché la tradizione di

ricerca sviluppatasi negli ultimi 2030 anni in Giappone sulle intelligenze artificiali e

non solo (Lakoff 1972) ha evidenziato che utilizzando sistemi misti di funzioni fuzzy e

reti connessionistiche si origina un comportamento semantico della rete.

Ciò equivale a trattare i concetti come strutture logicamente aperte e non

chiuse, come insiemi non delimitabili ma infiniti. In un concetto aperto possono

essercene infiniti e quindi ad esempio possono coesistere nel concetto di “sedia”

infinite sedie, inoltre posso passare da una “sedia” al “mobilio di una casa”, da

“mobili” a “casa”…, o ancora più facilmente smettendo di pensare in maniera lineare,

possiamo passare da un concetto all'altro, come nel quadro d'Escher (Fig.4.18) si

passa da un piano all'altro cambiando contemporaneamente tutti i punti di

riferimento.

Cosa vuol dire questo? Abbiamo visto nel § 4.2 che la possibilità di transitare

da un dominio all'altro in maniera fluida è precluso alle forme di pensiero

computabile, in quanto troppo limitate per compiere tali operazioni senza incorrere in

contraddizione.

Allora la parte cosciente del nostro cervello sembra comportarsi come se

operasse principalmente in maniera computabile, su un substrato inconscio fuzzy o

comunque in ambiente pluridimensionale.

12

Sappiamo che gli input in entrata vengono recepiti come variazioni

dell'informazione percepita, ovvero il flusso di input è continuo e noi notiamo solo le

alterazioni che vengono registrate dai nostri sensi.

Ma la struttura che registra tutto ciò è a sua volta implementata da una

continua attività cerebrale (pensiero, sogni, linguaggio interiore, stati emotivi,

mantenimento delle funzioni vitali) di cui possiamo esserne coscienti solo attraverso

le alterazioni dei normali stati mentali.

Come ho mostrato nel § 5.6 la percezione dei mutamenti ha delle limitazioni, noi

possiamo cioè percepire solo poche variazioni per volta, e ciò fa si che la maggior parte

del nostro pensare e più in generale del nostro vivere sia a noi precluso sotto forma

cosciente, ma sia attivo sotto forma incosciente.

6.3 I concetti astratti sono per la maggior parte metaforici

I concetti astratti sono per la maggior parte metaforici in quanto modelli

cognitivi. Il nostro flusso di pensieri è la conseguenza della nostra attività nervosa, che

si organizza per la maggior parte inconsciamente.

Sappiamo però che questa utilizza delle mappe, delle metafore, e dei modelli,

che ci permettono di gestire la serie d'input che continuamente riceviamo dal mondo

esterno.

Il nostro pensare segue quindi le caratteristiche del sistema nervoso e quindi la

creazione delle metafore è parte di questo sistema. Una metafora è da considerarsi

come una forma aperta e non chiusa e definita; quest'apertura deriva dalla sua intima

natura nervosa, in cui l'informazione viene tradotta continuamente ad ogni passaggio

da un neurone all'altro e su più dimensioni.

Abbiamo visto che il transito dell'informazione avviene attraverso domini

aperti, e abbiamo mostrato come le metafore utilizzate siano derivate da componenti

primitive, che si combinano tra loro. Il concetto di metafora di Lakoff e Grady può

essere allora definito come un insieme di input che si “sommano” fra loro in maniera non

computabile, le cui componenti sono date dagli input sensoriali, e la loro unione crea

“relazioni” fra sistemi aperti.

13

La natura di queste relazioni è lasciata volontariamente vaga in quanto a noi

preclusa perché è lo stesso sistema neurale che decide quali sono le modalità di

relazione dei concetti, sia perché sono operazioni inconsce e sia perché è la struttura

stessa dei neuroni nella sua “fisicità” che relaziona i concetti.

Quindi cercare di ricreare le metafore attraverso modelli connessionistici è un

errore di impostazione teorico, nel senso che se si vuole ricreare dei collegamenti

metaforici primitivi ciò è possibile in quanto le reti possono simulare funzioni

cerebrali semplici; ma esistono dei limiti strutturali e di gestione (§ 2.3), che non

permettono loro di simulare le funzioni elevate del cervello.

I modelli di Regier, Narayanan e Bailey, in quanto simulazioni di funzioni

semplici, sono modelli attendibili, ma pensare che le metafore complesse, come quelle

utilizzate nel linguaggio, possano essere formate dall'aggregazione di questi modelli o

di simili è un errore d'impostazione.

L'aggregazione di scene primarie fino alla formazione di metafore attraverso

quelle primitive è possibile solo se utilizziamo delle simulazioni basate su un ambiente

di sistemi aperti. Questo risulta ancora più evidente se analizziamo il processo di

creazione delle metafore alla luce delle considerazioni della PNL.

E' evidente, infatti, che i primi mattoni dell'esperienza, sia per la PNL che per

Grady, sono formati dalle 4ple e dalle metafore primitive ovvero i modelli.

Riprendiamo allora lo schema di Grady (Fig.2.1):

13

Fig.6.4

Il flusso di percezioni continue che immettiamo nel nostro corpo, viene

strutturato in forme dal nostro sistema nervoso attraverso le 4ple, come abbiamo

visto nel capitolo precedente. Inoltre avevamo descritto le scene primarie come spazi

pluridimensionali che definiscono il dominio di un termine o il campo in cui si muove un

determinato elemento; vediamo che questo coincide con la definizione delle 4ple che

sono pluridimensionali perché il segnale è trasportato attraverso la rete neurale, e

definiscono il dominio di un termine perché contengono tutte quelle informazioni

relative al determinato oggetto.

In seguito l'interazione fra le scene primarie crea una strategia (insieme di 4

ple) e successivamente dall'insieme di strategie (deconflation) si originano le metafore

primitive ovvero i modelli.

Analizziamo ora la metafora:


13

Questa si pone come l'interazione fra più modelli, quello della vita e quello del

viaggio e il loro dominio aperto è dato dall'insieme di dati sensoriali percepiti che si

“combinano” inconsciamente. A loro volta i nuovi dati creano un modello o recepiti da

uno già esistente s'inseriranno in un insieme di modelli ancora più vasto (fino ai

modelli inerenti la vita e il viaggio) e potrà essere accessibile direttamente dai macro

modelli (la metafora “la vita è un viaggio”).

Il linguaggio metaforico è questo relazionarsi di metafore e di modelli tra loro,

che permette di creare delle inferenze, in cui i contenuti delle metafore sono parte

integrante del sistema e della relazione stessa; non ha senso in questo caso parlare di

contenuto di una metafora in quanto è la stessa struttura neuronale che contiene

l'informazione e che è al contempo dominio della metafora e definisce la relazione che

questa ha con le altre metafore.

Se vogliamo comprendere appieno il linguaggio metaforico che usa il nostro

cervello, sembra riduttivo pensare alle metafore come formate da una forma e un

contenuto relazionati in maniera ricorsiva tra loro, mentre queste sono relazioni non

computabili fra sistemi aperti.

Ovvero la metafora è formata sì dall'architettura della rete che elabora

l'informazione che trasporta, tuttavia nell'istante precedente e successivo alla

metafora, la rete era occupata in altri compiti o era inutilizzata.

L'informazione sembra allora emergere dallo sfondo (Jackendoff R. 1983),

essere utilizzata e ritornarvi successivamente; una metafora come intesa da Lakoff,

dispone dell'informazione pari a quella del sistema, mentre in una metafora classica

come relazione tra forma e contenuto, viene automaticamente definito il dominio.

Per chiarire con un esempio informatico è come se il nostro cervello, risolvesse

un problema costruendo ogni qualvolta un software e un hardware adatto alla

soluzione, e smantellasse i componenti per risolvere il problema successivo,

memorizzando solo la soluzione.

6.4 Una macchina di Turing Universale sovra dimensionale.

13

Concludiamo con una riflessione generale sul linguaggio metaforico. Abbiamo

visto come i software attuali siano inadatti alla riproduzione delle reti neurali (Cap.

4), e abbiamo mostrato una possibilità alternativa per implementare la capacità

d'elaborazione dei computer così da poter simulare un linguaggio metaforico.

Riprendiamo ora un aspetto tecnico a cui avevamo accennato nel § 4.5. I

computer si sono sviluppati seguendo le teorie matematiche di Turing, secondo cui la

massima potenza computazionale è data da una macchina di Turing Universale.

Le generazioni di computer che si sono succedute fino all'attuale quarta (quella

dei personal computer), hanno fatto passi da gigante nella ricerca tecnologica

(miniaturizzazione dell'hardware e incremento della velocità di elaborazione)

cercando di raggiungere così quelle qualità di sistema proprie di una macchina di

Turing Universale come il nastro infinito su cui scrivere e il tempo infinito di

elaborazione.

Ma sebbene più veloci e potenti degli anni '50 fa la matematica (il software)

che li governa ha ancora il limite posto da Turing. Una possibilità di superare questo

limite è data dall'utilizzo di matematiche noncomputabili che operano su più

dimensioni relazionate fra loro.

Tali matematiche equivalgono ad una macchina Universale di Turing che ne

gestisce altre e può, seguendo il suo programma, cancellare gli input provenienti da

atre macchine.

Possiamo allora immaginare una siffatta rete formata da macchine di Turing; si

noti che una macchina di Turing che cancella il segnale di un'altra macchina compie

un'operazione computabile, è il sistema (come prodotto logico fra più macchine) che

diventa non computabile.

13

Fig.6.5

Abbiamo mostrato come nella matematica fuzzy si possano legare due concetti

fra loro, due insiemi aperti, attraverso semplici regole geometriche; similmente una

macchina di Turing Universale è un sistema aperto in quanto infinito e l'unione con

altre macchine, come detto sopra, origina la non computabilità del sistema.

Così abbiamo un primo esempio di simulazione di un linguaggio semantico

attraverso la relazione su due distinte dimensioni di due macchine di Turing

Universali (il “bicchiere mezzo pieno” e il “bicchiere mezzo vuoto”), legate da una

macchina di Turing Universale che opera in una sovra dimensione che ha la possibilità

di cancellare i risultati dell'altre macchine e questo equivarrebbe alla potenza

computazionale della frase il “bicchiere mezzo pieno e mezzo vuoto”.

La figura 4.9 mostra quali sono i punti geometrici significativi e quali no,

similmente la macchina di Turing Universale che codifica la frase completa può

cancellare i punti che non sono significativi, mentre una sola macchina di Turing

Universale si bloccherebbe di fronte alla contraddizione.

13

Fig.6.6

Se questo avviene per una semplice espressione, pensiamo allora alla

complessità di un intero linguaggio: la sua potenza computazionale appare

enormemente elevata.

Quindi se superare la potenza computazionale teorica di una macchina di

Turing Universale sembra possibile, allora ci si prospetta un nuovo limite teorico,

quello formato da una rete di macchine di Turing universali (e quindi da sistemi

aperti con infiniti valori di verità) che si relazionano infinitamente su infinite

dimensioni, entro tale limite opera il nostro cervello.

Una possibilità di descrizione di questo nuovo territorio non computazionale è

dato dalla matematica reticolare, una versione più complessa della matematica fuzzy

dove esiste solo una dimensione con infiniti valori di verità.

Sebbene la creazione d'intelligenze artificiali abbia originato notevoli progressi

tali da rendere reali computer come Al del film di Stanley Kubrick “2001: Odissea

nello spazio”, tuttavia qualcosa sembra ancora mancare per poter parlare di

un'effettiva intelligenza; si pensi allora alle potenzialità che si svilupperebbero

dall'utilizzo della matematica reticolare nei software attuali.

Riassumendo, abbiamo mostrato nel primo capitolo cosa s'intendesse per

linguaggio semantico metaforico, attraverso quella che secondo Lakoff è la prova più

importante della sua teoria, il passaggio simulato in rete dalla sensazione al concetto

utilizzando le strutture sensomotorie e abbiamo analizzato come le metafore che

operano nel linguaggio si formino, e si aggreghino tra di loro, secondo una

grammatica semantica.

13

Nel secondo capitolo abbiamo analizzato la consistenza della rete PDP, quali

sono i suoi punti critici (tra cui i problemi di addestramento e il limite dei 100 passi di

Feldman), e quali sono le restrizioni che s'imponevano al linguaggio metaforico basato

sulle reti neurali così come concepito da Lakoff.

Nel terzo capitolo abbiamo esposto le caratteristiche funzionali della rete

nervosa (principalmente la sua non computabilità, attraverso un paragone diretto con

la rete PDP) e nel quarto una sua possibile simulazione da parte di un computer;

mentre nel quinto capitolo è stato esposto un esempio di linguaggio metaforico non

computazionale, il metalinguaggio della PNL che, pur partendo da una base clinica

può orientarsi nella direzione di una grammatica delle metafore “alla Lakoff”.

In quest’ultimo capitolo abbiamo ripreso la teoria concettuale delle metafore di

Lakoff e Grady rivisitandola alla luce delle considerazioni fatte, non tanto per trarne

delle conclusioni categoriche, quanto per mostrare come le intuizioni di Lakoff, della

PNL, e dell'ultimo connessionismo convergano tutte in un quadro più generale, quello

delle matematiche dimensionali con sistemi aperti.

Tale quadro teorico ritiene valida la possibilità di creare un linguaggio

metaforico attraverso i computer. Tuttavia, per farlo in accordo con le ultime teorie

dell'intelligenza artificiale, è necessario apportare innovazioni sostanziali, in quanto il

software precedentemente usato non ha dato i risultati sperati di simulazione delle

funzioni cerebrali.

Bisogna quindi utilizzare un nuovo software che abbia caratteristiche “umane”,

caratteristiche che sono ben diverse da quelle attualmente usate dai computer. Il

limite imposto dalla macchina di Turing Universale sembra poter essere superato con

macchine di Turing sovra dimensionali, in cui l'utilizzo di una matematica reticolare

rende possibile quelle caratteristiche funzionali proprie del sistema nervoso.

E' auspicabile che una volta che un computer utilizzerà un software con tali

caratteristiche, si potrà parlare di vera intelligenza artificiale.

13

Riferimenti bibliografici

AAVV2000 The emergence of the mind, procedings of the International Symposium, 3031

march, Fondazione Carlo Erba, Milano.Amit D. J.1989Modelling brain function, Cambridge, University Press.Angela P.1983 La macchina per pensare, Garzanti, Milano.Arrighi C.2001 Il confronto fra modelli classici e modelli connessionistici nell’ambito della

scienza cognitiva, Università degli studi di Firenze, tesi di laurea.Asimov I.1968 I, Robot, St. Albans, Herts, Granada, trad. It. Io,robot, Milano, Bompiani,

1984.Bailey D.1997 A computational model of embodiment in the acquisition of action verbs, Ph. D.

Dissertation, University of California, Berkeley.Bandler R.1981 Tranceformations, Real People Press, trad. it. Ipnosi e trasformazione,

Astrolabio, Roma, 1983.Bandler R. , Grinder J. 1975 Practical Magic, Meta Publication, Cupertino, California, trad. it. Magia

Pratica, Astrolabio, Roma, 1989.Bandler R., MacDonald W.1988 An insider's guide to submodalities, Cupertino, Meta Publication, trad. It. Guida

per l'esperto alle submodalità, Astrolabio, Roma, 1991.Bateson G. 1972 Step to ecology of mind, Chandler publishing company, trad. it. Verso

un'ecologia della mente, Adelphi, Milano, 1976.1979Mind and nature a necessary unit, trad. it. Mente e natura, Adelphi Edizioni,

Milano, 1984.Boden, M.1976 Artificial intelligence and natural man, Hassocks, Sussex, Harvester.Cammarata S.1994 Sistemi a logica fuzzy, Etas libri, Milano.Cartesio1637 Disorso sul metodo, Bari, Laterza, 1985.

13

Chomsky N.1957 Syntactic structures, Mouton and Co, Den Haag, trad. it. Le strutture della sintassi, Laterza,

Bari, 1970.1965 Aspect of the theory of sintax, MIT Press, Cambridge, MA, trad. it. Saggi

linguistici, Boringhieri, Torino, 1970.1982 Some concepts and consequences of the theory of government and binding, MIT

Press, Cambridge, MA.

Church A.

1936 An unsolvable problem of elementary number theory, American Journal of Mathematics, 58, pp. 345363.

Churchland P. M

1989 Neurocomputational perspective. The nature of mind and the Structure of Science, trad. it. La Natura della Mente e la Struttura della Scienza, Società Editrice il Mulino, Bologna, 1992.

Cottrell G.W. 1988A connectionist approach to word sense disanbiguation, Pitman Publishing, London.

Copeland B.J.

1997 The ChurchTuring Thesis, The Stanford Encyclopedia of Philosophy (Fall 2001 Edition), Edward N. Zalta.

Damasio H., Damasio A.1989 Lesion analysis in neuropsychology, Oxford University, Oxford.Erickson M., Rossi E., Rossi S.1979 Tecniche di suggestione ipnotica, Astrolabio, Roma.Faconnier G., Turner M.1994 Conceptual projection and middle space, University of California, San Diego.Feldman J. A.1985Connectionist model and their applications: introduction, in “Cognitive Science”,

9, pp.12.Fodor J.A.2001 The Mind Doesn't Work That Way, MIT Press, Cambridge, MA.1986Psychosemantics, MIT Press, Cambridge, MA, trad. It. Psicosemantica, Il Mulino,

Bologna, 1990.Fodor J. A., Pylishyn Z. W.1981 How direct is visual perception: some reflections on Gibson's “Ecological

Approach”, “Cognition”, 9, pp.155170.Gentner D.1983 Structuremapping: a theoretical framework for analogy, “Cognitive Science”,

7, 2, pp.155170.Grady J.1997 Foundations of meaning: primary metaphors and primary scenes, Ph. D.

dissertation, University of California, Berkeley.

13

Gillies D.1996 Artificial intelligence and scientific method, trad. It. Intelligenza artificiale e

metodo scientifico, Cortina Editore, Milano, 1998.

Hamer R. G.

1998 Il capovolgimento diagnostico, la genesi delle malattie e in particolare il cancro, Amici di Dirk, Fuengirola, Spagna.

Hebb D. O.1949 The organisation of behaviour: a neurophychological approach, Wiley, New

York, trad. it. L'organizzazione del comportamento. Una teoria psicologica, Angeli, Milano, 1975.

Hewitt C.1985 Stereotypes as an ACTOR approach towards solving the problem of

procedural attachment in FRAME theories, in Proceedings of theoretical issues in natural language processing, Beranek & Newsman, Cambridge.

Hofstadter D. R.1979 Gödel, Escher, Bach: an eternal golden braid, Basic Books, New York, trad. it.

Gödel, Escher, Bach, Adelphi, Milano, 1988.1995 Douglas Hofstadter end the Fluid Analogies Research Group, Basic Books, New

York, trad. it. Concetti fluidi e analogie creative, Adelphi, Milano, 1996.Hofstadter D. R., Dennett D. C.1981 The mind's I, Basic Books, New York, trad. it. L'io della mente, Adelphi, Milano

1985 da cui è tratto il passo “Preludio e... mirmecofuga”, pp.162.Jackendoff R.1983 Semantic and Cognition, Cambridge, MIT Press, trad.it. Semantica e

cognizione, Il Mulino, Bologna, 1989.Johnson C.1997 The acquisition of the “what's X doing Y” construction, in

Procedings of the twentyfirst annual Boston University conference on language development 2, Cascadilla Press, Somerville, pp.343353.

JohnsonLaird P. N.1989 The computer and the mind, Harvard University Press

Cambrige, Massachusetts, trad. it. La mente e il computer, Il Mulino, Bologna, 1990.

Kandel E. R, Schwartz J. H.1981 Principles of neural science, Elsevier, New York.KarmiloffSmith C.1995 Oltre la mente modulare, Il Mulino, Bologna.Kosko B.1993 Fuzzy thinking: the new science of fuzzy logic, Hyperion, trad. it. Il fuzzy

pensiero, Baldini & Castoldi, milano 1995.Levi Montalcini R.1998La galassia mente, Baldini&Castoldi, Bologna.

14

Lurija A. R.1966Higher cortical function in man, Basic Books, New York.1973 The working brain, Penguin, London, trad. it. Come lavora il cervello, Il

Mulino, Bologna, 1977.1979 Viaggio nella mente di un uomo che non dimenticava nulla, Armando, Roma.Lakoff G.1970 Linguistic and natural logic, University of Michigan, Ann Arbor,

Michigan.1972 “Hedges: study in meaning criteria and the logic of fuzzy concepts”, in Papers

from the eighth regional meeting of the Chicago linguistic society, University of Chicago, Chicago.

1987 Women, Fire, and Dangerous Things, University of Chicago Press, Chicago.

Lakoff G., Johnson M.1985 Metaphors We Live By, University of Chicago Press, Chicago. 1999Philosophy in the flesh, Basic Books, New York.La Mettrie J. O. de1747 L'homme machine, trad. L'uomo macchina, Edizioni Feltrinelli, 1955.Lankton S.1996 Practical magic, Meta Publication, Cupertino, California, trad. it. Magia

pratica, Astrolabio, Roma, 1989.McClelland J.L. 1979 On the timerelations of mental processes: an examination of systems of

processes in cascade, in “Psychological Review”, 86, pp.287330.

McClelland J.L. , Rumelhart D. E. 1985 An interactive activation model of context effect in letter perception: I. An

account of basic findings, in “Psychological Review”, 88, pp.375407.1986 Parallel distributed processing, MIT press, Cambidge, trad. it. PDP

microstruttura dei processi cognitivi, Il Mulino, Bologna, 1991.Miller G. A.1956The magical number seven, plus or minus two, in “Phychological Review”, 63,

pp.8197.Miller G. A.,Galanter E., Pibram K.1960 Plans and the structure of behavior, Holt, Rinehart and

Winston, New York, trad. it. Piani e struttura del comportamento, Angeli, Milano, 1984.

Minsky M.1975 A framework for representing knowledge, in The psychology of computer

vision, McGrawHill, New York, pp 211277.Minsky M.L., Papert S.1969 Perceptrons, MIT Press, Cambridge.Nagel E., Newman J.R.1958 Gödel’s proof, New York University Press, New York, trad.it. La prova di Gödel,

Ed. Boringhieri, Torino, 1961Narayanan S.1997 Embodiment in language understanding: sensorymotor representation for

metaphoric reasoning about event descriptions, Ph. D. Dissertation, University of California, Berkeley.

14

Neisser U.1967 Cognitive Psicology, Appleton, New York, trad. it. Psicologia cognitivista,

Firenze, Giunti, 1976.Norman D. A., Bobrow D. G.1975 On datalimited and resourcelimited processes, in “Cognitive Psicology”, 7,

pp.4464.Odifreddi P.2000La matematica del ‘900, Enaudi, Torino.2000(1) Il computer di Dio, Cortina, Milano.Parisi D.1990Intervista sulle reti neurali. Cervello e macchine intelligenti, Il Mulino, Bologna.Penrose R. 1990 La mente nuova dell'imperatore, Edizioni Rizzoli, Milano, 1990.Peruzzi A.1981 Un mondo di sistemi, “Rivista di Filosofia”, 20, pp.335339.1996 Orme nel silicio, orme nella storia, in “Paradigmi” anno XIV, N.42, settembre

dicembre, Schena Editore.1995An essay on notion of schema, Kluver Academic Publishers, Amsterdam.Piaget, J.1952 The origins of intelligence in children, International University Press, New York,

trad. It. La nascita dell’intelligenza nel bambino, Firenze, La nuova italia, 1973.Regier T.1996 The human semantic potential: spatial language and constrained connectionism,

MIT Press, Cambridge.Rosemblatt F.1958 The perceptron, a probabilistic model for information storage

and organization in the brain, in “Psychological Review”, 62, pp. 386398.

Rumelhart D.E.1977 Toward and interactive model of reading, in “Attention and Performance VI” ,

Hillsdale, Erlbaum, New York.

Sacks O.1985 The man who mistook his wife for a hat, Oliver Sacks, trad. it. L'uomo che

scambiò sua moglie per un cappello, Adelphi, Milano, 1992.Schwartz M.F., Marin O.S.M., Saffran E.M.1979 Dissociations of language function in dementia: A case study, “Brain and

Language”, 7, pp. 277306.Schank R.C., Abelson R.P.1977 Scripts, Plans, Goals and Understanding, John Wiley and Sons, New Jersey.Searle J.R. 1987 Minds, Brains and Programs, “The Behavioral and Brain

Sciences”, 3, pp.417424, trad. it. Menti, cervelli e programmi, un dibattito sull'intelligenze artificiali, ClupClued, Milano, 1984.

1996La costruzione della realtà, Edizioni Comunità, Milano.

14

Smolensky P.1986 Information processing in dynamical system: fondation of harmony theory, in

“McClelland and Rumelhart research group”, vol. I, trad. it. Il connessionismo tra simboli e neuroni, Il Mulino, Bologna, 1992.

Tabossi P.1988 Intelligenza naturale e intelligenza artificiale. Introduzione alla scienza

cognitiva, Il Mulino, Bologna.Turing A.M.

1936 On computable numbers, with an application to the Entscheidungsproblem, Proc. London Math. Soc., Ser. 2, 42, pp. 230265.

1937 Collected works of A.M. Turing: mechanical inteligence, Elsevier science publishers, New York, trad. it. Intelligenza meccanica, Bollati Boringhieri, Torino, 1994.

Wall R.1972 Introduction to mathematical linguistics, PrenticeHall, Englewood Cliffs, New

Jersey.Zadeh L.1992The calculus of fuzzy ifthen rules, “A.I.Expert”, march.

14

Documents

Facoltà di Lettere e Filosofia - Alessandro Geloso€¦ · sistema che percepisce il mondo fisico con i suoi organi di senso, che organizza ed elabora l'informazione nel proprio