Om sau șobolan?
Om sau șobolan?
(vezi mai jos semnificația imaginii)

Computerele au stimulat interesul modern pentru cogniție. Acest termen, „cogniție”, acoperă cunoașterea, conștientizarea și procesele mentale în general.

Computerele i-au influențat pe psihologii cognitiviști în cel puțin trei feluri: 
(1) computerele au oferit o nouă perspectivă, prezentând inteligența ca procesare a informației; 
(2) computerele au furnizat un instrument pentru cercetare, de exemplu prin afișarea stimulilor, colectarea răspunsurilor și analizarea datelor; 
(3) computerele au oferit o nouă modalitate de testare a teoriilor prin simulări: imitații ale proceselor mentale în programe informatice.

La începutul erei computerelor, în anii '50 și '60, cercetătorii au identificat două moduri diferite de a studia procesele cognitive folosind computere. Cercetătorii din domeniul inteligenței artificiale (IA), de obicei aflați în departamente de informatică, încercau să facă niște computere să se comporte inteligent, fără a ține cont de modul în care „funcționează” oamenii.

Preocuparea unui cercetător în IA era crearea unui program care funcționa (acționa inteligent). Dacă oamenii procedau altfel, pe cercetătorii IA nu îi interesa.

În contrast cu IA se afla abordarea psihologiei cognitive. Aceasta, de obicei situată într-un departament de psihologie, încerca să explice modul în care oamenii desfășurau acte de cogniție. Tehnicile computerizate nu erau neapărat relevante.

Care era distincția clasică dintre abordările IA și cognitive?

Până la mijlocul anilor '70 cele două grupuri și-au dat seama că puteau beneficia învățând unul de la celălalt. A început să fie folosit termenul „știință cognitivă” ca o modalitate de a acoperi toate cercetările menite să înțeleagă cogniția, în același fel în care termenul „neuroștiințe” este folosit pentru a acoperi toate cercetările legate de sistemul nervos.

Astăzi, cercetătorii din știința cognitivă pot lucra într-un departament de lingvistică, informatică, educație sau psihologie (printre altele). Cercetarea în neuroștiințe cognitive se desfășoară la intersecția dintre știința cognitivă și neuroștiințe.

Veți observa în acest capitol numeroase referințe la scanări ale creierului și alte forme de dovezi biologice. Producătorii de calculatoare învață, de asemenea, din fiziologia creierului, experimentând cu tehnici de modelare a circuitelor electronice după cele cerebrale (așa-numitele circuite neuromorfice).

Cei mai mulți cercetători din știința cognitivă de astăzi sunt orientați spre probleme. Ei se concentrează pe chestiuni particulare, precum recunoașterea fețelor sau percepția auditivă. Orice perspectivă utilă este binevenită, indiferent dacă provine din inteligența artificială, psihologia cognitivă, neuroștiință sau altă abordare.

Cum este știința cognitivă azi?

Simulările pe calculator (imitații ale proceselor naturale pe un computer) oferă o modalitate riguroasă de testare a unei teorii cognitive. Provocarea pentru un teoretician este clară: „Dacă tu crezi că ai o teorie bună despre cum funcționează un proces cognitiv, folosește-o pentru a proiecta un program care să realizeze acea sarcină”.

Aceasta este o provocare dificilă! Este, de asemenea, o mare schimbare față de era pre-computer, când speculațiile despre procesele mentale erau greu de demonstrat sau infirmat. Programele informatice ori funcționează, ori nu funcționează; rezultatele sunt clare.

Luați în considerare munca psihologilor gestalt. Ei ofereau demonstrații și principii și speculau despre câmpuri de energie în creier, dar nu aveau nicio modalitate de a-și testa ideile într-un mod mai științific. Tot ce aveau erau exemple și demonstrații.

În munca privind analiza scenelor vizuale vom vedea că unele dintre problemele identificate de psihologii gestalt au fost abordate din nou. Computerele au fost învățate să găsească limitele unui obiect, să identifice marginile care trec în spatele altui obiect și multe altele.

Problemele sunt aceleași ridicate de psihologii gestalt. Diferența este: de data aceasta, computerele sunt capabile să arate ce tehnici funcționează efectiv, pentru a realiza aceste abilități.

Ce sunt simulările și cum oferă ele o „provocare dificilă”?

Vom începe analiza științei cognitive examinând unul dintre cele mai reușite eforturi de a simula un proces cognitiv: lucrarea clasică de la Massachusetts Institute of Technology (MIT) despre analiza scenelor vizuale.

Analiza scenelor vizuale

Analiza scenelor vizuale este un exemplu de bază al cercetării în inteligență artificială care a influențat înțelegerea proceselor cognitive umane de către oamenii de știință. A fost una dintre primele povești de succes în IA complexă, încurajând cercetătorii să exploreze soluții similare la alte probleme cognitive.

Analiza scenelor vizuale este versiunea computerului a percepției vizuale. Pentru a analiza o scenă vizuală, computerul trebuie să identifice obiectele și relațiile dintre obiecte, etichetându-le corect pe fiecare.

De exemplu, dacă este dotat cu un braț robotic sau un echivalent grafic, un program informatic trebuie să fie capabil să manipuleze obiectele ca răspuns la comenzi precum „Pune blocul triunghiular pe blocul lung și subțire”. Aceste performanțe (etichetare, răspuns la întrebări, manipulare) servesc drept dovadă comportamentală că programul „înțelege” o scenă.

Când spun cercetătorii că un computer „înțelege” o scenă?

În lucrările clasice din anii 1960, o echipă de la MIT a încercat să învețe un computer să recunoască diverse aranjamente ale unei lumi simple de blocuri. Această lume consta într-o reprezentare computerizată a unor blocuri pe o masă.


Lumea blocurilor MIT

Pentru a interpreta scena, computerul trebuia să atribuie o semnificație sau o interpretare fiecărei linii din scenă. De exemplu, trebuia să știe că o linie reprezenta marginea unei umbre, alta reprezenta marginea unui bloc orientat spre observator și așa mai departe. Imaginea este considerată înțeleasă atunci când fiecare linie este etichetată corect (Waltz, 1975).

Ce era „lumea blocurilor”?

Inițial, cercetătorii au încercat să ignore umbrele, considerându-le o complicație inutilă a sarcinii. Totuși, s-a dovedit că umbrele ofereau indicii importante. Ele ajutau la identificarea obiectelor și a pozițiilor relative ale acestora. Astfel, umbrele au fost incluse în lumea blocurilor.

De ce a inclus programul umbre? Ce alte caracteristici s-au dovedit esențiale?

Echipa MIT a descoperit că liniile, marginile și colțurile sunt caracteristici critice ale unei scene vizuale. Mai întâi, computerul izola liniile și marginile (zone de contrast brusc în scenă). Apoi, computerul urmărea liniile până la colțurile unde acestea se intersectau sau se ciocneau cu alte linii.

Fiecare segment de linie putea fi interpretat în 11 moduri diferite (ca margine exterioară a unui obiect, margine a unei umbre etc.). Înainte ca computerul să poată interpreta cu succes scena, trebuia să aleagă unul dintre cele 11 sensuri pentru fiecare segment de linie din scenă.


Patru tipuri de vârf identificate de Guzman (1969)

Îmbinările a două sau mai multe linii sunt numite vârfuri (vertexuri sau vârfuri). Fiecare vertex reprezintă un colț al unui obiect sau un loc unde un obiect (sau o umbră) trece în fața altuia. Figura de mai sus arată patru tipuri de vertex identificate de Guzman (1969).

Ce este un vertex „săgeată”? Dar un „trident”?

Pentru a interpreta o scenă vizuală, computerul trebuie să atribuie un sens fiecărui vertex, precum și fiecărui segment de linie. Luați în considerare vertexul numit săgeată. În următorul desen sunt două săgeți, fiecare marcată cu un punct la vârf.


Vertex-uri săgeată orientate în sus și în jos

O săgeată poate fi un colț interior orientat în sus (primul desen) sau un colț exterior orientat în jos (al doilea desen). Dar nu poate fi ambele în același timp.

Dacă computerul decide (pe baza altor informații, precum umbrele) că săgeata din dreapta este marginea exterioară a unui bloc mic așezat pe un bloc mai mare, atunci săgeata poate fi doar un colț exterior orientat în jos. Odată ce decizia este luată, acel vertex este interpretat. Aceasta ajută computerul să interpreteze și alte părți ale scenei.

Propagarea constrângerilor

Atribuirea unui sens unei părți a scenei limitează posibilele interpretări ale altor părți. Acest lucru este numit satisfacerea constrângerilor sau propagarea constrângerilor.

Sună complicat, dar ideea de bază este simplă: scena este interpretată prin eliminarea tuturor interpretărilor posibile, cu excepția uneia singure. Este ca un anchetator criminalistic care elimină toți suspecții, mai puțin unul, pentru a-l găsi pe vinovat.

Constrângerile se propagă sau se răspândesc deoarece, odată ce limitezi posibila interpretare într-o parte a scenei, asta limitează sau constrânge posibila interpretare în alte părți. În cele din urmă, rămâne o singură interpretare a întregii scene. În acel moment, scena este înțeleasă.


Vertex-uri săgeată orientate în sus și în jos

De exemplu, un vertex săgeată ar putea fi interpretat provizoriu ca un colț interior orientat în sus (ca în figura din stânga). Aceasta ar însemna că cele două segmente de linie care formează vârful săgeții trebuie să fie ambele margini ale unui obiect.

Aceasta, la rândul ei, înseamnă că punctul unde se întâlnesc trebuie să fie mai îndepărtat decât marginile care duc spre el. Odată ce programul știe aceste lucruri, poate face alte presupuneri, și așa mai departe, până când întreaga scenă este interpretată.

Ce este „propagarea constrângerilor” și cum este ilustrată în aceste exemple?

Din nou: scopul este să interpretăm întreaga scenă prin atribuirea unui înțeles specific fiecărui segment de linie. Aceasta este marginea de sus a unui bloc, aceea este marginea unei umbre etc. Fiecare colț și suprafață trebuie identificate, de asemenea.

A elimina toate interpretările posibile ale unei scene cu excepția uneia înseamnă a „satisface toate constrângerile” și a înțelege scena. La fel ca un detectiv care lucrează la un caz de crimă, computerul caută acea singură interpretare care dă sens tuturor dovezilor.

Programul MIT de analiză a scenelor vizuale a fost unul dintre cele mai de succes exemple de cercetare în inteligența artificială din secolul XX. Proiectul era în mare parte încununat de succes până la mijlocul anilor '80.

Pornind doar de la câteva presupuneri de bază, computerele puteau accepta input de la o cameră video și localiza granițele obiectelor din orice scenă. Problema fundamentală a formării gestaltului sau a segregării obiectelor a fost rezolvată pentru percepția vizuală.

Satisfacerea constrângerilor este un proces de bază întâlnit în toate tipurile de procese cognitive, dar poate fi o idee greu de prins pentru studenții care o întâlnesc pentru prima dată. Din acest motiv, vom analiza două exemple care arată cum creierul atribuie sens segmentelor de linie și vârfurilor pentru a înțelege diagrame.

Cubul Necker

Primul nostru exemplu implică o iluzie vizuală faimoasă, o figură ambiguă numită Cubul Necker. Este una dintre cele mai vechi iluzii vizuale studiate de psihologi, datând din 1820.

Desenul schematic al unui cub poate fi interpretat în mai multe feluri. Psihologii numesc aceasta o figură ambiguă sau bi-stabilă.


Cubul Necker

Cubul Necker pare să-și schimbe orientarea în spațiu pe măsură ce privești fix la el. Acest lucru se întâmplă deoarece stimulul poate fi interpretat în două moduri care sunt la fel de bune sau „legale” din perspectiva sistemului perceptiv.

Cercetătorii în științe cognitive interpretează acest fenomen ca „reprezentări perceptive de nivel înalt aflate în competiție, activate ca răspuns la un anumit stimul vizual” (Suzuki și Peterson, 2000).

În limbajul satisfacției constrângerilor, există două interpretări ale cubului care satisfac toate constrângerile inputului senzorial. Acest lucru determină creierul să alterneze între două interpretări la fel de acceptabile.

Dacă nu vezi cele două configurații diferite, privește cubul un timp. Se va schimba. Dacă vezi cele două interpretări, încearcă să menții cubul într-o singură configurație, rezistând competiției celeilalte interpretări.

Suzuki și Peterson (2000) au descoperit efecte substanțiale ale intenției (voinței) asupra acestei sarcini. Totuși, chiar dacă îți concentrezi intenția, în cele din urmă neuronii care reprezintă o opțiune obosesc. Atunci cealaltă reprezentare preia controlul (cubul „se răstoarnă”).

Cubul Necker are opt vârfuri. Dintre acestea, șase sunt săgeți la margini, două sunt „furci” în centru. Furcile A și B determină interpretarea cubului de către privitor.


Ori A, ori B apare mai aproape

Dacă interpretezi A ca fiind mai aproape de tine decât B, atunci A este un „colț exterior orientat în jos”. O bilă așezată pe cub (dacă ar fi solid) s-ar rostogoli spre tine, deci este un colț în jos. Dacă interpretezi punctul A în acest fel, atunci punctul B trebuie să fie un colț interior orientat în sus.

Aceasta este ceea ce se înțelege prin propagarea constrângerilor. Interpretarea unui element „își răspândește influența” asupra elementelor adiacente.

Când neuronii tăi obosesc de o interpretare, neuronii care reprezintă cealaltă interpretare au șansa să devină activi. Când o fac, ei inhibă prima interpretare (deoarece doar una poate fi activă la un moment dat).

A doua interpretare ar fi să consideri punctul B ca un colț exterior orientat în sus. Aceasta forțează reinterpretarea punctului A în același timp.

Observă că întregul cub se răstoarnă. Cubul este tratat ca un gestalt, un întreg, iar interpretarea fiecărei linii și a fiecărui vârf trebuie să fie consecventă cu interpretarea întregului.

Două vârfuri-T aliniate

Iată un alt exemplu de propagare a constrângerilor. De data aceasta se bazează pe o regulă simplă: atunci când tulpinile a două vârfuri-T se aliniază, ele reprezintă o singură muchie care trece în spatele unui obiect.

Aceasta este o versiune computerizată a legii gestaltiste a continuității. Legea continuității, una dintre legile gestalt ale „pragnanz” (clarității), spunea că segmentele care se aliniază și se prelungesc de ambele părți ale unui obiect sunt interpretate ca aceeași linie.


Două vârfuri-T (încercuite) cu bazele (A și B) aliniate. A și B sunt interpretate ca fiind „aceeași linie”

În ilustrație, două vârfuri-T sunt încercuite și segmentele de linie de lângă ele (bazele T-ului) sunt etichetate A și B. Computerul este învățat să presupună, așa cum face un om instinctiv, că două baze-T aliniate astfel fac parte din aceeași muchie.

Prin urmare, orice identificare a segmentului A se propagă la segmentul B. Dacă A este identificat ca marginea exterioară superioară, atunci și B trebuie să fie același lucru. (Ele sunt aceeași muchie.)

Cum face creierul analiza scenelor vizuale atât de repede?

În discutarea acestor exemple am adoptat o abordare pas-cu-pas, direcționând atenția întâi la un segment, apoi la altul. Prin contrast, sistemul vizual analizează simultan multe părți ale scenei. Un astfel de procesare paralelă este mult mai rapidă și mai eficientă decât procesarea serială.

Creierul este un sistem paralel, ceea ce ajută să se explice rapiditatea sa în sarcini precum interpretarea scenelor. Dacă îți dai capul pe spate cu ochii închiși, apoi îi deschizi, creierul primește un nou tipar vizual și interpretează toate liniile, zonele și vârfurile în circa un sfert de secundă. Este o realizare remarcabilă!

Mașinile autonome trebuie să îndeplinească o performanță similară. Ele trebuie să identifice obiecte, să distingă mașini și pietoni de alți stimuli care ar putea fi doar umbre sau reflexii. Acest lucru trebuie făcut rapid și continuu.

O parte a soluției este, din nou, utilizarea procesării paralele, combinând inputurile mai multor detectoare și camere pentru a ajunge la acea singură interpretare a scenei care dă sens tuturor datelor de intrare. Doar atunci când are o interpretare a scenei, mașina poate acționa adecvat pentru a evita un pieton sau pentru a încetini din cauza unui obstacol.

Procesare de jos în sus și de sus în jos

Când o interpretare apare din date, aceasta se numește procesare bazată pe date sau de jos în sus (bottom-up). Percepția trebuie să fie în mare parte bazată pe date, deoarece trebuie să reflecte corect evenimentele din lumea exterioară. Vrei ca interpretarea unei scene să fie determinată mai ales de informația din simțuri, nu de așteptări.

În multe situații, însă, cunoștințele sau așteptările tale vor influența percepția. Aceasta se numește procesare bazată pe scheme sau de sus în jos (top-down). O schemă este un tipar format mai devreme în experiența ta.

Conceptele mai complexe sau mai incluzive sunt numite de nivel înalt, în timp ce părțile componente sau inputurile senzoriale sunt de nivel jos. Procesarea de sus în jos apare ori de câte ori un concept de nivel înalt influențează interpretarea datelor senzoriale de nivel jos.

Ce este „așteptarea”?

Procesarea de sus în jos este ilustrată de fenomenele de așteptare. Un exemplu clasic este imaginea „Om - șobolan” al lui Bugelski și Alampay (1961) - vezi imaginea mai sus.

Subiecții au văzut această imagine după ce au privit mai devreme diapozitive care arătau desene schematice ale (1) unor animale sau (2) fețe. În funcție de ce au văzut înainte, subiecții au raportat că văd fie (1) un șobolan, fie (2) un om purtând ochelari.

Ei au fost setați pentru una sau alta interpretare de către diapozitivele precedente. Aceasta este o formă de procesare de sus în jos, în care o schemă (un concept sau tipar preexistent) influențează interpretarea datelor noi.

În ce sens se bazează benzile desenate pe procesarea de sus în jos?

Benzile desenate și desenele animate oferă multe exemple de procesare de sus în jos. Indicii simple sunt folosite pentru a sugera emoții și stări complexe.

Desenatorii au un set de convenții pentru a transmite informații despre stări mentale și fizice. Bule mici care pocnesc, de exemplu, indică beția.

Mișcarea este arătată prin linii care urmează obiectului sau prin mici pufuri de praf după pași. Limbajul vorbit apare într-un balon desenat cu o linie continuă. Un gând tăcut apare într-un balon întrerupt.

O idee bruscă poate fi ilustrată printr-un bec aprins deasupra capului unui personaj. Picături de sudoare care sar de pe un personaj arată anxietate sau efort fizic.

După ce capeți experiență cu benzile desenate, aceste indicii sunt procesate imediat și automat. Abia dacă devii conștient de ele.

În general, procesarea de sus în jos este procesarea informației bazată pe cunoștințe anterioare sau scheme. Ea ne permite să facem inferențe: să „percepem” sau să „știm” mai mult decât este conținut în date.

Picăturile desenate nu conțin informația că un personaj depune efort. Noi adăugăm această informație pe baza experienței anterioare și a cunoașterii convențiilor desenului animat.

În ce sens mergem „dincolo de informația dată”?

Jerome Bruner a intitulat o carte despre dezvoltarea cognitivă „Beyond the Information Given” (Dincolo de date informația dată) (1972). El recunoștea rolul esențial al inferenței în cogniție.

Mergem dincolo de informația dată constant în procesele noastre mentale. Învățăm să adăugăm presupuneri și informații suplimentare derivate din experiența trecută la dovezile simțurilor și astfel reușim să dăm sens lumii.

— ••• —
Articolul este parte din cartea „Introducere în psihologie” de Russell A. Dewey
CUPRINS - Introducere în psihologie
(Cap. 7: Cogniția) - (Partea 1: Procesarea informației vizuale) - Analiza scenei vizuale

Write comments...
symbols left.
Ești vizitator ( Sign Up ? )
ori postează ca „vizitator”
Loading comment... The comment will be refreshed after 00:00.

Be the first to comment.

Dacă apreciezi articolele SCIENTIA, sprijină site-ul cu o donație!

Cumpără de la eMag și Cărturești și, de asemenea, sprijini scientia.ro.