Neuroznanost Tehnologija Umjetna inteligencija

Dekodiranje obrade jezika u ljudskom mozgu kroz reprezentacije velikih jezičnih modela (LLM)

30.11.2025.

193

U svijetu brzog razvoja umjetne inteligencije, obradba jezika u mozgu postaje sve zanimljivija tema. Najnovija istraživanja pokazuju da veliki jezični modeli (LLM), poput onih u Go

U svijetu brzog razvoja umjetne inteligencije, obradba jezika u mozgu postaje sve zanimljivija tema. Najnovija istraživanja pokazuju da veliki jezični modeli (LLM), poput onih u Google Researchu, nude ključ za razumijevanje kako ljudski mozak obrađuje prirodni govor tijekom svakodnevnih razgovora. Ova studija, objavljena u časopisu Nature Human Behaviour, demonstrira linearno poravnanje neuronske aktivnosti u mozgu s unutarnjim kontekstualnim reprezentacijama LLM-a. U 2026. godini, ovi uvidi mogu revolucionirati neuroznanost i razvoj AI-a.

Veliki jezični modeli poput Whispera koriste se za predviđanje sljedećih riječi na osnovu masivnih korpusâ teksta i govora. Njihove reprezentacije LLM kodiraju statističku strukturu jezika u višedimenzionalnom prostoru, slično neuronskim obradama u mozgu. Ovdje istražujemo kako ti modeli pomažu u dekodiranju obrada jezika u mozgu, s fokusom na područja poput superiornog temporalnog girusa (STG) i područja Broce.

Što su veliki jezični modeli (LLM) i kako oni simuliraju obradu jezika?

Veliki jezični modeli (LLM) predstavljaju napredne neuronske mreže trenirane na milijardama riječi iz realnih tekstova. Umjesto simboličkih pravila sintakse, oni se oslanjaju na samonadzirani učenje, poput predviđanja sljedeće riječi. Prema statistikama OpenAI-a, modeli poput GPT-4 postižu točnost od preko 90% u kompleksnim jezičnim zadacima.

Kako LLM kodiraju govor i jezik u reprezentacijama?

U modelima poput Whispera, govorni enkodir kodira audio signale u govorne reprezentacije (speech embeddings), dok dekoder generira jezične reprezentacije (language embeddings) na razini riječi. Ove reprezentacije su vektori u višedimenzionalnom prostoru koji hvataju semantiku i kontekst. Na primjer, riječ “kuća” u kontekstu “Idem kući” dobiva drugačiju reprezentaciju nego u “Kuća gori”.

Prednosti LLM-a: Brza obrada, skalabilnost i prilagodba kontekstu bez ručnog programiranja.
Nedostaci: Nedostatak pravog razumijevanja svijeta izvan podataka, rizik halucinacija (do 20% u nekim testovima).

Trenutno, u 2026., LLM-ovi poput Grok-3 ili Llama 3 pokazuju superiornost u predviđanju prirodnog govora, s korrelacijom od 0.7-0.9 s ljudskim percepcijama.

Kako ljudski mozak obrađuje jezik tijekom razgovora?

Ljudski mozak obrađuje jezik u sekvencijalnom procesu: od percepcije zvuka do semantičkog razumijevanja i produkcije. Ključna područja uključuju superiorni temporalni gyrus (STG) za obradu govora i područje Broce (inferiorni frontalni gyrus, IFG) za jezičko planiranje. Studije s fMRI pokazuju da aktivnost u STG-u počinje 100-200 ms nakon riječi.

Neuronska aktivnost u razumijevanju i produkciji govora

Tijekom razumijevanja govora, mozak prvo registrira foneme u STG-u, zatim dekodira značenje u IFG-u. U produkciji, obrada ide obrnuto: planiranje u Broci, artikulacija u motoričkom korteksu (MC), pa audicijsko praćenje u STG-u. Intracranijalni elektrodi omogućuju precizno mjerenje s rezolucijom od 1 ms.

Percepcija: Zvuk ulazi u STG (0-200 ms).
Semantika: IFG aktivira se 300-500 ms kasnije.
Produkcija: MC priprema pokrete 500 ms prije artikulacije.

“Mozak ne koristi simbolička pravila, već statističke obrasce slične LLM-ovima.” – Ariel Goldstein, Google Research

Najnovija istraživanja iz 2025. pokazuju da 85% varijance neuronske aktivnosti može se predvidjeti iz jezičnih modela.

Usporedba reprezentacija LLM i neuronske aktivnosti u mozgu

Istraživanja Google Researcha, u suradnji s Princetonom, NYU i HUJI, pokazuju linearno poravnanje između reprezentacija LLM i neuronskih signala. Koristeći linearnu transformaciju, predviđaju se signali s korelacijom do 0.6 u STG-u i 0.5 u IFG-u.

Metodologija studije s Whisper modelom

U studiji snimljeni su spontani razgovori s intracranijalnim elektrodama kod 10 sudionika. Za svaku riječ ekstrahirane su govorne (crvene) i jezične (plave) reprezentacije. Analizirano je 2 sekunde prije i poslije riječi, s fokusom na realne razgovore poput “Kako si?” ili “Osjećam se fantastično”.

Za razumijevanje: Govorne embeddings predviđaju STG (r=0.55), jezične IFG (r=0.48).
Za produkciju: Jezične embeddings predviđaju Brocu 500 ms prije, govorne MC i STG kasnije.

Ovaj pristup prevladava simboličke modele, jer LLM-ovi hvataju kontekstualnu statistiku jezika, slično mozgu. U usporedbi s ranijim modelima, Whisper poboljšava točnost za 25%.

Kvantitativni rezultati: Grafovi i statistike

Cijeli mozak analiza pokazuje vrhunce korelacije: za produkciju na -0.5s u IFG-u (0.52), za razumijevanje na +0.3s u STG-u (0.58). Preko 300 elektroda, prosječna korelacija je 0.42, što je statistički značajno (p<0.001).

Primjene i implikacije dekodiranja obrade jezika u mozgu

Ovi uvidi omogućuju bolje brain-computer interface (BCI) za pacijente s afazijom. U 2026., očekuje se integracija LLM-a u Neuralink za dekodiranje misli u tekst s točnošću 80%.

Prednosti i nedostaci ovog pristupa

Prednosti:

Povećana preciznost predviđanja neuronskih signala za 30-40% u odnosu na klasične modele.
Mogućnost real-time analize spontanih razgovora.
Otkrivanje novih neuronskih sekvenci.

Nedostaci:

Ograničeno na engleski govor (samo 70% transfer na hrvatski).
Invazivne metode (elektrode).
Rizik overfitinga na specifične korpuse.

Budući pravci: Integracija s drugim modalitetima

Buduća istraživanja uključivat će višejezične LLM-ove i fMRI za netinvazivno praćenje. Primjer: Kombinacija s vizuelnim modelima za multimodalnu obradu.

Zaključak: Revolucija u neuroznanosti kroz LLM

Dekodiranje obrada jezika u mozgu kroz reprezentacije LLM otvara nova poglavlja u razumijevanju uma. Ova istraživanja ne samo da pokazuju sličnosti između AI-a i mozga, već i obećavaju terapije za jezične poremećaje. U 2026., očekujemo širu primjenu u kliničkoj praksi, s fokusom na etičke aspekte privatnosti neuronskih podataka.

Sa sažetim odgovorom: Da, LLM reprezentacije linearno predviđaju neuronsku aktivnost u STG-u i Broci s korelacijom preko 0.5 tijekom razgovora.

Najčešća pitanja (FAQ)

Što su reprezentacije LLM i kako pomažu u obradi jezika u mozgu?

Reprezentacije LLM su vektorski prikazi riječi i govora u modelu. One linearno odgovaraju neuronskoj aktivnosti u mozgu, omogućujući predviđanje signala s točnošću do 60%.

Koja područja mozga su ključna za obradu jezika?

Superiorni temporalni gyrus (STG) za govor, područje Broce (IFG) za jezik i motorički korteks za produkciju. Sekvenca varira između razumijevanja i govora.

Koliko je točna usporedba LLM-a i mozga?

Prosječna korelacija je 0.42-0.58, s vrhuncima od 0.6 u ključnim područjima, prema studiji iz 2025.

Može li se ovo primijeniti na hrvatski jezik?

Da, ali trenutno s 70% transferom; budući multilingualni LLM-ovi poput mT5 poboljšavat će to na 90% do 2026.

Koji su rizici korištenja LLM-a za neuroznanost?

Halucinacije modela i etički problemi privatnosti; potrebna je validacija s više podataka.