TehnologijaVijestiZnanost

DS-STAR: Najsavremeniji i multitalentni agent za znanost podataka

Jinsung Yoon, istraživač nauke, i Jaehyun Nam, student istraživač, Google CloudDS-STAR je najsavremeniji agent za znanost podataka čija je multitalentnost vidljiva u njegovoj sposobnosti automatizacije raznovrsnih zadataka – od statističke analize do vizualizacije i obrade podataka – kroz različite vrste podataka, što rezultira vrhunskim rezultatom na slavnom DABStep benchmarku.

6. studenoga 2025. Jinsung Yoon, istraživač nauke, i Jaehyun Nam, student istraživač, Google Cloud

DS-STAR je najsavremeniji agent za znanost podataka čija je multitalentnost vidljiva u njegovoj sposobnosti automatizacije raznovrsnih zadataka – od statističke analize do vizualizacije i obrade podataka – kroz različite vrste podataka, što rezultira vrhunskim rezultatom na slavnom DABStep benchmarku. Brzi linkovi: Članak

Znanost podataka: Ključni igrač u rješavanju stvarnih izazova

Znanost podataka je područje posvećeno pretvaranju sirovog podataka u smisleno i djelotvorno uvide, igrajući ključnu ulogu u rješavanju stvarnih svjetskih problema. Poslovne tvrtke često ovisne o uvidima temeljenim na podacima kako bi donosile odluke od strateškog značaja. Međutim, proces znanosti podataka često je složen i zahtijeva visok nivo stručnosti u poljima kao što su računarstvo i statistika. Ovaj radni tok uključuje mnoge vrijeme potrošne aktivnosti, od tumačenja različitih dokumenata do izvođenja složene obrade podataka i statističke analize.

Autonomni agenti za znanost podataka

Da bi se optimizirao ovaj složeni radni tok, nedavna istraživanja se fokusiraju na korištenje gotovih velikih modela prirodnog jezika (LLM) za stvaranje autonomnih agenata za znanost podataka. Cilj tih agenata je pretvaranje prirodnih jezika u izvršni kod za željenu zadatku. Iako su napravili značajan napredak, trenutni agenti za znanost podataka imaju nekoliko ograničenja koja otežavaju njihovu praktičnu upotrebu.

Ograničenja postojećih agenata

Jedan od glavnih problema je njihova velika ovisnost o dobro strukturiranim podacima, kao što su CSV datoteke u relacijskim bazama podataka. Ovaj ograničeni fokus zanemaruje vrijedne informacije sadržane u raznovrsnim i heterogenim formatima podataka, kao što su JSON, nestrukturirani tekst i markdown datoteke, koji su česti u stvarnim aplikacijama.

Drugi izazov je to što mnogi problemi znanosti podataka nemaju jasno rješenje i nemaju etikete za istinu, što čini teško provjeriti je li razmišljanje agenta točno.

DS-STAR: Novi agent za znanost podataka

Da bi nadoknadio ove nedostatke, predstavljamo DS-STAR, novog agenta dizajniranog za rješavanje problema znanosti podataka. DS-STAR donosi tri ključna inovacije:

  1. Modul analize datoteka podataka koji automatski izvlači kontekst iz raznovrsnih formata podataka, uključujući i nestrukturirane;
  2. Fazu verifikacije gdje LLM sudac procjenjuje dovoljnost plana na svakom koraku;
  3. Sekvencijalni proces planiranja koji iterativno usavršava početni plan na temelju povratnih informacija.

Ova iterativna usavršavanja omogućuje DS-STAR-u da rukuje složenim analizama koje izvlače provjerljive uvide iz više izvora podataka.

Funkcioniranje DS-STAR-a

DS-STAR radni okvir djeluje u dvije glavne faze. Prvo, automatski ispituje sve datoteke u direktoriju i stvara tekstualni sažetak njihove strukture i sadržaja. Ovaj sažetak postaje važan izvor konteksta za rješavanje zadatka. DS-STAR stvara Python skriptu za analizu raznovrsnih datoteka izvlačenjem ključnih informacija.

Drugo, DS-STAR se angažira u primarnu petlju planiranja, izvođenja i verifikacije. Agent planer prvo stvara visokorazinu plan, koji zatim agent koder pretvara u kodnu skriptu. Zatim agent verifikator procjenjuje učinkovitost koda u rješavanju problema. Agent verifikator je sudac temeljen na LLM koji je podstaknut da odredi je li trenutni plan adekvatno. Ako sudac pronađe da je plan nedovoljan, DS-STAR ga usavršava mijenjanjem ili dodavanjem koraka (određenih od strane agenta usmjerivača) i zatim ponavlja ciklus. Važno je da DS-STAR koristi metodu koja imitira kako stručni analitičar koristi alate kao što je Google Colab za sekvencijalno izgradnju plana, pregledavanjem međurezultata prije nastavka. Ovaj iterativni ciklus nastavlja se dok se plan ne smatralo zadovoljavajućim ili se ne dosegne maksimalan broj rundi (10), kada se konačni kod dostavi kao rješenje.

Evaluacija DS-STAR-a

Da bi se procijenila učinkovitost DS-STAR-a, usporedili smo njegovu izvedbu s postojećim najsavremenijim metodama (AutoGen, DA-Agent) koristeći skup priznatih benchmarka za znanost podataka, DABStep, KramaBench i DA-Code. Ovi benchmarki procjenjuju izvedbu na složenim zadacima kao što su obrada podataka, strojno učenje i vizualizacija koja koriste više izvora i formata podataka. Rezultati pokazuju da DS-STAR znatno nadmašuje AutoGen i DA-Agent.

Česta pitanja

Koji su glavni prednosti DS-STAR-a?

DS-STAR se ističe svojom sposobnošću da rade s raznovrsnim i heterogenim formatima podataka, što ga čini idealnim za stvarne svijetle aplikacije. Također, njegova iterativna usavršavanja omogućuje mu da rješava složene analize i izvlači provjerljive uvide iz više izvora podataka.

Je li DS-STAR kompatibilan s drugim alatima?

DS-STAR je dizajniran da radi u ekosustavu s drugim alatima za znanost podataka. Njegova sposobnost da automatski analizira datoteke i stvara Python skripte čini ga kompatibilnim s raznovrsnim alatima i okvirima.

Koliko je DS-STAR skalabilan?

DS-STAR je dizajniran s skalabilnošću na umu. Njegova arhitektura omogućuje mu da se lako prilagodi i rješava velike i složene zadatke, čineći ga idealnim za velike poslovne tvrtke i istraživačke institucije.

Kako se DS-STAR može koristiti u stvarnim aplikacijama?

DS-STAR se može koristiti u raznovrsnim stvarnim aplikacijama, od poslovnih analiza do istraživanja podataka. Njegova sposobnost da automatski analizira i izvlači uvide iz raznovrsnih izvora podataka čini ga vrijednim alatom za svaki tim koji radi s podacima.

Koji su budući planovi za DS-STAR?

Tim DS-STAR-a planira nastaviti raditi na poboljšanju njegove sposobnosti i proširenju njegovih mogućnosti. Budući planovi uključuju integraciju s još više alatima i okvirima, poboljšanje njegove sposobnosti u rješavanju složenih problema i proširenje njegove upotrebe u raznovrsnim aplikacijama.

Povezano

1 of 254

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)