Význam výzkumu zaměřeného na umělou inteligenci v softwarovém inženýrství

Význam výzkumu zaměřeného na umělou inteligenci v softwarovém inženýrství

Základním cílem tohoto výzkumu je umožnit umělé inteligenci (AI) pracovat na úrovni softwarového inženýra bez lidské pomoci. Tento přístup by mohl zrychlit proces vývoje softwaru a zvýšit jeho přesnost. Společnosti by tak mohly vytvářet samoučící agenty, kteří by zvládali úkoly jako hledání chyb, testování a ladění kódu autonomně.

Výzkum, publikovaný na arXiv.org, byl realizován v spolupráci s experty z University of Illinois Urbana-Champaign a Carnegie Mellon University, včetně společnosti Meta. V případě praktického úspěchu tohoto systému by se to mohlo podstatně dotknout jak vzdělávání v oblasti programování, tak i softwarového průmyslu, protože psaní a úprava kódu by se stala základní schopností AI, nikoli pouze lidským úkolem.

Jak funguje systém SSR

Systém SSR využívá jeden velký jazykový model (LLM), který plní dvě odlišné role – „vkladač chyb“ a „řešitel chyb“. Když model funguje jako vkladač chyb, záměrně zavádí do kódu chyby, například tak, že odstraní určitou řádku, změní logiku nebo zopakuje starou změnu. Poté, když vystupuje jako řešitel chyb, identifikuje tyto chyby a vytváří správný kód. Tento proces se opakuje, díky čemuž se AI učí nové vzory kódování a řešení problémů.

Celý trénink probíhá v prostředí open-source repozitářů a dockerových sandboxů, aby model mohl bezpečně experimentovat a učit se z reálných kódových základů. Open-source repozitáře jsou veřejné úložiště kódu, které může kdokoli prohlížet, používat a zlepšovat, zatímco dockerové sandboxy jsou bezpečné a izolované prostředí, kde je možno kód testovat bez rizika poškození systému.

Jak se SSR liší od tradičních systémů

Až dosud byli AI kódovací agenti školeni na datech napsaných lidmi, což omezovalo jejich možnosti, protože modely se učily pouze z předem existujících příkladů. SSR tuto závislost eliminuje, neboť systém hledá nové problémy a aktivně vyvíjí vlastní řešení místo spoléhání se na stará data.

Podle společnosti Meta překonal systém SSR předchozí rekordy na populárních benchmarkech SWE-Bench Verified a SWE-Bench Pro. V testu Verified získal o 10,4 bodů více než předchozí nejlepší systémy, zatímco v testu Pro předčil předchozí výsledky o 7,8 bodů. Tento výkon byl také lepší než u modelů, které byly trénovány na rozsáhlých lidských datech.

Spread the love