Microsoft uczy GPT-4 samodzielnego korzystania z systemu Android
Nadanie ChatGPT zdolności do samodzielnego funkcjonowania w ramach systemu operacyjnego okazało się trudnym zadaniem z wielu powodów, jednak zespół składający się z naukowców z Microsoft Research i Uniwersytetu Pekińskiego może odkryć tajemniczy składnik.
Zespół przeprowadził badanie, aby ustalić dlaczego sztuczna inteligencja (SI) oparta na dużych modelach językowych (LLM) takich jak GPT-4 zawodzi w zadaniach wymagających manipulacji systemem operacyjnym.
Systemy najnowszej generacji, takie jak ChatGPT działający na GPT-4, ustalają standardy dla zadań generatywnych, takich jak napisanie e-maila czy wiersza. Jednakże, sprawienie, aby działały one jako agenci w ogólnym środowisku, stanowi znaczne wyzwanie.
Tradycyjnie modele SI są trenowane do eksploracji poprzez uczenie ze wzmocnieniem w wirtualnym środowisku. Deweloperzy SI używali zmodyfikowanych wersji popularnych gier wideo, takich jak Super Mario Bros. i Minecraft, aby „nauczyć” modele koncepcji takich jak samodzielna eksploracja i dążenie do celu.
Jednak systemy operacyjne stanowią zupełnie inne pole zabawy dla modeli SI. Jako agenci, wykonując funkcje w systemie operacyjnym, często stają przed wielowymiarowym wyzwaniem, wymagającym wymiany informacji między różnymi komponentami, programami i aplikacjami.
Ogólnie rzecz biorąc, podejście trenowania ze wzmocnieniem wymaga prób i błędów. Jednak, jak każdy, kto wprowadził za często niepoprawne hasło, lub zapomniał które skróty działają w których aplikacjach wie, że dane mogą łatwo zostać utracone podczas korzystania z takiego podejścia w środowisku systemu operacyjnego.
Badacze pracowali z różnymi modelami LLM, jednak według badań, żaden z nich nie radził sobie szczególnie dobrze.
Według publikacji zespołu, dzieje się tak, ponieważ wyzwanie obecnie przekracza możliwości dzisiejszej SI:
Aby badacze znaleźli sposób na pokonanie tych wyzwań, musieli najpierw zrozumieć dlaczego LLM zawodziły w obsłudze systemamów operacyjnych, gdy niektóre modele SI były zdolne do nadludzkich wyczynów.
Zespół opracował nowe środowisko treningowe o nazwie AndroidArena, które pozwoliło LLM na eksplorację środowiska podobnego do systemu Android. Następnie, po stworzeniu testowych zadań i systemu benchmarkingowego, zidentyfikowali brak czterech kluczowych zdolności jako odpowiedzialnych: zrozumienie, rozumowanie, eksploracja i refleksja.
Podczas gdy zakres pracy był specjalnie zaplanowany w celu zidentyfikowania problemu, podczas procesu badawczego zespół faktycznie znalazł „prosty” sposób zwiększenia dokładności modelu o 27%.
W zasadzie, zespół skłonił model do automatycznego uzyskania informacji dotyczących liczby podejść, jakie dotychczas podjął, i tego, co próbował podczas tych podejść. Zmiana ta rozwiązała problem braku „refleksji”, poprzez w pewien sposób wbudowanie pamięci w prompty wykorzystywane do jego aktywacji.
Zespół przeprowadził badanie, aby ustalić dlaczego sztuczna inteligencja (SI) oparta na dużych modelach językowych (LLM) takich jak GPT-4 zawodzi w zadaniach wymagających manipulacji systemem operacyjnym.
Systemy najnowszej generacji, takie jak ChatGPT działający na GPT-4, ustalają standardy dla zadań generatywnych, takich jak napisanie e-maila czy wiersza. Jednakże, sprawienie, aby działały one jako agenci w ogólnym środowisku, stanowi znaczne wyzwanie.
Tradycyjnie modele SI są trenowane do eksploracji poprzez uczenie ze wzmocnieniem w wirtualnym środowisku. Deweloperzy SI używali zmodyfikowanych wersji popularnych gier wideo, takich jak Super Mario Bros. i Minecraft, aby „nauczyć” modele koncepcji takich jak samodzielna eksploracja i dążenie do celu.
Jednak systemy operacyjne stanowią zupełnie inne pole zabawy dla modeli SI. Jako agenci, wykonując funkcje w systemie operacyjnym, często stają przed wielowymiarowym wyzwaniem, wymagającym wymiany informacji między różnymi komponentami, programami i aplikacjami.
Ogólnie rzecz biorąc, podejście trenowania ze wzmocnieniem wymaga prób i błędów. Jednak, jak każdy, kto wprowadził za często niepoprawne hasło, lub zapomniał które skróty działają w których aplikacjach wie, dane mogą łatwo zostać utracone podczas korzystania z takiego podejścia w środowisku systemu operacyjnego.
Badacze pracowali z różnymi LLM, w tym z otwartoźródłowym Llama2 70B od Meta oraz z GPT-3.5 i GPT-4 od OpenAI. Według badań, żaden z nich nie radził sobie szczególnie dobrze.
Według publikacji zespołu, dzieje się tak, ponieważ wyzwanie obecnie przekracza możliwości dzisiejszej SI:
„Pierwszy raz, przestrzeń działań jest ogromna i dynamiczna… Po drugie, zadania rzeczywiste często wymagają współpracy między aplikacjami, co wymaga dalekowzrocznego planowania ze strony agentów LLM. Po trzecie, agenci muszą identyfikować optymalne rozwiązania zgodne z ograniczeniami użytkownika, takimi jak obawy dotyczące bezpieczeństwa i preferencje.”
źródło: cointelegraph.com
Strona ma charakter informacyjny. Nie ponosimy odpowiedzialności za decyzje związane z inwestowaniem na rynku kryptowalut.