Hacker News

Ferret-UI Lite: Lezioni da Custruì Picculi Agenti GUI On-Device

Cumenti

15 min read Via machinelearning.apple.com

Mewayz Team

Editorial Team

Hacker News

L'ascesa di l'agenti GUI in u dispositivu: una nova frontiera in l'interazzione umanu-urdinatore

Durante decennii, u paradigma dominante di l'interazzione di u software hè stata ostinatamente statica: un umanu leghje una schermu, move un cursore, cliccà un buttone, è aspetta una risposta. Stu loop - percepisce, decide, agisce - hà definitu l'informatica da quandu u primu desktop graficu apparsu in l'anni 1970. Ma una rivoluzione tranquilla hè in corso. I ricercatori è l'ingegneri custruiscenu mudelli AI chjuchi è efficaci capaci dipercive, ragiunà è agisce in interfacce grafiche d'utilizatori interamente in u dispositivu, senza a latenza, u costu, o a privacy preoccupazioni di l'inferenza basata in nuvola. E lezioni chì emergenu da questi prughjetti rimodificanu cumu pensemu à u software intelligente, l'automatizazione è u futuru di l'arnesi cummerciale.

U sviluppu di l'agenti GUI compacti - mudelli cum'è Ferret-UI d'Apple è i so contraparti più ligeri - revela qualcosa di prufonda: ùn avete micca bisognu di un mudellu di lingua massiccia per capisce una schermu. Avete bisognu di l'architettura ghjusta, i dati di furmazione ghjusta, è un impegnu spietatu à l'efficienza specifica di u compitu. Quandu questi sistemi maturanu, cumincianu à trasfurmà a manera di l'imprese interagisce cù i so stacks di software, aprendu pussibulità chì una volta appartenevanu solu à a fantascienza.

Perchè i mudelli leggeri sò a vera svolta

Ci hè una tendenza in u discorsu di l'IA à equiparà a capacità cù a scala. I mudelli più grandi, u pensamentu, sò mudelli più intelligenti. Ma per l'agenti GUI - i sistemi chì devenu capiscenu layout di pixel, parse elementi interattivi, è eseguisce tarei multi-step in l'applicazioni cumplessi - u numeru di parametri crudi hè menu impurtante cà precisione spaziale è precisione di terra. Un mudellu di 7 miliardi di paràmetri chì pò appughjà in modu affidabile u buttone currettu in una interfaccia mobile supera un generalista di 70 miliardi di parametri chì allucinate e pusizioni di l'elementu.

A ricerca nantu à i picculi mudelli di GUI in u dispositivu hà dimustratu in modu coerente chì a fine-tuning mirata nantu à e dati specifichi di l'UI produce miglioramenti drammatici in quantu solu induce un grande mudellu di fundazione. I mudelli furmati nantu à screenshots annotati, gerarchie di elementi è tracce d'interazzione amparanu una grammatica visuale fundamentalmente diversa da quelli addestrati nantu à u testu di Internet è l'imaghjini naturali. Sviluppanu una cunniscenza di l'affordances - ciò chì pò esse tappatu, trascinatu, scrolled, o typed - chì i mudelli generalisti mancanu solu.

L'implicazioni pratiche sò significative. Un mudellu chì funziona nantu à l'unità di trasfurmazione neurale di un smartphone pò aiutà l'utilizatori in tempu reale, amparà da mudelli di interazzione lucali, è operanu in ambienti senza cunnessione Internet. Per i cuntesti di l'impresa induve i dati finanziarii sensibili, i registri HR, o l'infurmazioni di i clienti campanu in l'interfacce di u software, inferenza in u dispositivu ùn hè micca piacevule - hè una necessità di conformità.

E lezioni di l'architettura chì in realtà si trasferisce

Custruì un agentu GUI capace à piccula scala richiede decisioni architettoniche chì differenu sostanzialmente da u disignu standard di mudellu di lingua di visione. Parechje lezioni sò emerse in modu coerente in i gruppi di ricerca chì travaglianu nantu à stu prublema.

Prima, a rapprisintazioni coordinata importa enormamente. I primi agenti di GUI anu luttatu perchè ereditatu u ragiunamentu spaziale da mudelli furmati per descriverà scene invece di interagisce cun elli. Un mudellu chì dice "ci hè un buttone blu in l'area inferjuri destra di u screnu" hè inutilità per l'automatizazione. Un mudellu chì torna coordenate normalizate cù precisione sub-pixel - è face cusì in modu affidabile in diverse risoluzioni di schermu, paràmetri DPI è temi OS - hè veramente utile. U cambiamentu da a produzzione spaziale descrittiva à l'accionabile hà bisognu di ripensà cumu i capi di terra sò furmatu è valutati.

Secunna, a codificazione cuscente à a gerarchia migliora drasticamente u rendiment. L'interfaccia di l'applicazioni muderni ùn sò micca imaghjini flat - sò strutture nidificate di cuntenituri, listi, modali è elementi interattivi. I mudelli chì ponu accede à l'arburu di l'accessibilità o vede a gerarchia à fiancu à a screenshot rendita facenu significativamente megliu nantu à e funzioni di navigazione cumplesse cà quelli chì travaglianu solu da pixel. Hè per quessa chì l'agenti GUI in u dispositivu spessu sfruttanu l'API di accessibilità di a piattaforma cum'è un signalu parallelu durante a furmazione è l'inferenza.

U terzu, a descomposizione di u travagliu deve esse integrata in a struttura di output di u mudellu. Invece di generà un unicu pianu d'azzione monoliticu, l'agenti GUI efficaci pruducenu sequenze di subtask gerarchiche cù punti di cuntrollu espliciti. Questu li permette di ricuperà da l'errori à a mità di u travagliu - una capacità chì hè essenziale in i flussi di travagliu di l'affari reali induve un misclick pò innescà cambiamenti di statu imprevisu.

U Prublemu di Dati: Perchè Training Agents GUI hè Unicu Hard

I mudelli di lingua beneficianu di u corpus essenzialmente infinitu di l'Internet di testu scrittu da l'omu. I mudelli di visione ponu furmà miliardi di ritratti etichettati. L'agenti GUI ùn anu micca risorsa equivalente. L'interfacce di l'applicazioni sò efimera, proprietaria è radicalmente diversa - una schermu di paga in una piattaforma SaaS ùn sparte quasi nunda visualmente cù un dashboard CRM in un altru, ancu s'è i dui facenu funzioni analoghi.

I squadre di ricerca di più successu anu affruntatu questu attraversu a generazione di dati sintetici à scala. Strumentendu l'applicazioni cù quadri di teste automatizati, catturà tracce d'interazione, è accoppiendu cù descrizzioni di attività in lingua naturale, i circadori ponu generà milioni di esempi di UI annotati. A sfida hè di assicurà a cobertura: u software di l'affari copre tuttu, da l'ERP di l'impresa cù dati tabulari densi à l'arnesi mobile-first cù una navigazione basata in gestu, è un mudellu furmatu nantu à un duminiu pò fallu catastroficamente in un altru.

"L'agenti GUI più capaci ùn sò micca quelli furmati nantu à a maiò parte di dati - sò quelli furmati nantu à i dati più diverse. A cumplessità di l'interfaccia hè una funzione di l'ampiezza di u duminiu, micca u conte di schermu."

Questa intuizione hà spintu i squadre versu i benchmarks di generalizazione cross-applicazioni chì valutanu a prestazione di l'agenti in u software invisu prima. Un agente GUI chì puntua perfettamente in a so distribuzione di furmazione, ma falla in una nova applicazione ùn hè micca prontu per a produzzione. U standard d'oru hè u cumpletu di u travagliu zero-shot - l'abilità di navigà in una interfaccia pocu cunnisciuta utilizendu solu una struzzione di lingua naturale è una osservazione visuale di u statu di u screnu attuale.

Privacy, Latenza è Vantaggio On-Device in Cuntesti di l'Affari

U casu cummerciale per l'agenti GUI in u dispositivu va oltre a capacità pura. Trè vantaghji interconnessi rende l'inferenza lucale convincente per l'implementazione di l'impresa:

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →
  • Sovranità di dati: I screenshots di u software cummerciale ponu cuntene dati sensibili di i clienti, registri finanziarii, o infurmazione persunale di l'impiegati. L'inviu di sti imaghjini à una API di nuvola introduce l'esposizione regulatoria in frameworks cum'è GDPR, HIPAA, è SOC 2. U processu in u dispositivu mantene e dati visuali sensitivi in u perimetru di sicurità.
  • Latenza di risposta: Un agente GUI chì richiede un andata e ritorno à un endpoint di inferenza in nuvola ùn pò micca operà à a velocità di l'interazzione umana. I mudelli nantu à u dispositivu rispundenu in decine di millisecondi, chì permettenu flussi di travagliu agenti veramente fluidi chì si sentenu nativi piuttostu cà miccanichi.
  • Capacità offline: I travagliadori di campu, i fornitori di assistenza sanitaria è l'operatori di logistica travaglianu spessu in ambienti cun connettività inaffidabile. Un assistente AI chì richiede l'accessu à Internet per funziunà ùn hè micca un strumentu cummerciale affidabile - hè una responsabilità.
  • Predictibilità di i costi: I costi di inferenza in nuvola scalanu cù l'usu. Per un assistente agentu chì puderia processà centinaie di screenshots per sessione d'utilizatore, i prezzi per token diventanu economicamente pruibitivi à scala. L'amortizzazione di hardware fissa hè più prevedibile per i CFO chì modelanu i costi di l'infrastruttura AI.

Questi vantaghji guidanu una onda d'investimentu in acceleratori AI di punta in tutta a pila di hardware. U Neural Engine d'Apple, l'Hexagon di Qualcomm è i chip Tensor di Google sò tutti ottimizzati per l'operazioni matrici chì sustenenu i mudelli di lingua di visione. L'infrastruttura hardware per l'agenti GUI in u dispositivu hè maturu rapidamente, è l'ecosistema di u software seguitanu.

Cosa significa questu per e piattaforme di software di cummerciale cumplessu

L'implicazioni per e plataforme di cummerciale modulari sò sustanziali. Cunsiderate a realtà operativa di una sucietà in crescita chì utilizeghja un OS di cummerciale cumpletu chì abbraccia CRM, fatturazione, paghe, HR, gestione di flotta è analisi - 207 moduli funzionali distinti, in una piattaforma cum'è Mewayz. Per un novu impiigatu à l'imbarcu, o un manager chì raramente accede à certi moduli, a navigazione in interfacce micca familiari hè un veru drenu di produtividade. I costi di furmazione sò reali. I biglietti di supportu sò caru. L'errori di u flussu di travagliu in a paga o a fattura anu cunsequenze downstream chì si estendenu assai oltre un solu misclick.

Un agentu GUI capace nantu à u dispositivu cambia completamente stu calculu. Piuttostu cà un novu utilizatore chì impara induve truvà u flussu di travagliu di appruvazioni di permessu o cumu cunfigurà un mudellu di fattura recurrente, descrizanu a so intenzione in lingua semplice è l'agente naviga in l'interfaccia in u so nome. Questa ùn hè micca l'automatizazione di scraping screen - hè una assistenza genuina, cuscente di u cuntestu chì si adatta à u statu di l'interfaccia, gestisce i casi di punta, è dumanda una chjarificazione quandu u compitu hè ambiguu.

L'architettura modulare di Mewayz hè particularmente adatta à questu paradigma. Perchè ogni modulu hà una lingua di cuncepimentu coherente è un scopu funziunale ben definitu, un agentu GUI furmatu nantu à l'interfaccia di Mewayz pò sviluppà rapprisintazioni robuste è trasferibili di mudelli d'interazzione cumuni - cunferma di prenotazione, appruvazioni di paghe, aghjurnamenti di pipeline CRM - è applicà in modu affidabile in tutta a larghezza di a piattaforma. L'utilizatori 138,000 nantu à a piattaforma rapprisentanu cullettivamente una enorme diversità di flussi di travagliu, casi d'usu è stili d'interazzione, chì hè esattamente u tipu di signale di furmazione variatu chì pruduce agenti capaci è generalizabili.

Progettazione di u software cun prontezza di l'agente in mente

Una di e lezioni più impurtanti chì emergenu da a ricerca di l'agenti GUI hè chì u software pensatu per l'utilizatori umani è u software pensatu per l'utilizatori di l'agenti ùn sò micca listessa cosa. Interfacce ottimizzate per l'estetica visuale - gradienti, animazioni, strati sovrapposti, cumpunenti resi persunalizati - sò spessu più difficiuli per l'agenti di analizà cà quelli cuncepiti cù l'accessibilità in mente. Questa cunvergenza trà u disignu di l'accessibilità prima è u disignu prontu per l'agente hè unu di i sviluppi più interessanti in u campu.

E squadre di software di prughjetti di u futuru cumincianu à incorpore "leggibilità di l'agente" in i so sistemi di cuncepimentu. Questu significa:

  1. Assicurendu chì l'elementi interattivi anu identificatori unichi è stabili accessibili via l'arburu di l'accessibilità
  2. Mantene l'affordance visuali coerenti in tutti i stati di l'interfaccia piuttostu cà di confià nantu à i cambiamenti di u statu dipendente da l'animazione
  3. Furnisce dialoghi di cunferma strutturati per l'azzioni di cunsequenze elevate - appruvazioni, eliminazioni, sottumissioni finanziarii - chì dà à l'agenti punti di cuntrollu naturali
  4. Espone ligami profondi orientati à u travagliu chì permettenu à l'agenti di navigà direttamente à stati di l'interfaccia pertinenti senza traversu sequenziale
  5. Metadati di l'interazzione di logu chì ponu esse aduprati per generà dati di furmazione sintetici per a fine-tuning di l'agenti specifichi di u duminiu

E piattaforme chì investenu in queste proprietà architettoniche oghje custruiscenu un vantaghju competitivu significativu. Siccomu l'agenti GUI passanu da prototipi di ricerca à strumenti di pruduzzione in i prossimi dui à trè anni, u software chì hè leggibile per l'agente darà esperienze di l'agenzia drammaticamente megliu cà u software chì tratta l'assistenza AI cum'è un ripensu dopu à un paradigma di interfaccia esistente.

A Strada Davanti: Da l'Assistenti à l'Agenti di u flussu di travagliu autonomi

A trajectoria di a ricerca di l'agenti GUI in u dispositivu punta versu un futuru induve a fruntiera trà l'operazione umana è l'esekzione automatizata diventa veramente fluida. L'agenti d'oghje ponu cumplettà in modu affidabile compiti unichi, ben definiti - navigate à una schermu specifica, compie un furmulariu, estrae un valore da un dashboard. L'agenti di dumane gestioneranu flussi di travagliu multi-sessione, multi-applicazioni chì spannu ore o ghjorni di attività cummerciale.

Questu passaghju da l'assistente à l'agente autonomu richiede avanzi micca solu in a capacità di mudellu, ma in i meccanismi di fiducia, verificazione è supervisione umana. L'imprese averà bisognu di piste di audit per l'azzioni di l'agenti, garanzii di reversibilità per l'operazioni cunsequenziali, è percorsi di escalazione chjaru per situazioni ambigue. A sfida di l'ingegneria hè quantu à l'architettura di guvernanza quant'è à u rendiment di u mudellu.

Piattaforme cum'è Mewayz, chì traccianu digià l'attività di l'utilizatori à traversu l'interazzione CRM, l'appruvazioni di i salari, è e cunferma di prenotazione, sò ben posizionati per estenderà sta infrastruttura di audit per copre l'azzioni iniziate da l'agente. L'infrastruttura di dati necessaria per a conformità è per a governanza di l'agente hè largamente a stessa - è l'urganisazioni chì anu investitu in una truveranu l'altru significativamente più trattabile. U futuru di u software cummerciale ùn hè micca l'omu chì utilizanu software o AI chì rimpiazza l'omu. Hè un ciclu di cullaburazione induve l'agenti in u dispositivu trattanu u travagliu meccanicu di navigazione di l'interfaccia mentre l'omu furnisce ghjudiziu, sorveglianza è direzzione strategica. E lezioni chì sò amparate oghje in a ricerca di l'agenti GUI compatti sò custruendu i fundamenti per quellu futuru.

Domande Frequenti

Cos'è Ferret-UI Lite è cumu si differenzia da i strumenti di automatizazione GUI tradiziunali?

Ferret-UI Lite hè un mudellu AI compactu nantu à u dispositivu cuncepitu per percepisce è interagisce cù l'interfacce grafiche d'utilizatore in modu autonomu, senza dipende da a connettività nuvola. A cuntrariu di l'arnesi d'automatizazione tradiziunali chì seguitanu regule rigide è scritte, Ferret-UI Lite usa u ragiunamentu visuale per capisce dinamicamente u cuntestu di u screnu. Questu rende assai più adattabile in diverse applicazioni è layout, chì permette un veru cumpurtamentu cum'è l'agente direttamente nantu à u dispusitivu cù una latenza minima.

Perchè l'esecuzione di l'agenti GUI in u dispositivu hè impurtante per a privacy è u rendiment?

L'inferenza in u dispositivu mantene e dati sensibili di u screnu - cumprese password, documenti persunali è flussi di travagliu di l'affari - interamente lucali, eliminendu i risichi di privacy assuciati cù a trasmissione di screenshots à i servitori remoti. Elimina ancu a latenza di a rete da ogni ciculu di interazzione. Per e piattaforme cummerciale cum'è Mewayz, un sistema operativu cummerciale di 207 moduli dispunibule nantu à app.mewayz.com da $ 19 / mese, l'agenti in u dispositivu puderanu eventualmente automatizà flussi di travagliu cumplessi in più tappe senza mai espunà l'operazioni interne esternamente.

Quali sò i più grandi sfidi tecnichi in a creazione di mudelli di agenti GUI chjuchi è efficaci?

A sfida principale hè di equilibrà a dimensione di u mudellu cù a capacità perceptiva. A cunniscenza di a GUI richiede simultaneamente ragiunamentu spaziale, ricunniscenza di testu è inferenza contestuale - compiti chì generalmente necessitanu mudelli grandi. I ricercatori devenu cumpressà in modu aggressivu l'architetture senza sacrificà a precisione nantu à schermi densi è ricchi di informazioni. Ostaculi supplementari includenu a gestione di l'enorme diversità visuale di l'interfacce muderne è a furmazione nantu à i datasets rapprisentanti chì copre l'applicazioni di i cunsumatori, i dashboards di l'impresa è i suite di produtividade.

Cumu puderianu l'agenti GUI in u dispositivu cambià a manera in chì l'imprese gestionanu i flussi di travagliu di u software?

L'agenti GUI nantu à u dispositivu puderanu agisce cum'è operatori invisibili, navigendu in u software in modu autonomu per compie attività ripetitive cum'è l'ingressu di dati, a generazione di rapporti o l'aghjurnamenti multipiattaforma. Per l'imprese chì utilizanu piattaforme all-in-one cum'è Mewayz - chì offre 207 moduli integrati in app.mewayz.com per $ 19 / mo - tali agenti puderanu incatena azzione in moduli senza intervenzione umana, riducendu drasticamente i costi operativi è permettendu à e squadre di fucalizza nantu à a decisione di più valore piuttostu cà a navigazione manuale di l'interfaccia.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime