Hacker News

Ferret-UI Lite: шағын құрылғыдағы GUI агенттерін құру сабақтары

Пікірлер

1 min read Via machinelearning.apple.com

Mewayz Team

Editorial Team

Hacker News

Құрылғыдағы GUI агенттерінің өсуі: адам мен компьютердің өзара әрекеттесуіндегі жаңа шекара

Ондаған жылдар бойы бағдарламалық жасақтаманың өзара әрекеттесуінің басым парадигмасы қатты статикалық болып қалды: адам экранды оқиды, курсорды жылжытады, түймені басады және жауап күтеді. Бұл цикл — қабылдау, шешу, әрекет ету — бірінші графикалық жұмыс үстелі 1970 жылдары пайда болғаннан бері есептеулерді анықтады. Бірақ тыныш революция жүріп жатыр. Зерттеушілер мен инженерлер бұлтқа негізделген қорытындының кідіріс, шығын немесе құпиялылық мәселелерінсізтолығымен құрылғыда графикалық пайдаланушы интерфейстерін қабылдауға, ойлауға және әрекет етуге қабілетті шағын, тиімді AI үлгілерін құруда. Бұл жобалардан алынған сабақтар интеллектуалды бағдарламалық қамтамасыз ету, автоматтандыру және бизнес құралдарының болашағы туралы көзқарасымызды өзгертеді.

Шағын GUI агенттерінің дамуы — Apple компаниясының Ferret-UI және оның жеңіл аналогтары сияқты модельдер — терең нәрсені ашады: экранды түсіну үшін ауқымды тіл үлгісі қажет емес. Сізге дұрыс архитектура, дұрыс жаттығу деректері және тапсырманың нақты тиімділігіне деген аяусыз міндеттеме қажет. Бұл жүйелер жетілген сайын, олар бизнестің өздерінің бағдарламалық жасақтама стектерімен өзара әрекеттесу тәсілін өзгерте бастайды, бір кездері фантастикаға ғана тиесілі мүмкіндіктерді ашады.

Неліктен жеңіл салмақты модельдер нағыз серпіліс болып табылады

AI дискурсында мүмкіндікті масштабпен теңестіру үрдісі бар. Үлкенірек модельдер, ойша, ақылды модельдер. Бірақ GUI агенттері үшін — пиксель деңгейіндегі орналасуларды түсінуі, интерактивті элементтерді талдауы және күрделі қолданбаларда көп сатылы тапсырмаларды орындауы керек жүйелер — өңделмеген параметрлерді санаукеңістіктік дәлдік пен жерге қосу дәлдігіне қарағанда маңызды емес. Мобильді интерфейстегі дұрыс түймені сенімді түртетін 7 миллиард параметрлі модель элемент позицияларын галлюцинациялайтын 70 миллиард параметрді жалпыламадан асып түседі.

Құрылғыдағы кішігірім GUI үлгілерін зерттеу UI-арнайы деректердегі мақсатты дәлдіктің үлкен іргетас үлгісін ұсынудан гөрі айтарлықтай жақсартуларға әкелетінін дәйекті түрде көрсетті. Аннотацияланған скриншоттарда, элементтер иерархияларында және өзара әрекеттесу іздерінде үйретілген модельдер интернет мәтінінде және табиғи кескіндерде үйренгеннен түбегейлі басқа көрнекі грамматиканы үйренеді. Олар нені түртуге, сырғытуға, айналдыруға немесе теруге болатын — жалпы үлгілерде жетіспейтін мүмкіндіктер туралы түсінігін дамытады.

Практикалық салдары маңызды. Смартфонның нейрондық өңдеу блогында жұмыс істейтін модель нақты уақытта пайдаланушыларға көмектесе алады, жергілікті өзара әрекеттесу үлгілерінен үйренеді және интернет қосылымы жоқ орталарда жұмыс істей алады. Құпия қаржылық деректер, HR жазбалары немесе клиент ақпараты бағдарламалық жасақтама интерфейстерінің ішінде өмір сүретін кәсіпорын контексттері үшін құрылғыдағы қорытынды жасау қолайлы емес — бұл сәйкестік қажеттілігі.

Шын мәнінде тасымалданатын сәулет сабақтары

Кішігірім ауқымда қабілетті GUI агентін құру стандартты көру тілі үлгісінің дизайнынан айтарлықтай ерекшеленетін архитектуралық шешімдерді қажет етеді. Осы мәселемен жұмыс істейтін зерттеу топтарында бірнеше сабақ жүйелі түрде пайда болды.

Біріншіден, көрсетілімді үйлестіру өте маңызды. Алғашқы GUI агенттері олармен әрекеттеспей, көріністерді сипаттауға үйретілген модельдерден кеңістіктік пайымдауды мұра еткендіктен күресті. «Экранның төменгі оң жақ бөлігінде көк түйме бар» деп жазылған модель автоматтандыру үшін пайдасыз. Нормаланған координаттарды суб-пиксельдік дәлдікпен қайтаратын модель және мұны әртүрлі экран ажыратымдылықтарында, DPI параметрлерінде және ОЖ тақырыптарында сенімді түрде жасайды — шынымен пайдалы. Сипаттамалықтан әрекет ететін кеңістіктік нәтижеге ауысу жерге қосу бастиектерін үйрету және бағалау әдісін қайта қарастыруды талап етті.

Екіншіден, иерархияны ескеретін кодтау өнімділікті күрт жақсартады. Қазіргі қолданба интерфейстері тегіс кескіндер емес — олар контейнерлердің, тізімдердің, модальдардың және интерактивті элементтердің кірістірілген құрылымдары. Арнайы мүмкіндіктер тармағына қол жеткізе алатын немесе көрсетілген скриншотпен қатар иерархияны көре алатын үлгілер тек пикселдермен жұмыс істейтіндерге қарағанда күрделі шарлау тапсырмаларын айтарлықтай жақсырақ орындайды. Сондықтан құрылғыдағы GUI агенттері жаттығу кезінде де, қорытынды жасау кезінде де параллель сигнал ретінде платформаның қолжетімділік API интерфейстерін жиі пайдаланады.

Үшіншіден, тапсырманың декомпозициясы үлгінің шығыс құрылымына салынуы керек. Бір монолитті әрекет жоспарын жасаудың орнына, тиімді GUI агенттері айқын бақылау нүктелері бар иерархиялық ішкі тапсырмалар тізбегін жасайды. Бұл оларға тапсырманың ортасындағы қателерден қалпына келтіруге мүмкіндік береді — қате басу күтпеген күй өзгерістерін тудыруы мүмкін нақты іскери жұмыс процестерінде маңызды мүмкіндік.

Дерек мәселесі: GUI агенттерін оқыту неге ерекше қиын

Тіл үлгілері интернеттегі адам жазған мәтіннің шексіз қорынан пайда көреді. Көру үлгілері миллиардтаған таңбаланған фотосуреттерді жаттықтыра алады. GUI агенттерінде баламалы ресурс жоқ. Қолданба интерфейстері эфемерлік, меншікті және түбегейлі алуан түрлі — бір SaaS платформасындағы жалақы экраны екіншісінің CRM бақылау тақтасымен, тіпті екеуі де ұқсас функцияларды орындаса да, көрнекі түрде дерлік бөліспейді.

Ең табысты зерттеу топтары бұл мәселені синтетикалық деректерді масштабта жасау арқылы шешті. Автоматтандырылған сынақ құрылымдары бар қолданбаларды құралдау, өзара әрекеттесу іздерін түсіру және оларды табиғи тілдегі тапсырма сипаттамаларымен жұптау арқылы зерттеушілер миллиондаған аннотацияланған UI мысалдарын жасай алады. Мәселе қамтуды қамтамасыз ету болып табылады: бизнес бағдарламалық жасақтамасы тығыз кестелік деректері бар кәсіпорынның ERP жүйесінен бастап қимылға негізделген навигациясы бар мобильді құрылғыларға дейін барлығын қамтиды және бір доменде оқытылған модель басқа доменде апатты түрде істен шығуы мүмкін.

"Ең қабілетті GUI агенттері ең көп деректерге үйретілгендер емес — олар ең әртүрлі деректерге үйретілгендер. Интерфейс күрделілігі экран санының емес, домен кеңдігінің функциясы болып табылады."

Бұл түсінік командаларды бұрын көрмеген бағдарламалық құрал бойынша агент өнімділігін бағалайтын қолданбалар арасындағы жалпылау эталондарына итермеледі. Жаттығуды таратуда жақсы ұпай жинайтын, бірақ жаңа қолданбада сәтсіз болатын GUI агенті өндіріске дайын емес. Алтын стандарт - бұл тапсырманы нөлсіз орындау — тек табиғи тіл нұсқаулығын және экранның ағымдағы күйін визуалды бақылау арқылы бейтаныс интерфейсте шарлау мүмкіндігі.

Құпиялылық, кідіріс және бизнес контекстіндегі құрылғыдағы артықшылық

Құрылғыдағы GUI агенттеріне арналған іскерлік жағдай таза мүмкіндіктен асып түседі. Бір-бірімен байланысты үш артықшылық жергілікті қорытындыны кәсіпорынды орналастыру үшін тартымды етеді:

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →
  • Деректердің егемендігі: Бизнес бағдарламалық құралының скриншоттарында құпия тұтынушы деректері, қаржылық жазбалар немесе жеке қызметкер туралы ақпарат болуы мүмкін. Бұл кескіндерді бұлттық API интерфейсіне жіберу GDPR, HIPAA және SOC 2 сияқты құрылымдарға сәйкес реттеуші экспозицияны ұсынады. Құрылғыда өңдеу құпия визуалды деректерді қауіпсіздік периметрі ішінде сақтайды.
  • Жауап берудің кешігуі: Бұлттық қорытындының соңғы нүктесіне айналуды қажет ететін GUI агенті адамның өзара әрекеттесу жылдамдығында жұмыс істей алмайды. Құрылғыдағы модельдер ондаған миллисекундтарда жауап береді, бұл механикалық емес, жергілікті сезінетін шынайы сұйық агенттік жұмыс ағындарына мүмкіндік береді.
  • Офлайн мүмкіндігі: Далалық жұмысшылар, денсаулық сақтау провайдерлері және логистикалық операторлар жиі сенімсіз қосылымы бар орталарда жұмыс істейді. Жұмыс істеуі үшін интернетке кіруді талап ететін AI көмекшісі сенімді бизнес құралы емес — бұл жауапкершілік.
  • Шығынды болжау: Бұлтты қорытынды шығындарды пайдалану бойынша масштабтау. Бір пайдаланушы сеансына жүздеген скриншоттарды өңдеуі мүмкін агенттік көмекші үшін таңбалауыштың бағасы масштабта экономикалық тұрғыдан тиімсіз болады. Тұрақты жабдық амортизациясы AI инфрақұрылымының шығындарын модельдейтін қаржылық директорлар үшін болжауға болады.

Бұл артықшылықтар аппараттық құралдар стекіндегі AI үдеткіштеріне инвестиция толқынын тудырады. Apple компаниясының нейрондық қозғалтқышы, Qualcomm компаниясының Hexagon және Google компаниясының Tensor чиптері көру тілінің модельдерін негіздейтін матрицалық операциялар үшін оңтайландырылған. Құрылғыдағы GUI агенттеріне арналған аппараттық инфрақұрылым тез жетіліп, бағдарламалық жасақтаманың экожүйелері орындалуда.

Бұл күрделі бизнес бағдарламалық платформалары үшін нені білдіреді

Модульдік бизнес-платформалардың салдары айтарлықтай. Mewayz сияқты платформада CRM, шот-фактура, жалақы, HR, флотты басқару және аналитика — 207 ерекше функционалды модульді қамтитын жан-жақты іскерлік ОЖ қолданатын өсіп келе жатқан компанияның операциялық шындығын қарастырыңыз. Жұмысқа кіріскен жаңа қызметкер немесе белгілі бір модульдерге сирек кіретін менеджер үшін бейтаныс интерфейстерді шарлау өнімділікті жоғалту болып табылады. Оқыту шығындары нақты. Қолдау билеттері қымбат. Жалақы немесе шот-фактурадағы жұмыс үрдісіндегі қателер бір рет қате басудан әлдеқайда жоғары болатын төменгі ағындық салдарға әкеледі.

Құрылғыдағы қабілетті GUI агенті бұл есептеуді толығымен өзгертеді. Жұмыстан шығуды мақұлдау жұмыс процесін қайдан табуға болатынын немесе қайталанатын шот-фактура үлгісін конфигурациялауды үйренетін жаңа пайдаланушының орнына олар өздерінің ниеттерін қарапайым тілде сипаттайды және агент олардың атынан интерфейсті шарлайды. Бұл экранды сызып тастауды автоматтандыру емес — интерфейс күйіне бейімделетін, шеткі жағдайларды өңдейтін және тапсырма түсініксіз болған кезде түсіндіруді сұрайтын шынайы, мәтінмәнді ескеретін көмек.

Мевейздің модульдік архитектурасы осы парадигмаға әсіресе жақсы сәйкес келеді. Әрбір модульде дәйекті дизайн тілі мен нақты анықталған функционалдық ауқымы болғандықтан, Mewayz интерфейсінде оқытылған GUI агенті ортақ әрекеттесу үлгілерінің сенімді, тасымалданатын көріністерін — брондауды растау, жалақыны растау, CRM құбырының жаңартуларын әзірлей алады және оларды платформаның толық ауқымында сенімді түрде қолдана алады. Платформадағы 138 000 пайдаланушы ұжымдық түрде жұмыс процестерінің, пайдалану жағдайларының және өзара әрекеттесу мәнерлерінің үлкен алуандығын білдіреді, бұл қабілетті, жалпыланатын агенттерді шығаратын әртүрлі оқыту сигналының дәл осындай түрі.

Агент дайындығын ескере отырып бағдарламалық құралды жобалау

GUI агентін зерттеудің ең маңызды сабақтарының бірі мынада: адам пайдаланушыларына арналған бағдарламалық құрал мен агент пайдаланушыларына арналған бағдарламалық құрал бір нәрсе емес. Көрнекі эстетика үшін оңтайландырылған интерфейстер — градиенттер, анимациялар, қабаттасатын қабаттар, реттелетін көрсетілген құрамдас бөліктер — қол жетімділікті ескере отырып жасалғандарға қарағанда агенттерге талдау қиынырақ. Бұл бірінші қол жетімді дизайн мен агентке дайын дизайн арасындағы конвергенция осы саладағы ең қызықты әзірлемелердің бірі болып табылады.

Болашақты ойлайтын бағдарламалық жасақтама командалары дизайн жүйелеріне «агенттің түсініктілігін» қоса бастады. Бұл мынаны білдіреді:

  1. Интерактивті элементтердің арнайы мүмкіндіктер ағашы арқылы қол жетімді бірегей, тұрақты идентификаторлары болуын қамтамасыз ету
  2. Анимацияға тәуелді күй өзгерістеріне сенбей, интерфейс күйлері бойынша дәйекті көрнекі мүмкіндіктерді сақтау
  3. Агенттерге табиғи бақылау нүктелерін беретін жоғары нәтижелі әрекеттер – мақұлдаулар, жоюлар, қаржылық ұсынулар үшін құрылымдық растау диалогтарын қамтамасыз ету
  4. Агенттерге жүйелі өтусіз сәйкес интерфейс күйлеріне тікелей өтуге мүмкіндік беретін тапсырмаға бағытталған терең сілтемелерді ашу
  5. Доменге тән агентті дәл баптау үшін синтетикалық оқу деректерін жасау үшін пайдалануға болатын өзара әрекеттесу метадеректерін тіркеу

Осы архитектуралық қасиеттерге инвестиция салатын платформалар бүгінде айтарлықтай бәсекелестік артықшылықтар құруда. GUI агенттері келесі екі-үш жыл ішінде зерттеу прототиптерінен өндіріс құралдарына көшкен сайын, агент арқылы оқылатын бағдарламалық жасақтама AI көмегін бар интерфейс парадигмасына бекітілген кейінірек ойластырылған бағдарлама ретінде қарастыратын бағдарламалық құралға қарағанда айтарлықтай жақсырақ агенттік тәжірибе береді.

Алдағы жол: көмекшілерден автономды жұмыс үрдісі агенттеріне дейін

Құрылғыдағы GUI агентін зерттеу траекториясы адамның жұмысы мен автоматтандырылған орындау арасындағы шекара шын мәнінде сұйық болатын болашаққа нұсқайды. Бүгінгі агенттер жалғыз, жақсы анықталған тапсырмаларды сенімді түрде орындай алады — белгілі бір экранға өту, пішінді толтыру, бақылау тақтасынан мән шығару. Ертеңгі агенттер іскерлік белсенділіктің сағаттары мен күндерін қамтитын көп сеанстық, көп қолданбалы жұмыс процестерін басқарады.

Көмекшіден автономды агентке ауысу тек үлгі мүмкіндіктерін ғана емес, сонымен қатарсенім, тексеру және адам бақылау механизмдеріндегі жетістіктерді қажет етеді. Кәсіпорындарға агент әрекеттері үшін аудит жолдары, кейінгі операциялар үшін қайтарымдылық кепілдіктері және түсініксіз жағдайлар үшін нақты өсу жолдары қажет болады. Инженерлік тапсырма үлгі өнімділігі сияқты басқару архитектурасына да қатысты.

CRM өзара әрекеттесуі, жалақыны мақұлдау және брондау растаулары бойынша пайдаланушы әрекетін бақылайтын Mewayz сияқты платформалар агент бастаған әрекеттерді қамту үшін осы аудит инфрақұрылымын кеңейтуге жақсы жағдай жасайды. Сәйкестікке және агентті басқаруға қажетті деректер инфрақұрылымы негізінен бірдей - және біреуіне инвестиция салған ұйымдар екіншісін әлдеқайда ыңғайлы деп табады. Бизнес бағдарламалық жасақтаманың болашағы бағдарламалық жасақтаманы пайдаланатын адамдар немесе адамдарды алмастыратын AI емес. Бұл құрылғыдағы агенттер интерфейсті шарлаудың механикалық жұмысын басқаратын бірлескен цикл, ал адамдар пайымдау, бақылау және стратегиялық бағытты қамтамасыз етеді. GUI агентінің ықшам зерттеулерінде бүгін алынған сабақтар сол болашақтың негізін салуда.

Жиі қойылатын сұрақтар

Ferret-UI Lite дегеніміз не және ол графикалық интерфейсті автоматтандырудың дәстүрлі құралдарынан қалай ерекшеленеді?

Ferret-UI Lite – бұлт қосылымына сенбей, графикалық пайдаланушы интерфейстерін автономды түрде қабылдауға және өзара әрекеттесуге арналған ықшам, құрылғыдағы AI моделі. Қатаң, сценарийлік ережелерді ұстанатын дәстүрлі автоматтандыру құралдарынан айырмашылығы, Ferret-UI Lite экран контекстін динамикалық түрде түсіну үшін визуалды негіздеуді пайдаланады. Бұл оны әр түрлі қолданбалар мен орналасуларға әлдеқайда бейімделгіш етеді, ең аз кідіріспен құрылғыда шынайы агент тәрізді әрекетке мүмкіндік береді.

Неліктен құрылғыда GUI агенттерін іске қосу құпиялылық пен өнімділік үшін маңызды?

Құрылғыдағы қорытынды скриншоттарды қашықтағы серверлерге жіберуге байланысты құпиялылық қауіптерін жоя отырып, құпия экран деректерін, соның ішінде құпия сөздерді, жеке құжаттарды және бизнес жұмыс процестерін — толығымен жергілікті сақтайды. Ол сондай-ақ әрбір өзара әрекеттесу циклінен желі кідірісін жояды. Mewayz сияқты бизнес платформалары үшін app.mewayz.com сайтында айына $19 бағасымен қолжетімді 207 модульдік іскери операциялық жүйе үшін құрылғыдағы агенттер ішкі операцияларды сыртқа шығармай-ақ күрделі көп сатылы жұмыс процестерін автоматтандырады.

Шағын, тиімді GUI агент үлгілерін құрудағы ең үлкен техникалық қиындықтар қандай?

Негізгі міндет - модель өлшемін қабылдау қабілетімен теңестіру. GUI түсіну бір уақытта кеңістіктік пайымдауды, мәтінді тануды және контекстік қорытындыны талап етеді — әдетте үлкен үлгілерді қажет ететін тапсырмалар. Зерттеушілер тығыз, ақпаратқа бай экрандардағы дәлдікті жоғалтпай, архитектураны агрессивті түрде сығуы керек. Қосымша кедергілерге заманауи интерфейстердің орасан зор визуалды әртүрлілігін өңдеу және тұтынушы қолданбаларын, кәсіпорынның бақылау тақталарын және өнімділік жинақтарын қамтитын өкілдік деректер жиынын үйрету кіреді.

Құрылғыдағы GUI агенттері бизнестің бағдарламалық жасақтаманың жұмыс үрдісін басқару тәсілін қалай өзгерте алады?

Құрылғыдағы GUI агенттері деректерді енгізу, есептерді жасау немесе платформалар аралық жаңартулар сияқты қайталанатын тапсырмаларды орындау үшін бағдарламалық құралды өздігінен шарлай отырып, көрінбейтін операторлар ретінде әрекет ете алады. App.mewayz.com сайтында айына $19 төлейтін 207 біріктірілген модульді ұсынатын Mewayz сияқты барлығы бір платформаларды пайдаланатын компаниялар үшін мұндай агенттер адамның араласуынсыз модульдер бойынша әрекеттерді тізбектей алады, операциялық шығындарды күрт азайтады және командаларға интерфейсті қолмен шарлау емес, жоғары құнды шешім қабылдауға назар аударуға мүмкіндік береді.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime