Hacker News

Ferret-UI Lite: درس هایی از ساخت عوامل رابط کاربری گرافیکی کوچک روی دستگاه

نظرات

1 min read Via machinelearning.apple.com

Mewayz Team

Editorial Team

Hacker News

ظهور عوامل رابط کاربری گرافیکی روی دستگاه: مرزی جدید در تعامل انسان و رایانه

برای دهه‌ها، الگوی غالب تعامل نرم‌افزاری سرسختانه ثابت مانده است: انسان صفحه‌ای را می‌خواند، مکان‌نما را حرکت می‌دهد، دکمه‌ای را کلیک می‌کند و منتظر پاسخ می‌ماند. این حلقه - درک، تصمیم گیری، عمل - محاسبات را از زمان ظهور اولین دسکتاپ گرافیکی در دهه 1970 تعریف کرده است. But a quiet revolution is underway. محققان و مهندسان در حال ساخت مدل‌های هوش مصنوعی کوچک و کارآمد هستند که قادر به درک، استدلال و عمل در رابط‌های گرافیکی کاربر کاملاً روی دستگاه هستند، بدون نگرانی‌های مربوط به تأخیر، هزینه یا حفظ حریم خصوصی ناشی از استنتاج مبتنی بر ابر. درس‌هایی که از این پروژه‌ها به دست می‌آیند، نحوه تفکر ما در مورد نرم‌افزار هوشمند، اتوماسیون و آینده ابزارهای تجاری را تغییر می‌دهند.

توسعه عوامل رابط کاربری گرافیکی فشرده - مدل‌هایی مانند Ferret-UI اپل و نمونه‌های سبک‌تر آن - چیزی عمیق را آشکار می‌کند: برای درک صفحه‌نمایش به یک مدل زبانی عظیم نیاز ندارید. شما به معماری مناسب، داده‌های آموزشی مناسب و تعهدی بی‌رحمانه به کارایی خاص نیاز دارید. همانطور که این سیستم‌ها بالغ می‌شوند، شروع به تغییر نحوه تعامل کسب‌وکارها با پشته‌های نرم‌افزار خود کرده‌اند و فرصت‌هایی را که زمانی فقط به داستان‌های علمی تخیلی تعلق داشتند، باز می‌کنند.

چرا مدل های سبک پیشرفت واقعی هستند

در گفتمان هوش مصنوعی تمایلی وجود دارد که توانایی را با مقیاس یکسان بدانند. مدل‌های بزرگ‌تر، مدل‌های باهوش‌تر هستند. اما برای عامل‌های رابط کاربری گرافیکی - سیستم‌هایی که باید طرح‌بندی‌های سطح پیکسل را درک کنند، عناصر تعاملی را تجزیه و تحلیل کنند و وظایف چند مرحله‌ای را در برنامه‌های پیچیده اجرا کنند - تعداد پارامترهای خام اهمیت کمتری نسبت به دقت مکانی و دقت زمین دارد. یک مدل 7 میلیارد پارامتری که می تواند به طور قابل اعتمادی روی دکمه صحیح در یک رابط تلفن همراه ضربه بزند، بهتر از ژنرال 70 میلیارد پارامتری است که موقعیت عناصر را توهم می کند.

تحقیق در مدل‌های کوچک رابط کاربری گرافیکی روی دستگاه، به طور مداوم نشان داده است که تنظیم دقیق داده‌های ویژه رابط کاربری، نسبت به ایجاد یک مدل پایه بزرگ، پیشرفت‌های چشمگیری را به همراه دارد. مدل هایی که بر روی اسکرین شات های حاشیه نویسی شده، سلسله مراتب عناصر و ردپای تعامل آموزش دیده اند، گرامر بصری اساسا متفاوتی را نسبت به مدل هایی که در متن اینترنتی و تصاویر طبیعی آموزش داده شده اند، می آموزند. آنها درک درستی از مقرون به صرفه ایجاد می کنند - چه چیزی را می توان ضربه زد، تند کشیدند، پیمایش کرد یا تایپ کرد - که مدل های عمومی به سادگی فاقد آن هستند.

The practical implications are significant. مدلی که روی واحد پردازش عصبی گوشی هوشمند اجرا می‌شود می‌تواند به کاربران در زمان واقعی کمک کند، از الگوهای تعامل محلی بیاموزد و در محیط‌هایی بدون اتصال به اینترنت کار کند. برای زمینه‌های سازمانی که در آن داده‌های مالی حساس، سوابق منابع انسانی، یا اطلاعات مشتری در رابط‌های نرم‌افزاری وجود دارد، استنتاج بر روی دستگاه چندان خوب نیست - این یک ضرورت انطباق است.

درس های معماری که در واقع انتقال می دهند

ساخت یک عامل رابط کاربری گرافیکی توانا در مقیاس کوچک نیازمند تصمیمات معماری است که به طور عمده با طراحی مدل استاندارد زبان بینایی متفاوت است. چندین درس به طور مداوم در بین تیم های تحقیقاتی که روی این مشکل کار می کنند ظاهر شده است.

ابتدا، نمایندگی بسیار مهم است. عوامل اولیه رابط کاربری گرافیکی به دلیل اینکه استدلال فضایی را از مدل هایی که برای توصیف صحنه ها آموزش دیده اند به جای تعامل با آنها به ارث برده اند، مشکل داشتند. مدلی که می گوید "یک دکمه آبی در قسمت پایین سمت راست صفحه نمایش وجود دارد" برای اتوماسیون بی فایده است. مدلی که مختصات عادی را با دقت زیر پیکسل برمی گرداند - و این کار را به طور قابل اعتماد در وضوح های مختلف صفحه نمایش، تنظیمات DPI و تم های سیستم عامل انجام می دهد - واقعاً مفید است. تغییر از خروجی فضایی توصیفی به خروجی عملی مستلزم بازنگری در نحوه آموزش و ارزیابی هدهای زمینی است.

دوم، رمزگذاری با آگاهی از سلسله مراتب عملکرد را به طور چشمگیری بهبود می بخشد. رابط های کاربردی مدرن تصاویر مسطح نیستند - آنها ساختارهای تودرتو از کانتینرها، لیست ها، مدال ها و عناصر تعاملی هستند. مدل‌هایی که می‌توانند به درخت دسترس‌پذیری دسترسی داشته باشند یا سلسله‌مراتب را در کنار اسکرین‌شات رندر شده مشاهده کنند، نسبت به مدل‌هایی که به تنهایی از پیکسل‌ها کار می‌کنند، به‌طور قابل‌توجهی در کارهای پیچیده ناوبری بهتر عمل می‌کنند. به همین دلیل است که عوامل رابط کاربری گرافیکی روی دستگاه اغلب از APIهای دسترسی پلت فرم به عنوان یک سیگنال موازی در طول آموزش و استنتاج استفاده می کنند.

سوم، تجزیه وظیفه باید در ساختار خروجی مدل تعبیه شود. به جای ایجاد یک برنامه عملیاتی یکپارچه، عوامل رابط کاربری گرافیکی مؤثر، توالی‌های زیرکار سلسله مراتبی را با نقاط بازرسی صریح تولید می‌کنند. این به آن‌ها اجازه می‌دهد تا از خطاهای اواسط کار بازیابی کنند - قابلیتی که در گردش‌های کاری واقعی کسب‌وکار ضروری است، جایی که یک کلیک اشتباه می‌تواند باعث تغییرات ناخواسته حالت شود.

مشکل داده: چرا آموزش عوامل رابط کاربری گرافیکی منحصر به فرد سخت است

مدل‌های زبان از مجموعه متن‌های نوشته شده توسط انسان اساساً بی‌نهایت اینترنت بهره می‌برند. مدل‌های ویژن می‌توانند روی میلیاردها عکس برچسب‌گذاری شده آموزش ببینند. GUI agents have no equivalent resource. رابط های برنامه گذرا، اختصاصی، و کاملاً متنوع هستند - یک صفحه حقوق و دستمزد در یک پلت فرم SaaS تقریباً هیچ چیز را از نظر بصری با داشبورد CRM در پلتفرم دیگر به اشتراک نمی گذارد، حتی اگر هر دو عملکردهای مشابهی را انجام دهند.

موفق ترین تیم های تحقیقاتی از طریق تولید داده های مصنوعی در مقیاس با این موضوع مقابله کرده اند. با ابزارسازی برنامه‌ها با چارچوب‌های تست خودکار، ثبت ردپای تعامل، و جفت کردن آن‌ها با توصیف وظایف زبان طبیعی، محققان می‌توانند میلیون‌ها مثال UI حاشیه‌نویسی تولید کنند. چالش تضمین پوشش است: نرم‌افزار کسب‌وکار همه چیز را از ERP‌های سازمانی با داده‌های جدولی متراکم گرفته تا ابزارهای اول تلفن همراه با ناوبری مبتنی بر اشاره را در بر می‌گیرد و یک مدل آموزش‌دیده در یک دامنه ممکن است در دامنه‌ای دیگر به طرز فاجعه‌باری شکست بخورد.

"قادرترین عامل‌های رابط کاربری گرافیکی، آنهایی نیستند که بر روی بیشترین داده‌ها آموزش دیده‌اند. آنها بر روی داده‌های متنوع آموزش دیده‌اند. پیچیدگی رابط تابعی از وسعت دامنه است، نه تعداد صفحه."

این بینش تیم‌ها را به سمت معیارهای تعمیم بین برنامه‌ای سوق داده است که عملکرد عامل را در نرم‌افزاری که قبلاً دیده نشده بود ارزیابی می‌کند. یک عامل رابط کاربری گرافیکی که در توزیع آموزشی خود امتیاز کامل می گیرد اما در یک برنامه جدید شکست می خورد، آماده تولید نیست. استاندارد طلایی تکمیل تکلیف صفر شات است — توانایی پیمایش در یک رابط ناآشنا تنها با استفاده از یک دستورالعمل زبان طبیعی و مشاهده بصری وضعیت فعلی صفحه.

حریم خصوصی، تأخیر، و مزیت روی دستگاه در زمینه های تجاری

موضوع تجاری برای عوامل رابط کاربری گرافیکی روی دستگاه فراتر از قابلیت خالص است. سه مزیت به هم پیوسته استنتاج محلی را برای استقرار سازمانی قانع کننده می کند:

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →
  • حاکمیت داده: تصاویر صفحه نرم افزار تجاری ممکن است حاوی داده های حساس مشتری، سوابق مالی یا اطلاعات شخصی کارکنان باشد. ارسال این تصاویر به یک API ابری، قرار گرفتن در معرض نظارتی را تحت چارچوب‌هایی مانند GDPR، HIPAA، و SOC 2 معرفی می‌کند. پردازش روی دستگاه، داده‌های بصری حساس را در محدوده امنیتی نگه می‌دارد.
  • تأخیر پاسخ: یک عامل رابط کاربری گرافیکی که نیاز به یک رفت و برگشت به نقطه پایانی استنتاج ابری دارد، نمی تواند با سرعت تعامل انسانی کار کند. مدل‌های روی دستگاه در ده‌ها میلی‌ثانیه پاسخ می‌دهند و جریان‌های کاری عاملی واقعاً روان را امکان‌پذیر می‌کنند که به جای مکانیکی، بومی هستند.
  • قابلیت آفلاین: کارگران میدانی، ارائه‌دهندگان مراقبت‌های بهداشتی و اپراتورهای تدارکات اغلب در محیط‌هایی با اتصال غیرقابل اعتماد کار می‌کنند. An AI assistant that requires internet access to function is not a reliable business tool — it is a liability.
  • قابلیت پیش‌بینی هزینه: هزینه‌های استنتاج ابری با استفاده مقیاس می‌شود. برای یک دستیار نمایندگی که ممکن است صدها اسکرین شات را در هر جلسه کاربر پردازش کند، قیمت گذاری هر توکن در مقیاس از نظر اقتصادی غیرممکن می شود. استهلاک سخت‌افزار ثابت برای مدیران ارشد مالی که هزینه‌های زیرساخت هوش مصنوعی را مدل‌سازی می‌کنند قابل پیش‌بینی‌تر است.

این مزایا موجی از سرمایه‌گذاری را در شتاب‌دهنده‌های هوش مصنوعی لبه‌ای در پشته سخت‌افزاری ایجاد می‌کند. تراشه‌های موتور عصبی اپل، شش‌ضلعی کوالکام و تراشه‌های Tensor گوگل همگی برای عملیات ماتریسی که زیربنای مدل‌های زبان بینایی هستند بهینه شده‌اند. زیرساخت سخت‌افزاری برای عوامل رابط کاربری گرافیکی روی دستگاه به سرعت در حال رشد است و اکوسیستم‌های نرم‌افزاری از آن پیروی می‌کنند.

این برای پلتفرم‌های نرم‌افزار کسب‌وکار پیچیده به چه معناست

پیامدها برای پلتفرم‌های کسب‌وکار مدولار قابل توجه است. واقعیت عملیاتی یک شرکت در حال رشد را در نظر بگیرید که از یک سیستم‌عامل تجاری جامع استفاده می‌کند که شامل CRM، صورت‌حساب، حقوق و دستمزد، منابع انسانی، مدیریت ناوگان و تجزیه و تحلیل می‌شود — ۲۰۷ ماژول عملکردی مجزا، در پلتفرمی مانند Mewayz. برای یک کارمند جدید که در حال نصب است، یا مدیری که به ندرت به ماژول‌های خاصی دسترسی دارد، پیمایش در رابط‌های ناآشنا یک کاهش بهره‌وری واقعی است. Training costs are real. Support tickets are expensive. خطاهای گردش کار در لیست حقوق و دستمزد یا صورتحساب عواقب پایین دستی دارد که بسیار فراتر از یک کلیک اشتباه است.

یک عامل رابط گرافیکی روی دستگاه قادر به تغییر کامل این حساب است. به جای اینکه یک کاربر جدید یاد بگیرد که کجا گردش کار تأیید مرخصی را پیدا کند یا چگونه یک الگوی صورت‌حساب تکراری را پیکربندی کند، هدف خود را به زبان ساده توصیف می‌کند و نماینده از طرف او رابط را هدایت می‌کند. این اتوماسیون خراش صفحه نیست - کمکی واقعی و آگاه به زمینه است که با وضعیت رابط سازگار می شود، موارد لبه را مدیریت می کند و وقتی کار مبهم است، توضیح می خواهد.

معماری مدولار Mewayz به ویژه با این پارادایم مناسب است. از آنجایی که هر ماژول دارای یک زبان طراحی ثابت و یک حوزه عملکردی کاملاً تعریف شده است، یک عامل رابط کاربری گرافیکی که در رابط Mewayz آموزش دیده است می‌تواند نمایش‌های قوی و قابل انتقالی از الگوهای تعامل رایج - تأیید رزرو، تأیید حقوق و دستمزد، به‌روزرسانی‌های خط لوله CRM - ایجاد کند و آنها را به‌طور قابل اعتماد در سراسر وسعت کامل پلتفرم اعمال کند. 138000 کاربر روی پلتفرم مجموعاً تنوع عظیمی از گردش کار، موارد استفاده و سبک‌های تعامل را نشان می‌دهند، که دقیقاً نوعی سیگنال آموزشی متنوع است که عوامل قابل تعمیم‌پذیری را تولید می‌کند.

طراحی نرم افزار با در نظر گرفتن آمادگی عامل

یکی از مهم‌ترین درس‌هایی که از تحقیقات عامل رابط کاربری گرافیکی به دست می‌آید این است که نرم‌افزار طراحی‌شده برای کاربران انسانی و نرم‌افزار طراحی‌شده برای کاربران عامل یکسان نیستند. تجزیه و تحلیل رابط‌های بهینه‌سازی شده برای زیبایی‌شناسی بصری - گرادیان‌ها، انیمیشن‌ها، لایه‌های همپوشانی، مؤلفه‌های رندر شده سفارشی- اغلب برای عوامل سخت‌تر از آنهایی است که با در نظر گرفتن قابلیت دسترسی طراحی شده‌اند. این همگرایی بین طراحی اولیه دسترسی و طراحی آماده عامل یکی از جالب‌ترین پیشرفت‌ها در این زمینه است.

تیم‌های نرم‌افزار آینده‌نگر شروع به ترکیب «خوانایی عامل» در سیستم‌های طراحی خود کرده‌اند. این به این معنی است:

  1. اطمینان از اینکه عناصر تعاملی دارای شناسه‌های منحصربه‌فرد و پایدار قابل دسترسی از طریق درخت دسترسی هستند
  2. به جای تکیه بر تغییرات حالت وابسته به انیمیشن، به جای اتکا به تغییرات حالت وابسته به انیمیشن، توانایی‌های بصری ثابت را در سراسر حالت‌های رابط حفظ کنید.
  3. ارائه گفتگوهای تایید ساختاریافته برای اقدامات پر پیامد - تایید، حذف، ارسال‌های مالی - که به ماموران پست‌های بازرسی طبیعی می‌دهد
  4. نمایش لینک‌های عمیق وظیفه‌محور که به عوامل اجازه می‌دهد مستقیماً به حالت‌های رابط مرتبط بدون پیمایش متوالی پیمایش کنند
  5. ثبت متاداده تعاملی که می تواند برای تولید داده های آموزشی مصنوعی برای تنظیم دقیق عامل خاص دامنه استفاده شود

پلتفرم هایی که امروزه روی این املاک معماری سرمایه گذاری می کنند، مزیت رقابتی قابل توجهی ایجاد می کنند. از آنجایی که عوامل رابط کاربری گرافیکی از نمونه‌های اولیه تحقیقاتی به ابزارهای تولیدی طی دو تا سه سال آینده حرکت می‌کنند، نرم‌افزاری که از نظر عامل خوانا باشد، تجربیات عاملی به‌طور چشمگیری بهتری نسبت به نرم‌افزاری ارائه می‌کند که کمک هوش مصنوعی را به‌عنوان یک فکر بعدی در یک پارادایم رابط موجود در نظر می‌گیرد.

راه پیش رو: از دستیاران تا عوامل گردش کار مستقل

مسیر تحقیقات عامل رابط کاربری گرافیکی روی دستگاه به آینده ای اشاره می کند که مرز بین عملیات انسانی و اجرای خودکار واقعاً سیال می شود. نمایندگان امروزی می‌توانند به‌طور قابل‌اطمینانی وظایف تکی و کاملاً تعریف‌شده را انجام دهند - به یک صفحه خاص پیمایش کنند، یک فرم را پر کنند، یک مقدار را از داشبورد استخراج کنند. نمایندگان فردا گردش‌های کاری چند جلسه‌ای و چند برنامه‌ای را مدیریت خواهند کرد که ساعت‌ها یا روزها از فعالیت تجاری را در بر می‌گیرد.

این تغییر از دستیار به عامل مستقل مستلزم پیشرفت نه تنها در قابلیت مدل، بلکه در مکانیسم‌های اعتماد، تأیید، و نظارت انسانی است. کسب‌وکارها به مسیرهای حسابرسی برای اقدامات نماینده، ضمانت‌های برگشت‌پذیری برای عملیات‌های بعدی، و مسیرهای تشدید روشن برای موقعیت‌های مبهم نیاز دارند. چالش مهندسی به همان اندازه که مربوط به معماری حاکمیتی است به عملکرد مدل مربوط می شود.

پلتفرم‌هایی مانند Mewayz که قبلاً فعالیت کاربر را در تعاملات CRM، تأیید حقوق و دستمزد و تأیید رزرو ردیابی می‌کنند، موقعیت خوبی برای گسترش این زیرساخت حسابرسی برای پوشش اقدامات آغاز شده توسط نماینده دارند. زیرساخت داده مورد نیاز برای انطباق و برای حاکمیت عامل تا حد زیادی یکسان است - و سازمان‌هایی که روی یکی سرمایه‌گذاری کرده‌اند، دیگری را به‌طور قابل‌توجهی قابل حمل‌تر می‌دانند. آینده نرم‌افزار کسب‌وکار این نیست که انسان‌ها از نرم‌افزار استفاده کنند یا هوش مصنوعی جایگزین انسان‌ها شود. این یک حلقه مشترک است که در آن عوامل روی دستگاه کار مکانیکی ناوبری رابط را انجام می دهند در حالی که انسان ها قضاوت، نظارت و جهت گیری استراتژیک را ارائه می دهند. درس هایی که امروزه در تحقیقات عامل رابط کاربری گرافیکی فشرده آموخته می شود، پایه و اساس آن آینده را می سازد.

سوالات متداول

Ferret-UI Lite چیست و چه تفاوتی با ابزارهای اتوماسیون رابط کاربری گرافیکی سنتی دارد؟

Ferret-UI Lite یک مدل AI فشرده روی دستگاه است که برای درک و تعامل با رابط های گرافیکی کاربر به طور مستقل، بدون تکیه بر اتصال ابری طراحی شده است. برخلاف ابزارهای اتوماسیون سنتی که از قوانین سفت و سخت پیروی می کنند، Ferret-UI Lite از استدلال بصری برای درک پویا زمینه صفحه استفاده می کند. این باعث می‌شود آن را در برنامه‌ها و طرح‌بندی‌های مختلف بسیار سازگارتر کند، و رفتار واقعی عامل‌مانند را مستقیماً روی دستگاه با کمترین تأخیر ممکن می‌سازد.

چرا اجرای عوامل رابط کاربری گرافیکی روی دستگاه برای حفظ حریم خصوصی و عملکرد اهمیت دارد؟

استنتاج روی دستگاه، داده‌های حساس صفحه - از جمله گذرواژه‌ها، اسناد شخصی، و گردش‌های کاری تجاری - را کاملاً محلی نگه می‌دارد و خطرات حفظ حریم خصوصی مرتبط با انتقال عکس‌های صفحه به سرورهای راه دور را حذف می‌کند. همچنین تاخیر شبکه را از هر چرخه تعامل حذف می کند. برای پلت‌فرم‌های تجاری مانند Mewayz، یک سیستم‌عامل تجاری ۲۰۷ ماژول‌ای که در app.mewayz.com با قیمت ۱۹ دلار در ماه در دسترس است، عوامل روی دستگاه در نهایت می‌توانند گردش‌های کاری پیچیده چند مرحله‌ای را بدون افشای عملیات داخلی به صورت خارجی خودکار کنند.

بزرگترین چالش های فنی در ساخت مدل های کوچک و کارآمد عامل رابط کاربری گرافیکی چیست؟

چالش اصلی متعادل کردن اندازه مدل در برابر قابلیت ادراکی است. درک رابط کاربری گرافیکی مستلزم استدلال فضایی، تشخیص متن و استنتاج متنی به طور همزمان است - کارهایی که معمولاً به مدل‌های بزرگ نیاز دارند. محققان باید معماری‌ها را بدون به خطر انداختن دقت روی صفحه‌های متراکم و غنی از اطلاعات فشرده کنند. موانع دیگر شامل مدیریت تنوع بصری عظیم رابط‌های مدرن و آموزش در مجموعه داده‌های نماینده که شامل برنامه‌های مصرف‌کننده، داشبورد سازمانی، و مجموعه‌های بهره‌وری می‌شود.

چگونه عامل‌های رابط کاربری گرافیکی روی دستگاه می‌توانند نحوه مدیریت گردش‌های کاری نرم‌افزار را در کسب‌وکارها تغییر دهند؟

عامل‌های رابط کاربری گرافیکی روی دستگاه می‌توانند به‌عنوان اپراتورهای نامرئی عمل کنند و نرم‌افزار را به‌طور مستقل برای تکمیل کارهای تکراری مانند ورود داده‌ها، تولید گزارش یا به‌روزرسانی‌های بین پلتفرمی هدایت کنند. برای کسب‌وکارهایی که از پلت‌فرم‌های یکپارچه مانند Mewayz استفاده می‌کنند - ارائه 207 ماژول یکپارچه در app.mewayz.com به قیمت 19 دلار در ماه - چنین عواملی می‌توانند بدون دخالت انسان، فعالیت‌ها را در سراسر ماژول‌ها زنجیره‌ای کنند و به طور چشمگیری هزینه‌های عملیاتی را کاهش دهند و به تیم‌ها اجازه دهند تا بر تصمیم‌گیری با ارزش بالاتر به جای ناوبری رابط دستی تمرکز کنند.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime