Hacker News

آیا می توانید شبکه عصبی ما را مهندسی معکوس کنید؟

نظرات

1 min read Via blog.janestreet.com

Mewayz Team

Editorial Team

Hacker News

تهدید رو به رشد مهندسی معکوس شبکه عصبی – و معنی آن برای کسب و کار شما

در سال 2024، محققان یک دانشگاه بزرگ نشان دادند که می‌توانند معماری داخلی یک مدل زبان بزرگ اختصاصی را با استفاده از پاسخ‌های API و محاسبه‌ای به ارزش تقریبی 2000 دلار بازسازی کنند. این آزمایش موج شوکی را در صنعت هوش مصنوعی ایجاد کرد، اما پیامدهای آن بسیار فراتر از دره سیلیکون است. هر کسب‌وکاری که مدل‌های یادگیری ماشین را به کار می‌گیرد - از سیستم‌های تشخیص تقلب گرفته تا موتورهای توصیه مشتری - اکنون با یک سوال ناراحت‌کننده مواجه می‌شود: آیا کسی می‌تواند اطلاعاتی را که ماه‌ها برای ساختش صرف کرده‌اید بدزدد؟ مهندسی معکوس شبکه عصبی دیگر یک خطر نظری نیست. این یک بردار حمله عملی و قابل دسترس است که هر سازمان مبتنی بر فناوری باید آن را درک کند.

در واقع مهندسی معکوس شبکه عصبی چگونه به نظر می رسد

مهندسی معکوس یک شبکه عصبی نیازی به دسترسی فیزیکی به سروری که آن را اجرا می کند ندارد. در بیشتر موارد، مهاجمان از تکنیکی به نام استخراج مدل استفاده می‌کنند، که در آن به طور سیستماتیک API یک مدل را با ورودی‌هایی که به دقت ساخته شده است، جستجو می‌کنند، سپس از خروجی‌ها برای آموزش یک کپی تقریباً یکسان استفاده می‌کنند. یک مطالعه در سال 2023 منتشر شده در USENIX Security نشان داد که مهاجمان می‌توانند با استفاده از کمتر از 100000 پرس و جو، مرزهای تصمیم طبقه‌بندی‌کننده‌های تصویر تجاری را با بیش از 95 درصد وفاداری تکرار کنند - فرآیندی که هزینه آن کمتر از چند صد دلار در هزینه‌های API است.

فراتر از استخراج، حملات وارونگی مدل وجود دارد که در جهت مخالف عمل می‌کنند. مهاجمان به جای کپی کردن مدل، خود داده های آموزشی را بازسازی می کنند. اگر شبکه عصبی شما بر روی سوابق مشتری، استراتژی‌های قیمت‌گذاری اختصاصی یا معیارهای تجاری داخلی آموزش دیده است، یک حمله وارونگی موفقیت‌آمیز فقط مدل شما را نمی‌دزدد، بلکه داده‌های حساس را که در وزن‌های آن ذخیره شده است، در معرض دید قرار می‌دهد. دسته سوم، حملات استنتاج عضویت، به دشمنان اجازه می‌دهد تا تعیین کنند که آیا یک نقطه داده خاص بخشی از مجموعه آموزشی بوده است یا خیر، که باعث ایجاد نگرانی‌های جدی در مورد حفظ حریم خصوصی تحت مقرراتی مانند GDPR و CCPA می‌شود.

موضوع رایج این است که فرض "جعبه سیاه" - این ایده که استقرار یک مدل در پشت یک API آن را ایمن نگه می دارد - اساساً شکسته شده است. هر پیش‌بینی که مدل شما برمی‌گرداند نقطه داده‌ای است که مهاجم می‌تواند علیه شما استفاده کند.

چرا کسب و کارها باید بیشتر از آنچه در حال حاضر انجام می دهند اهمیت دهند

بیشتر سازمان ها بودجه امنیت سایبری خود را بر روی محیط شبکه، حفاظت از نقطه پایانی و رمزگذاری داده ها متمرکز می کنند. اما مالکیت معنوی تعبیه شده در یک شبکه عصبی آموزش دیده می تواند نشان دهنده ماه ها تحقیق و توسعه و میلیون ها هزینه توسعه باشد. هنگامی که یک رقیب یا بازیگر بدخواه مدل شما را استخراج می کند، تمام ارزش تحقیق شما را بدون هیچ هزینه ای به دست می آورد. بر اساس گزارش هزینه نقض داده 2024 IBM، میانگین نقض سیستم های هوش مصنوعی 5.2 میلیون دلار برای سازمان ها هزینه دارد که 13 درصد بیشتر از نقض هایی که شامل دارایی های هوش مصنوعی نمی شود.

این خطر به ویژه برای مشاغل کوچک و متوسط شدید است. شرکت های سازمانی می توانند تیم های امنیتی اختصاصی ML و زیرساخت های سفارشی را بپردازند. اما تعداد فزاینده SMB هایی که یادگیری ماشینی را در عملیات خود ادغام می کنند - چه برای امتیازدهی به سرنخ، پیش بینی تقاضا، یا پشتیبانی خودکار مشتری - اغلب مدل هایی با حداقل سختی امنیتی به کار می گیرند. آنها متکی به پلتفرم های شخص ثالثی هستند که ممکن است حفاظت های کافی را اجرا کنند یا نکنند.

خطرناک ترین فرض در امنیت هوش مصنوعی این است که پیچیدگی برابر با محافظت است. یک شبکه عصبی با 100 میلیون پارامتر ذاتاً ایمن‌تر از شبکه‌ای با 1 میلیون پارامتر نیست - آنچه مهم است این است که چگونه دسترسی به ورودی‌ها و خروجی‌های آن را کنترل می‌کنید.

پنج دفاع عملی در برابر سرقت مدل

محافظت از شبکه‌های عصبی نیازی به مدرک دکترا در یادگیری ماشینی متخاصم ندارد، اما نیاز به تصمیم‌گیری‌های معماری عمدی دارد. استراتژی‌های زیر نشان‌دهنده بهترین شیوه‌های فعلی است که توسط سازمان‌هایی مانند NIST و OWASP برای ایمن‌سازی مدل‌های ML مستقر شده توصیه شده است.

  • محدود کردن نرخ و بودجه بندی درخواست: تعداد تماس‌های API را که هر کاربر یا کلیدی می‌تواند در یک پنجره زمانی معین انجام دهد، محدود کنید. حملات استخراج مدل به ده‌ها هزار جستجو نیاز دارد - محدودیت نرخ تهاجمی، استخراج در مقیاس بزرگ را بدون ایجاد هشدار غیرعملی می‌سازد.
  • آشفتگی خروجی: نویز کنترل‌شده را به پیش‌بینی‌های مدل اضافه کنید. به جای برگرداندن نمرات اطمینان دقیق (مثلاً 0.9237)، فواصل دور به درشت تر (مثلاً 0.92). این کار قابلیت استفاده را حفظ می کند و در عین حال تعداد پرس و جوهایی را که مهاجم برای بازسازی مدل شما نیاز دارد به طور چشمگیری افزایش می دهد.
  • واترمارک: امضاهای نامحسوس را در رفتار مدل خود قرار دهید — جفت های ورودی-خروجی خاصی که به عنوان اثر انگشت عمل می کنند. اگر یک نسخه به سرقت رفته از مدل شما ظاهر شد، واترمارک ها شواهد قانونی دزدی را ارائه می دهند.
  • حریم خصوصی متفاوت در طول آموزش: در طول فرآیند آموزش، نویز ریاضی را وارد کنید. این امر به‌طور قابل‌توجهی میزان اطلاعاتی را که در مورد هر نمونه آموزشی فردی از طریق پیش‌بینی‌های مدل درز می‌کند، محدود می‌کند و در برابر حملات استنتاج وارونگی و عضویت دفاع می‌کند.
  • نظارت و تشخیص ناهنجاری: الگوهای استفاده از API را برای نشانه‌های کاوش سیستماتیک دنبال کنید. حملات استخراج توزیع‌های پرس و جوی متمایز را ایجاد می‌کنند که هیچ شباهتی به ترافیک کاربر قانونی ندارد - هشدارهای خودکار می‌توانند رفتار مشکوک را قبل از موفقیت در حمله علامت‌گذاری کنند.

اجرای حتی دو یا سه مورد از این اقدامات، هزینه و دشواری یک حمله را با درجه‌های بزرگی افزایش می‌دهد. هدف امنیت کامل نیست - این در مقایسه با ساخت یک مدل از ابتدا، استخراج را از نظر اقتصادی غیرمنطقی می کند.

نقش زیرساخت عملیاتی در امنیت هوش مصنوعی

یک بعد که در گفتگوهای مربوط به امنیت مدل نادیده گرفته می شود، محیط عملیاتی گسترده تر است. یک شبکه عصبی به صورت مجزا وجود ندارد - به پایگاه های داده، سیستم های CRM، پلت فرم های صورتحساب، سوابق کارمندان و ابزارهای ارتباطی با مشتری متصل می شود. مهاجمی که نمی‌تواند مستقیماً مدل شما را مهندسی معکوس کند، ممکن است خطوط لوله داده‌ای که آن را تغذیه می‌کنند، APIهایی که خروجی‌های آن را مصرف می‌کنند یا سیستم‌های تجاری که پیش‌بینی‌های آن را ذخیره می‌کنند، هدف قرار دهد.

این جایی است که داشتن یک پلت فرم عملیاتی یکپارچه به جای یک راحتی، به یک مزیت امنیتی واقعی تبدیل می شود. وقتی کسب‌وکارها ده‌ها ابزار جداشده SaaS را به هم متصل می‌کنند، هر نقطه یکپارچه‌سازی به یک سطح حمله بالقوه تبدیل می‌شود. Mewayz با ادغام 207 ماژول تجاری - از CRM و صورتحساب گرفته تا HR و تجزیه و تحلیل - در یک پلتفرم واحد با کنترل های دسترسی متمرکز و ثبت حسابرسی به این موضوع می پردازد. تیم ها به جای ایمن کردن پانزده ابزار مختلف با پانزده مدل مجوز مختلف، همه چیز را از یک داشبورد مدیریت می کنند.

برای سازمان‌هایی که قابلیت‌های هوش مصنوعی را به کار می‌گیرند، این ادغام به معنای انتقال داده‌های کمتر بین سیستم‌ها، تعداد کمتر کلیدهای API شناور در فایل‌های پیکربندی، و یک نقطه اجرایی برای سیاست‌های دسترسی است. وقتی داده‌های مشتری، معیارهای عملیاتی و منطق کسب‌وکار شما همگی در یک محیط تحت کنترل زندگی می‌کنند، سطح حمله برای استخراج داده‌ها - مواد خام حملات وارونگی مدل - به‌طور قابل‌توجهی کوچک می‌شود.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

حوادث دنیای واقعی که مکالمه را تغییر داد

در سال 2022، یک استارت‌آپ فین‌تک متوجه شد که یک رقیب تنها هشت ماه پس از راه‌اندازی خود استارت‌آپ، یک محصول تقریباً یکسان برای امتیازدهی اعتباری راه‌اندازی کرده است. تجزیه و تحلیل داخلی نشان داد که رقیب ماه‌ها به طور سیستماتیک API امتیازدهی استارت‌آپ را جویا می‌شد و از پاسخ‌ها برای آموزش یک مدل مشابه استفاده می‌کرد. این استارت‌آپ هیچ محدودیتی در نرخ نداشت، توزیع‌های احتمالی کامل را برگرداند، و هیچ گزارش پرس و جو که بتواند از اقدامات قانونی پشتیبانی کند، نگهداری نمی‌کرد. رقیب با هیچ عواقبی روبرو نشد.

اخیراً، در اواخر سال 2024، محققان امنیتی تکنیکی به نام "استخراج مدل کانال جانبی" را نشان دادند که از تفاوت‌های زمانی در پاسخ‌های API استفاده می‌کرد - مدت زمانی که سرور طول می‌کشد تا نتایج را برای ورودی‌های مختلف برگرداند - برای استنباط ساختار داخلی مدل بدون حتی تجزیه و تحلیل خود پیش‌بینی‌ها. این حمله بر روی مدل‌های مستقر در هر سه ارائه‌دهنده اصلی ابر کار می‌کرد و به دسترسی خاصی فراتر از یک کلید API استاندارد نیاز نداشت.

این حوادث بر یک نکته حیاتی تأکید می‌کنند: تهدید سریع‌تر از سیستم‌های دفاعی بیشتر سازمان‌ها در حال تکامل است. تکنیک هایی که سه سال پیش به عنوان تحقیقات پیشرفته در نظر گرفته می شدند، اکنون به عنوان جعبه ابزار منبع باز در GitHub در دسترس هستند. کسب و کارهایی که امنیت مدل را به عنوان یک نگرانی آینده در نظر می گیرند، در حال حاضر عقب مانده اند.

ایجاد فرهنگ هوش مصنوعی در ابتدا امنیت

تکنولوژی به تنهایی این مشکل را حل نمی کند. سازمان‌ها باید فرهنگی بسازند که در آن با دارایی‌های هوش مصنوعی با جدیت مشابه کد منبع، اسرار تجاری و پایگاه‌های اطلاعاتی مشتریان برخورد شود. این با موجودی شروع می‌شود - بسیاری از شرکت‌ها حتی فهرست کاملی از مدل‌هایی که مستقر شده‌اند، مکان‌هایی که در دسترس هستند و افرادی که به API دسترسی دارند، ندارند. شما نمی توانید از چیزی که نمی دانید وجود دارد محافظت کنید.

همکاری متقابل ضروری است. دانشمندان داده باید تهدیدات متخاصم را درک کنند. تیم های امنیتی باید بدانند خطوط لوله یادگیری ماشین چگونه کار می کنند. مدیران محصول باید تصمیمات آگاهانه ای در مورد اینکه APIهای مدل اطلاعاتی در معرض دید قرار می دهند، بگیرند. تمرین‌های منظم «تیم قرمز» - جایی که تیم‌های داخلی سعی می‌کنند مدل‌های شما را استخراج یا معکوس کنند - آسیب‌پذیری‌ها را قبل از حمله‌کنندگان خارجی آشکار می‌کنند. شرکت هایی مانند گوگل و مایکروسافت این تمرین ها را هر سه ماه یکبار اجرا می کنند. هیچ دلیلی وجود ندارد که سازمان‌های کوچک‌تر نتوانند نسخه‌های ساده‌شده را اتخاذ کنند.

پلتفرم‌هایی مانند Mewayz که داده‌های عملیاتی را زیر یک سقف قرار می‌دهند، اجرای سیاست‌های حاکمیت داده را که مستقیماً بر امنیت هوش مصنوعی تأثیر می‌گذارد، آسان‌تر می‌کنند. وقتی می‌توانید ردیابی کنید که چه کسی به کدام بخش‌های مشتری دسترسی داشته است، چه زمانی گزارش‌های تحلیلی ایجاد شده‌اند، و چگونه داده‌ها بین ماژول‌ها جریان می‌یابد، نوعی قابلیت مشاهده ایجاد می‌کنید که هم استخراج غیرمجاز داده و هم سرقت مدل را به طور قابل‌توجهی سخت‌تر می‌کند.

چیز بعدی: مقررات، استانداردها و آمادگی

چشم انداز نظارتی در حال فراگیری است. قانون هوش مصنوعی اتحادیه اروپا که در مراحلی از سال 2025 اجرایی شد، شامل مقرراتی پیرامون شفافیت و امنیت مدل است که سازمان‌ها را ملزم می‌کند تا نشان دهند که اقدامات معقولی برای محافظت از سیستم‌های هوش مصنوعی در برابر دستکاری و سرقت انجام داده‌اند. در ایالات متحده، چارچوب مدیریت ریسک هوش مصنوعی NIST (AI RMF) اکنون به صراحت به استخراج مدل به عنوان یک دسته تهدید می پردازد. کسب‌وکارهایی که به طور فعال این چارچوب‌ها را اتخاذ می‌کنند، انطباق را آسان‌تر می‌کنند - و برای دفاع از سرمایه‌گذاری‌های هوش مصنوعی خود در موقعیت بهتری قرار می‌گیرند.

مطلب ساده است: مهندسی معکوس شبکه عصبی یک تهدید فرضی برای بازیگران دولت-ملت نیست. این یک تکنیک قابل دسترسی و مستند است که هر رقیب با انگیزه یا بازیگر بدخواه می تواند در برابر سیستم هایی که دفاع ضعیفی دارند اجرا کند. کسب‌وکارهایی که در عصر هوش مصنوعی رشد می‌کنند، تنها آنهایی نیستند که بهترین مدل‌ها را می‌سازند، بلکه کسانی هستند که از آنها محافظت می‌کنند. با کنترل های دسترسی، اغتشاش خروجی و نظارت بر مصرف شروع کنید. بر اساس یک پایه عملیاتی یکپارچه که پراکندگی داده ها را به حداقل می رساند. و با مدل‌های آموزش‌دیده خود به‌عنوان دارایی‌های باارزش رفتار کنید، زیرا مطمئناً رقبای شما چنین خواهند کرد.

سوالات متداول

مهندسی معکوس شبکه عصبی چیست؟

مهندسی معکوس شبکه عصبی فرآیند تجزیه و تحلیل خروجی‌های مدل یادگیری ماشین، پاسخ‌های API یا الگوهای رفتاری برای بازسازی معماری داخلی، وزن‌ها یا داده‌های آموزشی آن است. مهاجمان می‌توانند از تکنیک‌هایی مانند استخراج مدل، استنتاج عضویت، و کاوش متخاصم برای سرقت الگوریتم‌های اختصاصی استفاده کنند. برای کسب‌وکارهایی که به ابزارهای مبتنی بر هوش مصنوعی متکی هستند، این موضوع دارایی‌های فکری جدی و خطرات رقابتی است که نیازمند اقدامات امنیتی پیشگیرانه است.

چگونه کسب و کارها می توانند از مدل های هوش مصنوعی خود در برابر مهندسی معکوس محافظت کنند؟

دفاع‌های کلیدی شامل جستارهای API محدودکننده نرخ، اضافه کردن نویز کنترل‌شده به خروجی‌های مدل، نظارت بر الگوهای دسترسی مشکوک، و استفاده از حریم خصوصی متفاوت در طول آموزش است. پلت‌فرم‌هایی مانند Mewayz، یک سیستم‌عامل تجاری ۲۰۷ ماژول، به شرکت‌ها کمک می‌کنند تا با حفظ جریان‌های کاری هوش مصنوعی حساس در یک محیط امن و یکپارچه به جای پراکنده شدن در یکپارچه‌سازی‌های آسیب‌پذیر شخص ثالث، عملیات‌ها را متمرکز کرده و در معرض قرار گرفتن کاهش دهند.

آیا مشاغل کوچک در معرض خطر سرقت مدل هوش مصنوعی هستند؟

کاملاً. محققان حملات استخراج مدل را نشان داده‌اند که هزینه محاسباتی کمتر از 2000 دلار دارند و تقریباً برای همه قابل دسترسی هستند. کسب‌وکارهای کوچک که از موتورهای توصیه سفارشی، الگوریتم‌های قیمت‌گذاری یا مدل‌های تشخیص تقلب استفاده می‌کنند، دقیقاً به این دلیل که اغلب فاقد امنیت در سطح سازمانی هستند، اهداف جذابی هستند. پلتفرم‌های مقرون‌به‌صرفه مانند Mewayz که از 19 دلار در ماه در app.mewayz.com شروع می‌شود، به تیم‌های کوچک‌تر کمک می‌کند امنیت عملیاتی قوی‌تری را اجرا کنند.

اگر گمان کنم مدل هوش مصنوعی من در معرض خطر قرار گرفته است، چه کاری باید انجام دهم؟

با بررسی گزارش‌های دسترسی API برای حجم‌های پرس و جو غیرمعمول یا الگوهای ورودی سیستماتیک که تلاش‌های استخراج را پیشنهاد می‌کنند، شروع کنید. کلیدهای API را فوراً بچرخانید و محدودیت‌های نرخ سخت‌تر را اعمال کنید. ارزیابی کنید که آیا خروجی های مدل در محصولات رقیب ظاهر شده اند یا خیر. برای ردیابی استفاده غیرمجاز، نسخه‌های مدل آینده را واترمارک کنید و با یک متخصص امنیت سایبری مشورت کنید تا دامنه کامل نقض را ارزیابی کند و دفاع خود را سخت‌تر کند.