
هدف از دستیاران شخصی هوش مصنوعی همیشه یکسان بوده است: دسترسی به زندگی دیجیتال خود را به عامل هوش مصنوعی بدهید و او بقیه کارها را انجام میدهد. ایمیلهای شما، تقویم شما، یادداشتهای شما، دستگاههای شما—همه چیز. هوش مصنوعی شما میداند. هوش مصنوعی شما عمل میکند. شما میخوابید.
محققان از هواوی تکنولوژیز، موسسه فناوری پکن، دانشگاه پکن، و آکادمی علوم چین به تازگی یک معیار ارزیابی ساختهاند تا ببینند آیا این واقعاً درست است یا خیر. لو رفتن: اینطور نیست.
Claw-Anything عوامل هوش مصنوعی را در سه بعد به طور همزمان ارزیابی میکند: جریانهای رویداد با افق بلند که بیش از سه ماه فعالیت شبیهسازی شده کاربر را پوشش میدهد، خدمات پشتیبان وابسته به هم با میانگین 10.1 سرویس در هر وظیفه، و تعامل چند دستگاهی در محیطهای CLI لینوکس و GUI اندروید.
میانگین پنجره متنی برای هر وظیفه 191,700 کلمه است. بیشتر معیارهای موجود بین 1,700 تا 12,000 کلمه قرار دارند. این یک شکاف کوچک نیست بلکه یک مشکل کاملاً متفاوت است. همچنین، این همان چیزی است که زندگی واقعی به نظر میرسد، در مقابل معیارهای استاندارد و بسیار خاص.
هوش مصنوعی شما هیچ ایدهای ندارد که چه خبر است
این معیار بر اساس pass@1 امتیازدهی میشود—احتمال اینکه عامل هوش مصنوعی یک وظیفه را در اولین تلاش خود به درستی انجام دهد، بدون تکرار. یک وظیفه ممکن است از عامل بخواهد تا یک هشدار قیمت را در مورد محصولی که هفتهها پیش پیدا کرده بود، بررسی کند، تقویم کاربر را برای یک قرار ملاقات مربوطه چک کند، و بر اساس هر دو از طریق تلفن عمل کند. دیگری ممکن است از او بخواهد کارهای اخیر را از یادداشتها، رشتههای ایمیل و اسلک جمعآوری کرده و سپس یک ارائه را از صفر تولید کند.
اینها کارهایی هستند که افراد واقعاً از دستیاران خود میخواهند انجام دهند. معلوم میشود که هوش مصنوعی در آنها چندان خوب نیست. GPT-5.5، طبق پوشش قبلی Decrypt، بهترین مدل OpenAI است که با در نظر گرفتن وظایف عاملمحور و با افق بلند ساخته شده است. این مدل 34.5% امتیاز کسب کرد.
در مقاله Claw-Anything آمده است: "مدلهای کنونی حتی با دسترسی گستردهتر به دنیای دیجیتال کاربر، همچنان غیرقابل اعتماد باقی میمانند." چندین مدل که در معیارهای دیگر چشمگیر به نظر میرسیدند، بیشتر سقوط کردند.
این معیار همچنین کمکهای پیشگیرانه را به طور جداگانه ارزیابی میکند، به این معنی که در مواردی که عامل نیاز را تشخیص داده و بدون درخواست عمل میکند. بیشتر معیارها این را آزمایش نمیکنند. Claw-Anything این کار را انجام میدهد، و تفاوت فاحش است: عوامل در وظایف واکنشی 25.9% و در وظایف پیشگیرانه تنها 6.7% امتیاز کسب کردند.
چرا اکثر معیارها این را به شما نمیگویند
محققان استدلالی دقیق ارائه میدهند: معیارهای موجود، عوامل هوش مصنوعی را مانند حلکنندههای وظیفه میبینند که پشت یک میز تمیز قرار گرفتهاند. Claw-Anything آنها را مانند دستیاران شخصی میبیند که وارد یک زندگی واقعی و آشفته شدهاند—رویدادهای نامربوط، سیگنالهای متناقض، ماهها نویز انباشته شده. عامل باید قبل از انجام هر کار مفیدی، بفهمد چه چیزی مرتبط است.
نتایج آزمونهای حذف، وابستگی چند سرویسی را به وضوح نشان میدهد. هنگامی که ابزارهای مورد نیاز برای وظایف بین سرویسی حذف شدند، نرخ موفقیت تقریباً به صفر رسید، زیرا بیشتر وظایف از عوامل میخواهند اطلاعات را بازیابی کرده و در چندین سرویس پشتیبان به جای یک سرویس واحد عمل کنند.
این یک ژانر جدید از مشکل در ارزیابی هوش مصنوعی نیست. OpenAI اوایل امسال SWE-bench را آلوده اعلام کرد پس از آنکه امتیازات از حدود 70% به 23% در نسخهای با نشت کمتر، سقوط کرد. این موضوع درباره بهداشت داده بود. اما این مورد درباره چیزی اساسیتر است—اینکه آیا معیارها اصلاً سوال درستی را میپرسند یا خیر.
در جنبه سازنده، این تیم پایپلاینی را که معیار را تولید کرده بود، به همراه 2000 محیط آموزشی منتشر کرد. تنظیم دقیق Qwen3.5-27B بر روی 1500 مسیر عامل موفق، pass@1 را 23.7% بهبود بخشید—به اندازهای که چندین مدل کدبسته را در جدول ردهبندی شکست دهد، از جمله Claude Sonnet.
محققان هماهنگی بین سرویسها را به عنوان چالش اصلی باقیمانده این معیار برای این حوزه شناسایی میکنند. مجموعه دادهها در Hugging Face و کدها در گیتهاب قرار دارند.