صفحه اصلیمرکز اخبار LBank
بنچمارک جدید هواوی ماه‌ها از عمر شما را به ایجنت‌های هوش مصنوعی می‌بخشد — و سپس شاهد شکست آنهاست
huawei-claw-anything-ai-agent-benchmark
بنچمارک جدید هواوی ماه‌ها از عمر شما را به ایجنت‌های هوش مصنوعی می‌بخشد — و سپس شاهد شکست آنهاست
Claw-Anything یک وجود دیجیتالی واقعی را شبیه‌سازی می‌کند و از دستیاران هوش مصنوعی می‌خواهد که آن را مدیریت کنند. GPT-5.5، بهترین مدل موجود، امتیاز ۳۴.۵٪ را کسب کرد.
2026-05-27 منبع:decrypt.co

به طور خلاصه

  • محققان از هواوی و سه موسسه همکار، Claw-Anything را منتشر کردند، معیاری که عوامل هوش مصنوعی را در وظایف دستیار شخصی ارزیابی می‌کند.
  • GPT-5.5، مدل شاخص OpenAI، تنها 34.5% در معیار pass@1 امتیاز کسب کرد – که بسیار پایین‌تر از امتیازات آن در معیارهای موجود است و نشان می‌دهد که آزمایش‌های فعلی چیزهای اشتباهی را اندازه‌گیری می‌کنند.
  • این تیم همچنین یک پایپ‌لاین داده خودکار را منتشر کرد که 2000 محیط آموزشی را تولید کرده است؛ تنظیم دقیق یک مدل با وزن باز بر روی آن داده‌ها، موفقیت وظایف را 23.7% بهبود بخشید.

هدف از دستیاران شخصی هوش مصنوعی همیشه یکسان بوده است: دسترسی به زندگی دیجیتال خود را به عامل هوش مصنوعی بدهید و او بقیه کارها را انجام می‌دهد. ایمیل‌های شما، تقویم شما، یادداشت‌های شما، دستگاه‌های شما—همه چیز. هوش مصنوعی شما می‌داند. هوش مصنوعی شما عمل می‌کند. شما می‌خوابید.

محققان از هواوی تکنولوژیز، موسسه فناوری پکن، دانشگاه پکن، و آکادمی علوم چین به تازگی یک معیار ارزیابی ساخته‌اند تا ببینند آیا این واقعاً درست است یا خیر. لو رفتن: اینطور نیست.

Claw-Anything عوامل هوش مصنوعی را در سه بعد به طور همزمان ارزیابی می‌کند: جریان‌های رویداد با افق بلند که بیش از سه ماه فعالیت شبیه‌سازی شده کاربر را پوشش می‌دهد، خدمات پشتیبان وابسته به هم با میانگین 10.1 سرویس در هر وظیفه، و تعامل چند دستگاهی در محیط‌های CLI لینوکس و GUI اندروید.

میانگین پنجره متنی برای هر وظیفه 191,700 کلمه است. بیشتر معیارهای موجود بین 1,700 تا 12,000 کلمه قرار دارند. این یک شکاف کوچک نیست بلکه یک مشکل کاملاً متفاوت است. همچنین، این همان چیزی است که زندگی واقعی به نظر می‌رسد، در مقابل معیارهای استاندارد و بسیار خاص.

هوش مصنوعی شما هیچ ایده‌ای ندارد که چه خبر است

این معیار بر اساس pass@1 امتیازدهی می‌شود—احتمال اینکه عامل هوش مصنوعی یک وظیفه را در اولین تلاش خود به درستی انجام دهد، بدون تکرار. یک وظیفه ممکن است از عامل بخواهد تا یک هشدار قیمت را در مورد محصولی که هفته‌ها پیش پیدا کرده بود، بررسی کند، تقویم کاربر را برای یک قرار ملاقات مربوطه چک کند، و بر اساس هر دو از طریق تلفن عمل کند. دیگری ممکن است از او بخواهد کارهای اخیر را از یادداشت‌ها، رشته‌های ایمیل و اسلک جمع‌آوری کرده و سپس یک ارائه را از صفر تولید کند.

اینها کارهایی هستند که افراد واقعاً از دستیاران خود می‌خواهند انجام دهند. معلوم می‌شود که هوش مصنوعی در آنها چندان خوب نیست. GPT-5.5، طبق پوشش قبلی Decrypt، بهترین مدل OpenAI است که با در نظر گرفتن وظایف عامل‌محور و با افق بلند ساخته شده است. این مدل 34.5% امتیاز کسب کرد.

در مقاله Claw-Anything آمده است: "مدل‌های کنونی حتی با دسترسی گسترده‌تر به دنیای دیجیتال کاربر، همچنان غیرقابل اعتماد باقی می‌مانند." چندین مدل که در معیارهای دیگر چشمگیر به نظر می‌رسیدند، بیشتر سقوط کردند.

این معیار همچنین کمک‌های پیش‌گیرانه را به طور جداگانه ارزیابی می‌کند، به این معنی که در مواردی که عامل نیاز را تشخیص داده و بدون درخواست عمل می‌کند. بیشتر معیارها این را آزمایش نمی‌کنند. Claw-Anything این کار را انجام می‌دهد، و تفاوت فاحش است: عوامل در وظایف واکنشی 25.9% و در وظایف پیش‌گیرانه تنها 6.7% امتیاز کسب کردند.

چرا اکثر معیارها این را به شما نمی‌گویند

محققان استدلالی دقیق ارائه می‌دهند: معیارهای موجود، عوامل هوش مصنوعی را مانند حل‌کننده‌های وظیفه می‌بینند که پشت یک میز تمیز قرار گرفته‌اند. Claw-Anything آنها را مانند دستیاران شخصی می‌بیند که وارد یک زندگی واقعی و آشفته شده‌اند—رویدادهای نامربوط، سیگنال‌های متناقض، ماه‌ها نویز انباشته شده. عامل باید قبل از انجام هر کار مفیدی، بفهمد چه چیزی مرتبط است.

نتایج آزمون‌های حذف، وابستگی چند سرویسی را به وضوح نشان می‌دهد. هنگامی که ابزارهای مورد نیاز برای وظایف بین سرویسی حذف شدند، نرخ موفقیت تقریباً به صفر رسید، زیرا بیشتر وظایف از عوامل می‌خواهند اطلاعات را بازیابی کرده و در چندین سرویس پشتیبان به جای یک سرویس واحد عمل کنند.

این یک ژانر جدید از مشکل در ارزیابی هوش مصنوعی نیست. OpenAI اوایل امسال SWE-bench را آلوده اعلام کرد پس از آنکه امتیازات از حدود 70% به 23% در نسخه‌ای با نشت کمتر، سقوط کرد. این موضوع درباره بهداشت داده بود. اما این مورد درباره چیزی اساسی‌تر است—اینکه آیا معیارها اصلاً سوال درستی را می‌پرسند یا خیر.

در جنبه سازنده، این تیم پایپ‌لاینی را که معیار را تولید کرده بود، به همراه 2000 محیط آموزشی منتشر کرد. تنظیم دقیق Qwen3.5-27B بر روی 1500 مسیر عامل موفق، pass@1 را 23.7% بهبود بخشید—به اندازه‌ای که چندین مدل کدبسته را در جدول رده‌بندی شکست دهد، از جمله Claude Sonnet.

محققان هماهنگی بین سرویس‌ها را به عنوان چالش اصلی باقی‌مانده این معیار برای این حوزه شناسایی می‌کنند. مجموعه داده‌ها در Hugging Face و کدها در گیت‌هاب قرار دارند.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!