
Głębokie badania AI były w tym roku jednym z najgorętszych wyścigów zbrojeń w technologii. Google ogłosiło swojego agenta badawczego dla Gemini w grudniu 2024 roku, OpenAI wypuściło własnego agenta badawczego w lutym 2025 roku, xAI poszło w ich ślady, Perplexity podwoiło wysiłki, a Claude Anthropic'a zyskał lojalnych zwolenników wśród profesjonalistów potrzebujących szczegółowych, cytowanych odpowiedzi, wprowadzając swojego agenta w kwietniu ubiegłego roku.
Każda firma próbowała przekonać, że jej pojedynczy model AI jest najinteligentniejszym badaczem w pomieszczeniu. Microsoft po prostu powiedział: Po co wybierać jeden?
Firma ogłosiła w poniedziałek dwie nowe funkcje dla narzędzia Researcher w Copilocie—nazwane Critique i Council—które wykorzystują GPT OpenAI i Claude'a Anthropic'a do tego samego zadania badawczego w sekwencji. Wynik, według testów Microsoftu wobec branżowego benchmarku, jest wyższy niż każdego systemu uwzględnionego w tym teście, w tym modeli od czołowych firm AI.
Introducing Critique, a new multi-model deep research system in M365 Copilot.
You can use multiple models together to generate optimal responses and reports. pic.twitter.com/m4RlQmCKzs
— Satya Nadella (@satyanadella) March 30, 2026
„Critique to nowy wielomodelowy system głębokich badań zaprojektowany do złożonych zadań badawczych. Oddziela generowanie od oceny i wykorzystuje kombinację modeli z laboratoriów Frontier, w tym Anthropic i OpenAI” – wyjaśnia Microsoft. „Jeden model prowadzi fazę generowania, planując zadanie, iterując przez wyszukiwanie i tworząc wstępny projekt, podczas gdy drugi model koncentruje się na przeglądzie i dopracowywaniu, działając jako ekspert-recenzent przed sporządzeniem ostatecznego raportu.”
Oto podstawowy problem, który Critique ma rozwiązać: Każde narzędzie badawcze AI działa dziś tak samo. Zadajesz pytanie, jeden model planuje wyszukiwanie, przeszukuje źródła, pisze raport i przekazuje go tobie. Ten pojedynczy model robi wszystko bez niczyjej kontroli.
Może to prowadzić do pojawiania się halucynacji, błędów w cytowaniach, fałszywych lub niedokładnych twierdzeń itp.
Critique dzieli ten przepływ pracy na dwie części. GPT zajmuje się pierwszą fazą – planuje badania, pobiera źródła i pisze wstępny projekt. Następnie Claude wkracza jako surowy edytor, przeglądając raport pod kątem dokładności faktów, jakości cytowań i tego, czy odpowiedź faktycznie odnosi się do zadanych pytań. Dopiero po tej recenzji ostateczny raport trafia do użytkownika. Microsoft twierdzi, że role mogą ostatecznie działać również w przeciwnym kierunku, z Claude'em sporządzającym projekt i GPT krytykującym, chociaż na razie GPT idzie pierwszy.
W benchmarku DRACO – ustandaryzowanym teście obejmującym 100 złożonych zadań badawczych w 10 dziedzinach, w tym medycynie, prawie i technologii – Copilot z Critique uzyskał 57,4 punktu, podczas gdy sam Anthropic Claude Opus 4.6 osiągnął 42,7. Połączony system Microsoftu bije następny najlepszy wynik o prawie 14%.
Największe zyski odnotowano w zakresie szerokości analizy i jakości prezentacji, a dokładność faktów również wykazała znaczną poprawę.
Druga funkcja, Council, podchodzi do tego samego problemu w inny sposób. Zamiast zmuszać jeden model do przeglądania pracy drugiego, Council uruchamia GPT i Claude'a *jednocześnie* i zestawia ich pełne raporty obok siebie. Trzeci model „sędzia” następnie czyta oba i pisze podsumowanie, wyjaśniając, w czym obie sztuczne inteligencje się zgodziły, gdzie się różniły i jakie unikalne perspektywy każdy z nich uchwycił, a których nie dostrzegł drugi. Porównywanie narzędzi badawczych AI ręcznie było czymś, co użytkownicy musieli robić sami aż do teraz.
W trybie Critique modele zasadniczo ze sobą *współpracują*, natomiast w trybie Council modele *konkurują* ze sobą.
Critique jest domyślnym doświadczeniem w Researcher, natomiast Council wymaga wybrania „Model Council” z selektora, aby aktywować tryb porównawczy. Obie funkcje są obecnie dostępne dla użytkowników zapisanych do programu Microsoft Frontier, kanału wczesnego dostępu do najnowszych możliwości Copilota. Wymagana jest licencja Microsoft 365 Copilot (30 USD/użytkownik/miesiąc), ale użytkownicy muszą być również zapisani do programu Frontier, aby mieć do nich dostęp.
OpenAI i Microsoft mają wielomiliardowe partnerstwo, ale Microsoft stawia na to, że żaden pojedynczy model nie pozostanie na szczycie długo, a prawdziwa wartość tkwi w warstwie orkiestracji, która kieruje zadania do najlepiej działającej kombinacji.