A kutatók öt AI-modell pontosságát tesztelték 500 mindennapi matematikai utasítás segítségével. Az eredmények azt mutatják, hogy nagyjából 40 százalék az esély arra, hogy egy mesterséges intelligencia téves választ kap.
A mesterséges intelligencia (AI) a mindennapi élet szerves részévé válik, beleértve a mindennapi számításokat is. De mennyire jól kezelik ezek a rendszerek az alapvető matematikát? És mennyire bízzanak bennük a felhasználók?
Egy friss tanulmány óvatosságra int. Az Omni Research on Calculation in AI (ORCA) azt mutatja, hogy ha egy AI chatbotot mindennapi matematika elvégzésére kérünk, nagyjából 40 százalék az esély arra, hogy rossz választ kap. A pontosság jelentősen eltér az AI-cégek és a különböző típusú matematikai feladatok között.
Tehát melyik AI-eszközök pontosabbak, és hogyan teljesítenek a különböző típusú számítások során, például statisztikák, pénzügyek vagy fizika terén?
Az eredmények a valós, kiszámítható problémákból származó 500 felszólítás teljesítményén alapulnak. Minden mesterséges intelligencia modellt ugyanazzal az 500 kérdésből álló sorozattal teszteltek. Az öt mesterséges intelligencia modellt 2025 októberében tesztelték.
A kiválasztott modellek a következők:
- ChatGPT-5 (OpenAI)
- Gemini 2.5 Flash (Google)
- Claude 4.5 szonett (antropikus)
- DeepSeek V3.2 (DeepSeek AI)
- Grok-4 (xAI).
Az ORCA Benchmark azt találta, hogy egyetlen AI-modell sem ért el 63 százalék feletti eredményt a mindennapi matematikában. A vezető Gemini (63 százalék) még mindig csaknem 4-et hibázik 10-ből. Grok közel azonos pontszámmal, 62,8 százalékkal rendelkezik. A DeepSeek a harmadik helyen áll 52 százalékkal. A ChatGPT következik 49,4 százalékkal, az utolsó pedig Claude 45,2 százalékkal.
Öt modell egyszerű átlaga 54,5 százalék. Ezek a pontszámok a modellek általános teljesítményét tükrözik mind az 500 felszólítás során.
„Bár a pontos rangsor megváltozhat, ha ma megismételjük a benchmarkot, a tágabb következtetés valószínűleg ugyanaz marad: a numerikus megbízhatóság továbbra is gyenge pont a jelenlegi AI-modellek között” – mondta Dawid Siuda, az ORCA Benchmark társszerzője az 2022 Plusz Nextnek.
A legnagyobb pontosság a matematikában és a konverziókban, a legalacsonyabb a fizikában
Teljesítményük különböző kategóriákban változik. A matematikában és a konverziókban (147 az 500-ból) a Gemini vezet 83 százalékkal, őt követi a Grok 76,9 százalékkal, a DeepSeek pedig 74,1 százalékkal. A ChatGPT 66,7 százalékot ért el ebben a kategóriában.
Az egyszerű átlagos pontosság mind az öt modell esetében 72,1 százalék, ami a legmagasabb a hét kategória közül.
Ezzel szemben a fizika (128 felszólítás) a leggyengébb kategória, mindössze 35,8 százalékos átlagos pontossággal. Grok teljesít a legjobban, 43,8 százalékkal, kissé megelőzve a 43 százalékos Geminit, míg Claude 26,6 százalékra esik vissza.
A hét kategóriában a Gemini és Grok háromban az első helyen állnak, és egyben osztoznak az első helyen.
A DeepSeek pontossága csak 11 százalék biológiában és kémiában
A DeepSeek a legalacsonyabb pontosságot a biológia és a kémia összes kategóriájában, 10,6 százalékkal mérte. Ez azt jelenti, hogy a modell tíz kérdésből nagyjából kilencben nem tudott helyes választ adni.
A legnagyobb teljesítménybeli hiányosságok a pénzügyben és a közgazdaságban jelentkeznek. A Grok és a Gemini 76,7 százalékos pontossági szintet ér el, míg a másik három modell, a ChatGPT, a Claude és a DeepSeek 50 százalék alá esik.
Figyelmeztetés a felhasználóknak: Mindig ellenőrizze még egyszer egy számológéppel
„Ha a feladat kritikus, használjon számológépeket vagy bizonyított forrásokat, vagy legalább ellenőrizze újra egy másik mesterséges intelligencia segítségével” – mondta Siuda.
Négy hiba, amit az AI-modellek elkövetnek
A szakemberek a hibákat négy kategóriába sorolták. A jelentés szerint a kihívás abban rejlik, hogy egy valós helyzetet a megfelelő képletre kell „lefordítani”.
- „Hanyag matematikai” hibák (az összes hiba 68 százaléka). Ezekben az esetekben a mesterséges intelligencia megérti a kérdést és a képletet, de kudarcot vall a tényleges számításban. Ebbe a kategóriába tartoznak a „pontossági és kerekítési problémák” (35 százalék) és a „számítási hibák” (33 százalék).
Például a felszólítás megkérdezte: „Milyen esélyem van arra, hogy 5 golyót húzzak egy lottó 76-ból? Az eredmény „1 az 520521-ből” legyen. A ChatGPT-5 azt találta, hogy „1 a 401397-ben”
2. „Hibás logika” hibák (az összes hiba 26 százaléka). Ezek súlyosabbak, mert azt mutatják, hogy a mesterséges intelligencia megpróbálja megérteni a probléma mögöttes logikáját. Ide tartoznak a „módszer- vagy képlethibák (14 százalék), például a teljesen helytelen matematikai megközelítés, valamint a „hibás feltételezések (12 százalék).
3. „Az utasítások félreolvasása” hibák (az összes hiba 5 százaléka). Ezek akkor fordulnak elő, ha a mesterséges intelligencia nem tudja megfelelően értelmezni, amit a kérdés feltesz. Ilyenek például a „hibás paraméterhibák” és a „hiányos válaszok”.
4. „Feladás” hibák. Egyes esetekben az MI egyszerűen visszautasítja vagy eltéríti a kérdést, ahelyett, hogy megpróbálna válaszolni.
„Gyenge pontjuk a kerekítés – ha a számítás többlépcsős, és bizonyos pontokon kerekítést igényel, a végeredmény általában messze van” – mondta Siuda.
A kutatás a nagyközönség számára ingyenesen elérhető legfejlettebb modelleket használta fel. Minden egyes kérdésre egy, és csak egy helyes válasz volt.






