Entgegen anderslautender Behauptungen können LLMs keine nicht-trivialen mathematischen Probleme lösen. Sie faseln irgendwas rum und Menschen merken es nicht mal. So ein Befürworter, der mit einem Beweis das Gegenteil Beweisen wollte. Leider ist der Beweis falsch. Wie peinlich.
https://garymarcus.substack.com/p/reports-of-llms-mastering-math-have
Ernest Davis und Gary Marcus haben darüber geschrieben:
„The refusal of these kinds of AI to admit ignorance or incapacity and their obstinate preference for generating incorrect but plausible-looking answers instead are one of their most dangerous characteristics. It is extremely easy for a user to pose a question to an LLM, get what looks like a valid answer, and then trust to it, without doing the careful inspection necessary to check that it is actually right.“
„If this kind of technology becomes commonly used to answer difficult questions before the problem of generating invalid answers is fixed, we will be in serious trouble.“
Und übrigens: Symbolische KI ist anders: Entweder die System können das oder sie können es nicht. Dann ist aber auch klar, dass sie es nicht können:
„Importantly, the neurosymbolic method used by DeepMind’s AlphaProof and AlphaGeometry systems (which we discussed recently) which (more or less) achieved a silver-medal level performance on the 2024 International Math Olympiad, is immune to this problem. AlphaProof and AlphaGeometry generate a completely detailed symbolic proof that can be fed into a formal proof verifier. They can fail to find a proof, but they cannot generate an incorrect proof. But that is because they rely in part on powerful, completely hand-written, symbolic reasoning systems. LLMs are not similarly immune.“
Nestler ist die Person, die auf X behauptet hat: Klar können die LLMs das:
„So Nestler’s experiment does not contradict the finding of the report; it corroborates it. o3, yet again, produced an invalid answer to this problem. It also confirms how dangerous this kind of failing is. The AI output a “proof” that looked plausible to Nestler led Nestler to make a fool of himself in public by outrageously accusing reputable scientists of fakery. (To a trained mathematician, the error in Nestler’s own proof is pretty obvious once pointed out.)“
Und dies:
„If indeed the AIs could solve more of these problems with better prompts, then that’s evidence in favor of their mathematical ability but it’s evidence against their ability to judge the right thing to do on their own.“
Den Olympiadeteilnehmern muss man nicht sagen, dass sie sich Mühe geben sollen und keinen Bullshit abgeben sollen. =:-)
„The really important challenge is not to get the AIs to solve more #USAMO problems; it is to get them to say “I give up” when they can’t. And we have yet to see any evidence that any kind of prompt helps in that regard.“
Und hier noch mal zu den Hausarbeiten: Ein großes Problem der Menschheit ist Dummheit bzw. Unwissenheit. Jetzt im Zeitalter der #LLM-basierten #KI kommt Leichtgläubigkeit dazu. Als Wissenschaftler*in muss man lernen, Dinge zu hinterfragen, denn nur, wenn man das, worauf man aufbaut, verbessert, wird man irgendwohin gelangen.
Wenn man aber unwissend und schnell zufrieden ist, bemerkt man nicht einmal, welchen Schrott man fabriziert.