Коротко
Экспериментатор поручил автономным агентам Claude три задачи ядерной физики нарастающей сложности — от пассивного охлаждения реактора до расчёта топливных частиц TRISO. Агенты справились с точностью в несколько процентов там, где физика была полной, и воспроизвели систематические ошибки отрасли там, где использовали её корреляции.
На сервере за €30 в месяц автор эксперимента Charles AZAM дал автономным AI-агентам Claude три задачи ядерной инженерии — без подсказок по методу и без доступа к опубликованным результатам. Всё прогонялось в автономном режиме, каждый транскрипт опубликован. Общие затраты на API составили около $125.
Argonne National Laboratory построил полумасштабную модель пассивной системы охлаждения: нагретая стена мощностью 220 кВт, воздушный зазор и 20-метровая труба с тягой за счёт плавучести. Агенты получили чертежи без измеренных результатов.
Результаты:
Систематическое отклонение — завышение температуры воздуха на 14–31% — отследили до одного входного параметра, который каждый агент заранее пометил как рискованное допущение.
TRISO — топливо, которое «не может расплавиться»: каждая частица размером с маковое зерно содержит урановое ядро в четырёхслойной оболочке, где критический слой — карбид кремния толщиной ~35 микрон. Безопасность — статистическое свойство миллиардов таких частиц.
IAEA провела бенчмарк: облучённые топливные сферы (~15 000 частиц каждая) выдерживались при 1600–1800 °C с детектором, фиксирующим разрушение каждой частицы. Агентам предстояло воспроизвести эти результаты.
Для третьей задачи — знаменитого теста самоспасения реального реактора — агент самостоятельно установил код Monte Carlo для нейтронно-физических расчётов, загрузил 3,4 ГБ ядерных данных и вычислил собственные физические константы, прежде чем выдать прогноз.
Там, где физика была полной, агенты давали совпадение с лабораторными измерениями в пределах нескольких процентов. Там, где они использовали отраслевые корреляции, они воспроизводили систематические ошибки ядерной индустрии с пугающей точностью. Если в спецификации не хватало физики, агенты её «изобретали».
Каждый крупный промах отслеживался до конкретной причины, причём большинство из них агенты фиксировали заранее. Три независимых AI-аудита с adversarial-подходом поймали автора на преувеличениях — в том числе один заголовочный тезис пришлось полностью отозвать.
Все материалы — транскрипты, модели, оценки — опубликованы в открытом репозитории eng-bench.
Источник: Hacker News - Newest: ""AI" "LLM""