Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Как информационные технологии повлияли на теоретическую математику?

МатематикаИнформационные технологии
Анонимный вопрос
  · 1,7 K
Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of...  · 31 дек 2021
Facebook AI создал первую систему AI, которая может решать сложные математические уравнения с использованием символических рассуждений.
======================
Разработав новый способ представления сложных математических выражений как своего рода языка, а затем рассматривая решения как проблему преобразования для нейронных сетей с последовательностью в последовательность, мы построили систему, которая превосходит традиционные вычислительные системы при решении задач интегрирования и как в первую, так и в другую сторону - дифференциальные уравнения второго порядка. Ранее такие проблемы считались недоступными для моделей глубокого обучения, поскольку решение сложных уравнений требует точности, а не приближения. Нейронные сети преуспевают в обучении с помощью аппроксимации, например, распознавания того, что определенный образец пикселей, вероятно, является изображением собаки или что особенности предложения на одном языке совпадают с характеристиками на другом. Решение сложных уравнений также требует умения работать с символьными данными, такими как буквы в формуле b - 4ac = 7. Такие переменные нельзя напрямую складывать, умножать или делить, используя только традиционное сопоставление с образцом или статистический анализ. нейронные сети были ограничены чрезвычайно простыми математическими задачами.
Нашим решением стал совершенно новый подход, который рассматривает сложные уравнения как предложения в языке. Это позволило нам использовать проверенные методы нейронного машинного перевода (NMT), обучающие модели, чтобы по существу переводить проблемы в решения. Реализация этого подхода потребовала разработки метода разбиения существующих математических выражений на синтаксис, подобного языку, а также создания крупномасштабного набора обучающих данных из более чем 100 миллионов парных уравнений и решений.
При представлении тысяч невидимых выражений - уравнений, которые не были частью обучающих данных - наша модель работала со значительно большей скоростью и точностью, чем традиционное программное обеспечение для решения уравнений на основе алгебры, такое как Maple, Mathematica и Matlab. Эта работа не только демонстрирует, что глубокое обучение может использоваться для символических рассуждений, но также предполагает, что нейронные сети обладают потенциалом для решения более широкого круга задач, в том числе тех, которые обычно не связаны с распознаванием образов. Мы делимся - подробности о нашем подходе а также методы, помогающие другим создавать аналогичные обучающие наборы.
================================
Новый способ применения NMT
================================
Люди, особенно хорошо разбирающиеся в символической математике, часто полагаются на своего рода интуицию. У них есть представление о том, как должно выглядеть решение данной проблемы - например, наблюдение за тем, что если в функции, которую мы хотим интегрировать, есть косинус, то в ее интеграле может быть синус - а затем выполнить необходимую работу, чтобы Докажите это. Это отличается от прямого вычисления, необходимого для алгебры. Обучая модель обнаруживает закономерности в символических уравнениях, мы полагали, что нейронная сеть может собрать воедино ключи, ведущие к их решениям, примерно так же, как при подходе к сложным проблемам, основанном на интуиции человека. Итак, мы начали исследовать символические рассуждения как проблему NMT, в которой модель может предсказывать возможные решения на основе примеров проблем и соответствующих им решений.
Чтобы реализовать это приложение с нейронными сетями, нам нужен новый способ представления математических выражений. Системы NMT обычно представляют собой модели от последовательности к последовательности (seq2seq), использующие последовательности слов в качестве входных данных и выводящие новые последовательности, что позволяет им переводить полные предложения, а не отдельные слова. Мы использовали двухэтапный подход, чтобы применить этот метод к символьным уравнениям. Во-первых, мы разработали процесс, который эффективно распаковывает уравнения, помещая их в ветвящуюся древовидную структуру, которая затем может быть расширена в последовательности, совместимые с моделями seq2seq. Константы и переменные действуют как листья, а операторы (такие как плюс и минус) и функции являются внутренними узлами, которые соединяют ветви дерева.
Хотя это может не выглядеть как традиционный язык, подобная организация выражений обеспечивает синтаксис для уравнений, подобный языку: числа и переменные являются существительными, а операторы действуют как глаголы. Наш подход позволяет модели NMT научиться согласовывать шаблоны данной древовидной проблемы с ее подходящим решением (также выраженным в виде дерева), подобно сопоставлению предложения на одном языке с его подтвержденным переводом. Этот метод позволяет нам использовать мощные готовые модели seq2seq NMT, заменяя последовательности слов на последовательности символов.
=========================
Создание нового набора данных для обучения
=========================
Хотя наш синтаксис дерева выражений теоретически позволял модели NMT эффективно преобразовывать сложные математические задачи в решения, для обучения такой модели потребуется большой набор примеров. И поскольку в двух классах задач, на которых мы сосредоточились, - интегрировании и дифференциальных уравнениях - случайно сгенерированная проблема не всегда имеет решение, мы не могли просто собрать уравнения и ввести их в систему. Нам нужно было сгенерировать совершенно новый обучающий набор, состоящий из примеров решаемых уравнений, реструктурированных в виде удобочитаемых деревьев выражений. В результате возникли пары «проблема-решение», похожие на корпус предложений, переведенных с одного языка на другой. Наш набор также должен быть значительно больше, чем обучающие данные, использованные в предыдущих исследованиях в этой области, которые пытались обучить системы на тысячах примеров. Поскольку нейронные сети обычно работают лучше, когда у них больше обучающих данных, мы создали набор с миллионами примеров.
=======================
Создание этого набора данных потребовало от нас включения ряда методов очистки и генерации данных. Например, для наших уравнений символьного интегрирования мы изменили подход перевода: вместо того, чтобы генерировать проблемы и находить их решения, мы генерировали решения и находили их проблему (их производную), что является гораздо более простой задачей. Такой подход к созданию проблем на основе их решений - что инженеры иногда называют проблемами с лазейками - сделал возможным создание миллионов примеров интеграции. Получившийся в результате набор данных, вдохновленный переводом, состоит из примерно 100 миллионов парных примеров с подмножествами задач интеграции, а также дифференциальных уравнений первого и второго порядка.
Мы использовали этот набор данных для обучения модели трансформатора seq2seq с восемью головами внимания и шестью слоями.
Трансформаторы обычно используются для задач перевода, и наша сеть была построена для прогнозирования решений для различных типов уравнений, таких как определение примитива для заданной функции. Чтобы оценить производительность нашей модели, мы представили ей 5000 невидимых выражений, заставив систему распознавать закономерности в уравнениях, которые не появлялись при ее обучении. Наша модель продемонстрировала точность 99,7% при решении задач интегрирования и точность 94% и 81,2% соответственно для дифференциальных уравнений первого и второго порядка. Эти результаты превзошли результаты всех трех традиционных решателей уравнений, с которыми мы тестировали. Mathematica достигла следующих лучших результатов: точность 84% для тех же задач интегрирования и 77,2% и 61,6% для результатов дифференциальных уравнений. Наша модель также вернула большинство прогнозов менее чем за 0,5 секунды, в то время как другим системам потребовалось несколько минут, чтобы найти решение, а иногда и полностью истекло время ожидания.
Что будет дальше с искусственным интеллектом, решающим уравнения
Наша модель в настоящее время работает с проблемами с одной переменной, и мы планируем расширить ее до уравнений с несколькими переменными. Этот подход также может быть применен к другим областям, основанным на математике и логике, таким как физика, что потенциально может привести к созданию программного обеспечения, которое помогает ученым в широком спектре работ.
Но наша система имеет более широкое значение для изучения и использования нейронных сетей. Обнаружив способ использования глубокого обучения там, где это ранее считалось невозможным, эта работа предполагает, что ИИ может принести пользу другим задачам. Будь то дальнейшее применение методов НЛП к областям, которые традиционно не были связаны с языками, или еще более открытыми исследованиями распознавания образов в новых или, казалось бы, несвязанных задачах, воспринимаемые ограничения нейронных сетей могут быть ограничениями воображения но не технологии.
1/14/2020