Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 18 мар 2022
Ниже идет перевод из нескольких источников и не более того.
======================
Слой внедрения Keras
======================
Keras предлагает слой Embedding, который можно использовать для нейронных сетей с текстовыми данными.
Требуется, чтобы входные данные были закодированы целым числом, чтобы каждое слово было представлено уникальным целым числом. Этот этап подготовки данных можно выполнить с помощью API Tokenizer, который также предоставляется вместе с Keras.
Слой Embedding инициализируется со случайными весами и изучает встраивание для всех слов в наборе обучающих данных. Это гибкий слой, который можно использовать различными способами, например:
Его можно использовать отдельно для изучения встраивания слов, которое можно сохранить и использовать в другой модели позже.
Его можно использовать как часть модели глубокого обучения, где встраивание изучается вместе с самой моделью.
Его можно использовать для загрузки предварительно обученной модели встраивания слов, типа трансферного обучения.
Слой внедрения определяется как первый скрытый слой сети. Он должен указать 3 аргумента:
================================
Он должен указать 3 аргумента:
================================
input_dim: это размер словаря в текстовых данных. Например, если ваши данные представляют собой целочисленные значения в диапазоне от 0 до 10, то размер словаря будет составлять 11 слов.
output_dim: это размер векторного пространства, в которое будут встроены слова. Он определяет размер выходных векторов из этого слоя для каждого слова. Например, это может быть 32 или 100 или даже больше. Проверьте различные значения для вашей проблемы.
input_length: это длина входных последовательностей, которую вы бы определили для любого входного слоя модели Keras. Например, если все ваши входные документы состоят из 1000 слов, это будет 1000.
Например, ниже мы определяем слой внедрения со словарем 200 (например, слова в целочисленной кодировке от 0 до 199 включительно), векторным пространством 32 измерений, в которое будут встраиваться слова, и входными документами, каждый из которых содержит 50 слов.
Слой внедрения определяется как первый скрытый слой сети. Он должен указать 3 аргумента:
Он должен указать 3 аргумента:
input_dim: это размер словаря в текстовых данных. Например, если ваши данные представляют собой целочисленные значения в диапазоне от 0 до 10, то размер словаря будет составлять 11 слов.
output_dim: это размер векторного пространства, в которое будут встроены слова. Он определяет размер выходных векторов из этого слоя для каждого слова. Например, это может быть 32 или 100 или даже больше. Проверьте различные значения для вашей проблемы.
input_length: это длина входных последовательностей, которую вы бы определили для любого входного слоя модели Keras. Например, если все ваши входные документы состоят из 1000 слов, это будет 1000.