Добавил:
Кафедра ВТ Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Проект / НС_проект_отчёт.docx
Скачиваний:
3
Добавлен:
07.04.2023
Размер:
1.22 Mб
Скачать

Принципы предыдущих архитектур

Изначально мы создавали собственные классы архитектур, загружали данные в тензоры, однако результат от использования данных архитектур был крайне неудовлетворительный. Затем мы решили взять за основу те архитектуры, что мы получили в ходе лабораторных и практических занятий. Результат был также крайне низкий.

Сейчас мы опираемся именно на трансферное обучение, так как они имеют pre-trained weights, упрощающие работу с датасетом. Transfer Learning – это применение некой предобученной на ином датасете модели, которая подходит под дообучение и применение на другом датасете с получением вменяемого результата. Transfer Learning позволяет остановиться на особенностях конкретного датасета, в том числе на его обучении, вместо написания полностью новой архитектуры, что потребовало бы время на её адаптацию для нормального результата – от гиперпараметров до весов и нейронов. Это и упрощает создание новой нейронной сети.

Мы рассматривали архитектуры VGG11bn (batch normalization, с batch-нормализацией), Resnet34 и MobileNet (V3 small) с легковесными весами. Мы выбирали различные модели по их свойствам – “Accuracy1”, “Accuracy2”, “Params” и “GFlops”. Мы брали за основу модель MobileNet (V3 small) с легковесными весами, так как при этом точность предсказанных значений была наибольшая, обучение становится дешевле, и в конечном счёте модель будет меньше весить.

Мы исходили из того чтобы изначально использовать конфигурацию А, так как в ней всего 11 слоев. Сеть состоит из серии сверточных слоев с небольшими фильтрами 3x3, за которыми следуют максимальные объединяющие слои и увенчаны несколькими полностью связанными слоями. VGG 11 достиг самой современной производительности в задачах распознавания изображений и широко используется в качестве базовой архитектуры для сравнения с другими моделями.

Эти архитектуры (VGG11bn, Resnet34 и MobileNet [V3 small]) крайне хорошо вписываются к датасету. Сама модель, выбранная или создаваемая, будет очень сильно зависеть от датасета, так как его данные могут подходить под одну архитектуру, но не подходить под другую. То есть производительность этих моделей будет зависеть от конкретного варианта использования, а также от размера и сложности используемого набора данных. Модели VGG, как правило, более сложные и точные, тогда как модели MobileNet более лёгкие и эффективные. В конечном счёте, выбор моделей зависит от конкретных требований к проекту.

В нашем проекте произведено сравнение VGG11bn и MobileNet [V3 small], то есть сравнение архитектур, которые показали в нашем случае лучшие результаты. VGG11 с пакетной нормализацией и MobileNet V3 с облегчёнными весами являются моделями глубокого обучения для задач классификации изображений. VGG11 – это глубокая свёрточная нейронная сеть, состоящая из 11 слоёв, а MobileNet V3 с облегчёнными весами – это облегчённая модель, специально разработанная для мобильных устройств. Обе модели используют пакетную нормализацию как способ улучшения производительности модели.

Несмотря на то, что VGG11bn даёт достаточно хорошие результаты, он всё равно много весит. Например, одна сохранённая архитектура VGG весила около 500 Мб, что делало выполнение проекта крайне затруднительным.

В итоге, у нас имелись следующие принципы предыдущих архитектур:

  1. Наследование класса Dataset – Мы пытались создать класс датасета для упрощения работы с файловой структурой. Однако из-за накладных ограничений пришлось отказаться от этой идеи.

  2. Добавление больших блоков – Мы пытались добавлять как можно больше блоков, но в таком случае возрастает объём памяти модели (Мб), поэтому мы отказались от этой идеи.

  3. Вспомогательный класс – Мы пытались добавить вспомогательный класс регулятора, чтобы не считать коэффициенты свёртки, но это, к сожалению, не помогло.

Вывод

В конечном итоге мы пришли к тому, что модель VGG11 работает хорошо и часто используется в качестве базовой архитектуры для сравнения с другими моделями. Выбор архитектуры зависит от конкретного используемого набора данных, поскольку некоторые из них могут работать лучше, чем другие для определенных наборов данных. Кроме того, производительность модели сильно зависит от размера и сложности используемого набора данных. Наконец, модели VGG, как правило, более сложные и точные, тогда как модели MobileNet легче и эффективнее, а выбор модели в конечном итоге зависит от конкретных требований проекта.

Использование предобученных моделей позволило повысить эффективность результата, и показало, что сложные оптимизированные нейронные сети, обученные на давать лучший результат. Но для более точного результата необходимо создавать собственную архитектуру с нуля, с учётом конкретных требований проекта.

Санкт-Петербург

2023

Соседние файлы в папке Проект