Google и NVIDIA разрабатывают технологию создания текстовых САПР. Как ее следует оптимизировать?

Источник перепечатки статьи: Yangz
Сценарист: Реджи Рэй
Источник: Градиент
Источник изображения: создано инструментом Unbounded AI.
Технология преобразования текста в изображение на основе искусственного интеллекта еще не осела. Однако результат уже очевиден: поток плохих изображений. Конечно, есть некоторые высококачественные изображения, но этого недостаточно, чтобы перевесить потерю в соотношении сигнал/шум: на каждого артиста, которому выгодны обложки альбомов, созданные Midjourney, приходится пятьдесят других, которым выгодны обложки альбомов, созданные Midjourney. Обманут сгенерированными дипфейковыми изображениями. В мире, где пониженное соотношение сигнал/шум является корнем многих бед (например, научных исследований, журналистики, подотчетности правительства), это нехорошо.
Теперь необходимо просматривать все изображения с недоверием. (Конечно, так было уже давно, но по мере увеличения количества случаев дипфейков должна расти и бдительность людей, которая, помимо того, что неприятна, может быть утомительной для когнитивных функций.) Постоянные подозрения – или частые неверные указания – кажутся высокой ценой за цифровой гаджет, который никому не нужен, и который до сих пор не принес особой пользы. Будем надеяться – или, точнее, молиться – соотношение затрат и выгод вскоре придет в нормальное состояние.
Но тем временем нам следует обратить внимание на новый феномен в области генеративного ИИ: генерацию текста в САПР с помощью ИИ. Идея аналогична программе преобразования текста в изображение, за исключением того, что вместо изображения программа возвращает трехмерную модель САПР.
Попросите у ИИ изображение «Моны Лизы, но в Balenciaga», и ИИ преобразует его в 3D-изображение.
Вот некоторые определения. Во-первых, компьютерное проектирование (САПР) относится к программным инструментам, которые позволяют пользователям создавать цифровые модели физических объектов, таких как чашки, автомобили и мосты. (Модели в контексте САПР не имеют ничего общего с моделями глубокого обучения; Toyota Camry ≠ Рекуррентные нейронные сети.) Но САПР тоже важен; попробуйте вспомнить, когда вы в последний раз видели объект, который не был спроектирован в САПР.
Сказав определения, давайте теперь взглянем на крупных игроков, которые хотят войти в мир преобразования текста в САПР: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) и NVIDIA (Magic3D). . Вот примеры от каждой компании:
Крупнейшие игроки не остановили появление стартапов со скоростью почти один в месяц по состоянию на начало 2023 года, причем CSM и Sloyd, пожалуй, наиболее многообещающие.
Кроме того, есть несколько фантастических инструментов, которые можно назвать 2,5D, потому что их результат находится где-то между 2D и 3D. Принцип этих инструментов заключается в том, что пользователи загружают изображение, а затем искусственный интеллект может угадать, как изображение будет выглядеть в трехмерном пространстве.
Кубок Жадности использует искусственный интеллект для преобразования изображения SBF (Сэм Бэнкман-Фрид, изображенный в виде волка в овечьей шкуре и волынщика) в рельеф (Изображение: Реджи Рэй/TOMO)
Нет сомнений в том, что платформа анимации и моделирования с открытым исходным кодом Blender является лидером в этой области. Программное обеспечение для CAD-моделирования Rhino теперь также имеет плагины, такие как SurfaceRelief и Ambrosinus Toolkit, которые могут очень хорошо создавать 3D-карты глубины из обычных изображений.
Сразу стоит сказать, что все это интересно. Как дизайнер САПР, я с нетерпением жду этих потенциальных преимуществ. Инженеры, энтузиасты 3D-печати и дизайнеры видеоигр — среди многих других, кто также получит пользу.
Однако преобразование текста в САПР также имеет множество недостатков, многие из которых являются серьезными. Краткий список выглядит следующим образом:
Открытие двери для массового производства оружия, расистских или других нежелательных материалов
Вызывает волну ненужных моделей, тем самым загрязняя библиотеку моделей.
Нарушает права создателей контента, защищенного авторским правом.
В любом случае, текст в CAD придет, хотим мы этого или нет. К счастью, технические специалисты могут предпринять шаги для улучшения результатов программы и уменьшения ее негативных последствий. Мы определили три ключевые области, в которых такие программы могут улучшиться: курирование наборов данных, языки шаблонов удобства использования и фильтрация.
Насколько нам известно, эти области практически не исследованы в контексте преобразования текста в САПР. Идее языка шаблонов юзабилити будет уделяться особое внимание, поскольку он потенциально может значительно улучшить результаты. Примечательно, что этот потенциал не ограничивается САПР; он может улучшить результаты в большинстве областей генеративного ИИ, таких как текст и изображения.
Управление наборами данных
пассивный сбор
Хотя не все методы преобразования текста в САПР основаны на обучающем наборе 3D-моделей (исключением является Google DreamFusion), наиболее распространенным подходом остаются тщательно подобранные наборы данных моделей. Излишне говорить, что ключевым моментом здесь является создание хорошего набора моделей для обучения.
Ключ к достижению этого двойной. Во-первых, техническим специалистам следует избегать очевидных источников моделей: Thingiverse, Cults3 D, MyMiniFactory. Несмотря на то, что существуют высококачественные модели, подавляющее большинство из них — мусор. (Тема Reddit «Почему Thingiverse так плоха?» иллюстрирует эту проблему). Во-вторых, вам следует искать библиотеки моделей сверхвысокого качества. (Scan the World, вероятно, лучший в мире).
Во-вторых, источники моделей могут быть взвешены по качеству. Студенты магистратуры искусств (MFA), скорее всего, воспользуются возможностью выполнить такую ​​работу по аннотациям, а из-за несправедливости рынка труда им придется платить очень мало.
упреждающее планирование
Кураторство может и должно играть более активную роль. Многие музеи, частные коллекции и дизайнерские компании с удовольствием сканируют свои коллекции промышленного дизайна в 3D. Более того, помимо создания богатого корпуса, сканирование создает мощную запись нашей хрупкой культуры.
Французы смогли восстановить собор Парижской Богоматери после пожара, и всё благодаря технологии 3D-сканирования американца. Фото предоставлено: Эндрю Таллон/Колледж Вассар
обогащать данные
В процессе создания высококачественного корпуса технические специалисты должны тщательно продумать, какое действие они хотят от данных. На первый взгляд, основной вариант использования может заключаться в том, чтобы «дать возможность менеджерам компании по производству оборудования переместить несколько ползунков, вывести желаемый проект продукта, а затем приступить к производству». Однако, если история неудач массовой настройки является каким-либо показателем, этот подход, скорее всего, потерпит неудачу.
Мы считаем, что более эффективный вариант использования — это «предоставить экспертам в предметной области возможности, например, промышленным дизайнерам в компании, занимающейся разработкой продуктов, подсказывать инженерам, пока они не получат правильный результат, а затем провести точную настройку и доработку».
Подобный вариант использования требует чего-то, что может быть неочевидно на первый взгляд. Например, эксперты в предметной области должны иметь возможность загружать изображения эталонных продуктов, как в Midjourney, а затем помечать их на основе их целевых атрибутов — стиля, материала, динамики и т. д. В этом случае может возникнуть соблазн применить фасетный подход, при котором эксперты могут выбирать тип стиля, тип материала и т. д. в раскрывающихся меню. Однако опыт показывает, что обогащение набора данных для создания сегментов атрибутов нецелесообразно. Сервис потоковой передачи музыки Pandora использовал этот ручной подход, но в конечном итоге уступил место Spotify, который полагался на нейронные сети.
Урожай
В строгой области курирования наборов данных было проделано мало работы (за некоторыми исключениями), поэтому мы можем много от этого выиграть. Это должно быть основной целью для компаний и предпринимателей, стремящихся получить конкурентное преимущество в войне преобразования текста в САПР. Большой и богатый набор данных сложно создать и сложно имитировать. Это лучшая «соринка».
С менее корпоративной точки зрения, продуманное управление наборами данных — идеальный способ стимулировать создание красивых продуктов. На сегодняшний день инструменты генеративного ИИ отражают приоритеты своих создателей, но имеют мало общего со вкусом. Мы должны отстаивать важность красоты. Мы должны заботиться о том, очарует ли то, что мы привносим в мир, пользователей и выдержит ли испытание временем. Мы должны быть против нагромождения посредственных продуктов на волну посредственности.
Если некоторые люди считают, что красота не является самоцелью, то, возможно, их убедит две статистики: экологичность и прибыль.
Самые знаковые товары последних 100 лет — кресло Eames, фотоаппарат Leica, скутер Vespa — ценятся их владельцами. Энергетики-энтузиасты их восстанавливают, продают и продолжают использовать. Возможно, их сложная конструкция требовала, чтобы они выбрасывали на 20% больше выхлопных газов, чем их конкуренты в то время. Это не имеет значения. Продолжительность их жизни измеряется четвертями века, а не годами, а это означает, что их потребление и выбросы на самом деле меньше.
Vespa GS 160 1963 года будет продана в 2023 году за 13 000 долларов.
Что касается прибыли, то ни для кого не секрет, что красивые товары стоят дороже. . Технические характеристики iPhone никогда не были сравнимы с техническими характеристиками Samsung. Однако Apple взимает на 25% больше, чем Samsung. Симпатичный малолитражный Fiat 500 не имеет такого хорошего расхода бензина, как F-150. Но неважно, Fiat делает ставку правильно: яппи готовы заплатить дополнительно 5000 долларов за привлекательность.
язык шаблонов юзабилити
Обзор
Языки шаблонов были впервые предложены универсалом Кристофером Александром в 1970-х годах. Он определяется как набор взаимодополняющих шаблонов, каждый из которых описывает проблему проектирования и ее решение. Хотя первый язык шаблонов Александра был нацелен на архитектурное проектирование, он успешно использовался во многих областях (особенно в программировании) и, по крайней мере, в равной степени полезен в области генеративного проектирования.
В преобразовании текста в САПР язык шаблонов состоит из последовательности шаблонов; например, один шаблон для движущихся частей, один шаблон для шарниров (подмножество движущихся частей и, следовательно, один уровень абстракции нижнего уровня) и один шаблон для трения. петли (еще один уровень абстракции). Формат рисунка фрикционного шарнира следующий:
Как и естественный язык, язык шаблонов включает словарь (набор проектных решений), конструкцию (положение решения в языке) и синтаксис (правила, по которым шаблон может решить проблему). Обратите внимание, что приведенный выше шаблон «шарнир трения» является узлом в иерархической сети и может быть визуализирован визуально с помощью направленной сетевой диаграммы.
Эти шаблоны воплощают лучшие практики в основах дизайна — человеческий фактор, функциональность, эстетика и многое другое. Таким образом, результаты этих режимов будут более удобными для использования, более простыми для понимания (избегая проблем с черным ящиком) и более простыми для точной настройки.
Суть в том, что если программа преобразования текста в САПР не учитывает основы проектирования, ее результат будет мусором. Лучше ничего не делать, чем иметь ноутбук, преобразующий текст в CAD, с экраном, который не может оставаться в вертикальном положении.
Из всех этих фундаментальных элементов, пожалуй, самым важным и трудным для рассмотрения является проектирование человеческого фактора. Человеческий фактор, который необходимо учитывать при разработке полезных продуктов, практически безграничен. ИИ должен выявлять и проектировать такие проблемы, как точки защемления, защемление пальцев, неправильное расположение острых краев, эргономические пропорции и многое другое.
упражняться
Давайте рассмотрим практический пример. Предположим, Джейн — промышленный дизайнер в студии ABC Design, которой было поручено разработать футуристический игровой ноутбук. Используя современные технологии, Джейн могла бы использовать программу САПР, такую ​​как Fusion 360, войти в рабочую область генеративного проектирования Fusion и потратить неделю (или месяц), работая со своей командой над определением всех соответствующих ограничений: нагрузок, условий, целевых показателей, свойств материала, и т. д.
Но какой бы мощной ни была рабочая среда генеративного проектирования Fusion, она не может обойти один ключевой факт: пользователи должны обладать значительными знаниями в предметной области, возможностями САПР и временем.
Более приятный пользовательский опыт — просто вводить текст в программу САПР до тех пор, пока его выходные данные не будут соответствовать требованиям пользователя. Такой рабочий процесс, ориентированный на проектирование схемы, может выглядеть следующим образом:
Джейн предлагает свою программу преобразования текста в САПР: «Покажите мне несколько примеров будущих игровых ноутбуков. Вдохновлена ​​формой подставки для ноутбука TOMO и текстурой поверхности королевской кобры».
Полное преобразование текста в CAD замкнет цикл от изображения к технологическому продукту.
Программа выведет шесть концептуальных рисунков, каждый из которых содержит такие шаблоны, как «раскладка клавиатуры», «структура шарниров» и «схема портов бытовой электроники».
Джейн могла бы ответить: «Дайте мне несколько вариантов изображения 2. Сделайте экран более втянутым, а клавиатуру более текстурированной».
Джейн: «Мне нравится третий, какие параметры?»
Система перечисляет 20 параметров — длину, ширину, высоту монитора, плотность клавиш и т. д. — на основе поля «решение» для шаблона, который она считает наиболее подходящим.
Джейн замечает, что тип петли не указан, и вводит «Добавить параметр типа петли в список и экспортировать модель САПР».
Она открыла модель в Fusion 360 и была рада видеть, что были добавлены соответствующие фрикционные петли. Наряду с параметризацией шарнира она увеличила параметр ширины, поскольку знала, что клиенты Studio ABC хотят, чтобы экран выдерживал интенсивное использование.
Джейн продолжала вносить коррективы, пока не осталась полностью удовлетворена формой и функциями. Таким образом, она могла бы передать его своему коллеге Джо, инженеру-механику, который проверил бы его и увидел, какие нестандартные детали можно заменить стандартными версиями.
В итоге руководство Studio ABC будет доволено, ведь процесс проектирования ноутбука сократился в среднем с 6 месяцев до 1 месяца. К их большому удовольствию, благодаря параметрической технологии любые модификации, запрошенные клиентами, могут быть быстро внесены без необходимости перепроектирования.
тщательно фильтровать
Как отметила в недавнем интервью специалист по этике ИИ Ирен Сулейман, генеративный ИИ срочно нуждается в радикальных мерах защиты. Даже при использовании подхода на языке шаблонов генеративный ИИ сам по себе не может предотвратить плохой результат. Здесь на помощь приходят ограждения.
Мы должны иметь возможность обнаруживать и отклонять запросы об оружии, запекшейся крови, материалах о сексуальном насилии над детьми (CSAM) и другом нежелательном контенте. Технологи, опасающиеся судебных исков, могут добавить в этот список продукты, защищенные авторским правом. Однако, если говорить по опыту, нежелательные подсказки могут составлять значительную часть запросов.
Многие из этих требований будут выполнены, как только исходный код модели преобразования текста в САПР станет открытым или произойдет утечка информации. (Если сага Defense Distributed нас чему-то и научила, так это тому, что джинн никогда не возвращается в бутылку; благодаря недавнему постановлению в Техасе американцы теперь могут легально скачать AR-15, распечатать его в 3D и... если он почувствует угрозу -- можно использовать его, чтобы застрелить кого-нибудь).
Кроме того, нам нужны широко распространенные критерии эффективности, аналогичные тем, которые возникают в рамках LLM. В конце концов, если вы не можете это измерить, вы не сможете это улучшить.
____
Подводя итог, можно сказать, что появление технологии преобразования текста в САПР на основе искусственного интеллекта несет в себе как риски, так и возможности, причем соотношение между ними все еще неясно. Распространение некачественных CAD-моделей и токсичного контента — это лишь некоторые из проблем, требующих немедленного внимания.
Технические специалисты также могут уделить полезное внимание некоторым игнорируемым областям. Контроль набора данных имеет решающее значение: нам необходимо отслеживать высококачественные модели из высококачественных источников и изучать другие методы, такие как сканирование коллекций промышленных образцов. Язык шаблонов юзабилити может обеспечить мощную основу для внедрения лучших практик проектирования. Кроме того, язык шаблонов обеспечит мощную основу для генерации параметров модели САПР, которые можно будет точно настраивать до тех пор, пока модель не будет соответствовать требованиям для ее использования. Наконец, необходимо разработать комплексные технологии фильтрации, чтобы предотвратить создание опасного контента.
Мы надеемся, что идеи, представленные в этой статье, помогут технологам избежать ловушек, с которыми до сих пор сталкивался генеративный ИИ, и улучшить способность преобразования текста в САПР создавать хорошие модели, которые принесут пользу многим людям, которые будут их использовать.