Интервью с основателем Grass: Почему вам стоит участвовать в децентрализованном предоставлении данных ИИ?

Написал: АЙЛО
Составил: Deep Wave TechFlow
Grass — очень интересный проект, и ожидается, что он будет запущен в сети в первом или втором квартале. У Grass уже более 500 000 пользователей. Когда Grass Network выйдет в сеть, это будет один из крупнейших криптопротоколов на рынке только с точки зрения количества пользователей, и он создаст новые потоки доходов для всех, у кого есть подключение к Интернету.
Грасс сочетает в себе несколько разных бычьих нарративов: ДеПин + ИИ + Солана. В этой статье у вас будет возможность услышать мнение основателя Grass 0xdrej, который раскрыл много важной информации. Это длинная, но заслуживающая внимания статья, в которой мы обсуждаем, что такое Grass, как она работает, почему она выбрала Solana и многое другое.
Что привлекло вас в криптовалюте?
0xdrej: Да, наверное, я упустил много возможностей на раннем этапе, когда начал заниматься криптовалютами. Я думаю, что это верно для многих людей. Впервые я услышал о криптовалютах в старшей школе, потому что один из моих одноклассников майнил биткойны на своем ноутбуке. С тех пор я ничего о нем не слышал, но уверен, что сейчас с ним все в порядке. И я действительно участвовал в сборщике Doge еще в 2014 году, когда Doge был впервые запущен, но потерял доступ к этой учетной записи. Так что, я думаю, это были два моих самых ранних опыта работы с криптовалютами, но я не углублялся в исследования и разработки, пока несколько лет назад не начал заниматься DeFi.
Я некоторое время работал в финансовой сфере и хорошо знаком с рабочим механизмом традиционной финансовой индустрии. Очень интересно видеть, как группа обычных людей перестраивает целую инфраструктуру на блокчейне. Знаете, существует много общего между традиционными финансами и всем, что происходит в сети, и это безумие, главным образом потому, что это гигантский неизменяемый реестр. Так что да, я начал участвовать в некоторых протоколах DeFi несколько лет назад.
Какова высота лифта Грасса? Как вы это объясните на высоком уровне?
0xdrej: Нам нравится называть это уровнем предоставления данных для децентрализованного ИИ. По сути, это означает, что у нас есть сеть из более чем 500 000 веб-расширений, которые сканируют общедоступный Интернет, делают снимки веб-сайтов и загружают их в базу данных.
Идея здесь в том, что, поскольку мы можем обрабатывать и распределять всю эту вычислительную мощность параллельно, а также эти домашние представления Интернета (что важно, поскольку веб-сайты обычно показывают потребителям то, что они хотят показать публике, а не центры обработки данных или традиционные продукты), поэтому мы можем создавать наборы данных, которые невозможно создать в других репозиториях.
Итак, были некоторые сравнения. Один из них похож на децентрализованного оракула для искусственного интеллекта, а остальные представляют собой децентрализованные версии обычного сканирования. Но да, в конце концов, это массивный протокол данных, ориентированный на данные общедоступных сетей.
Итак, позволив любому участвовать в этой сети и интегрировать блокчейн, вы обнаружите, что можете конкурировать с существующими решениями, верно?
0xdrej: Мы попробовали несколько разных бизнес-моделей. Очевидно, что когда вы создаете такой протокол, вы можете просто платить людям немного за неиспользованную полосу пропускания. Например, вы можете назначить им фиксированную ставку за гигабайт, а затем использовать эту полосу пропускания для сканирования больших наборов данных, извлечения из них информации и монетизации этой информации. От слоя очистки до уровня набора данных и уровня аналитики — вы получаете небольшую прибыль на каждом этапе пути.
Обычно это делают разные организации, и пользователи, обеспечивающие пропускную способность (которая обеспечивает все это), видят только эту крошечную фиксированную ставку за гигабайт или часто не видят ее вообще, потому что они установили SDK в бесплатное приложение. и он просто перерабатывает полосу пропускания. Мы не считаем это справедливым.
Мы подумали: хорошо, как нам создать механизм пула ценностей, чтобы компенсировать пользователям всю вертикали? Следовательно, если кто-то использует данные, просканированные вашим узлом Grass, для вывода модели искусственного интеллекта, компенсация должна получить ваш узел Grass, а не только необработанные данные. Надеюсь, это имеет смысл. Это одна из больших проблем, которые мы хотим решить в сети.
Еще одна проблема, которая становится все более заметной, — это проблема загрязненных наборов данных. Это новая проблема, но она существует в мире электронной коммерции уже много лет.
Например, если вы парсили сайт электронной коммерции, такой как eBay, и хотели каждый день собирать цены на все его товары, вам нужно было бы парсить примерно 30 миллионов SKU каждый день. eBay понимает, что если они заблокируют ваш IP-адрес, вы поменяете свой IP. Итак, они устанавливают ценовую ловушку. Если они обнаружат, что вы пытаетесь их перехватить и занизить цену, они назовут вам фальшивые цены. Мы испытали это на первых порах работы с Grass и сравнили это с использованием центра обработки данных.
Эти стратегии электронной коммерции постепенно переросли в рекламные технологии. Поскольку за последние полтора года HoloLens стремительно развивалась, она фактически перетекла и в область наборов данных НЛП (обработка естественного языка).
Итак, если вы были политиком и знали, что определенный набор данных будет использоваться для обучения модели, вы могли бы связаться с человеком, который управляет этим набором данных, и попросить его вставить, скажем, тысячу предложений в пользу конкретного кандидата. . Аналогичным образом, компании предлагают деньги за вставку фейковых отзывов в наборы данных, уже собранные в Интернете.
Решить эту проблему очень сложно, не так ли? Потому что, как вы, наверное, знаете, наборы обучающих данных LLM — это не просто гигабайты или терабайты, а петабайты данных, буквально миллионы гигабайт.
Поэтому крайне нереалистично ожидать, что кто-либо, обучающий LLM, проверит, действительно ли набор данных поступает с заявленного веб-сайта. Например, если я заявляю, что сканирую весь контент Medium, это, вероятно, около 50 миллионов статей, но нет никакой гарантии, что этот контент на самом деле является контентом этих статей Medium.
Для решения этой проблемы хорошим решением является zk-TLS (безопасность транспортного уровня с нулевым разглашением). Честно говоря, это возможно только на блокчейне с высокой пропускной способностью.
Идея состоит в том, что после децентрализации эти узлы будут отправлять доказательства запросов по мере сканирования Интернета. Они отправляют запрос на подтверждение, а затем наш заказчик (сейчас централизованный, но мы планируем децентрализовать) делегирует смарт-контракту определенное количество токенов.
Контракт разблокируется при получении запроса на утверждение. Теперь вы действительно можете связать это подтверждение запроса с сетевым ответом от этого задания по очистке, а затем непосредственно с набором данных. Внезапно у вас есть криптографическое доказательство того, что эти строки в этом наборе данных действительно поступили с этих веб-сайтов и были очищены в определенную дату и время.
Это мощно, потому что такого механизма даже не существует в Web 2.0 и возможно только с использованием блокчейна.
Можете ли вы немного рассказать о том, что такое «война данных» и как в ней участвует Грасс?
0xdrej: Как я уже намекал ранее, первой отраслью, которая начала блокировать данные, была электронная коммерция, потому что в то время это были наиболее напрямую монетизируемые наборы данных. По мере развития технологий и углубления нашего понимания лингвистических данных этот тип данных становится чрезвычайно ценным. Однако до сих пор языковые данные не имели такой большой ценности, как сейчас. Поэтому многие веб-сайты лишь недавно нашли способы монетизировать эти языковые данные. Затем они начали понимать, насколько мощными были эти данные, и начали блокировать Интернет.
Например, около полугода назад Илон Маск начал ограничивать ставки в Твиттере для всех, потому что его парсили. Раньше Твиттер не блокировал веб-скрейперы, но Илон Маск понял ценность данных Твиттера и захотел использовать их для обучения своего собственного ИИ. Это именно то, что мы предсказывали, и именно это и произошло.
Другой пример — Reddit, который накладывает различные ограничения на свой API. Чего вы, возможно, не знаете, так это того, что две трети общих парсинговых библиотек, обученных GPT, на самом деле черпаются из Reddit.
Reddit не совсем понимает, насколько ценны их данные. Это особенно ценно из-за того, как работает система Reddit: люди задают вопросы, люди отвечают, и за лучшие ответы голосуют «за», а за плохие ответы — «против». На Reddit есть группа людей, которые вручную обучают данные, которые могут войти в модель.
Мы предсказываем, что сейчас идет война данных, и все эти веб-сайты пытаются заблокировать свои данные. Они даже открыли бэкдоры для нескольких крупных технологических компаний, сделав ИИ недоступным для обычных разработчиков с открытым исходным кодом. Это немного пугает и несет в себе много рисков централизации.
Еще один отличный пример — Medium. Несколько месяцев назад генеральный директор Medium написал в блоге сообщение о том, как веб-скребки вводят статьи Medium в модели искусственного интеллекта. Он рассказывает о том, как загрязнить эти наборы данных, заблокировать парсеры и сделать их максимально недоступными. Вот почему сложно просматривать Medium без регистрации учетной записи.
Это делает невозможным использование Интернета обычными людьми, поскольку компании пытаются изолировать свои данные.
Генеральный директор Medium также упомянул, что они разрешают Google доступ к своим данным. Обычные люди не могут правильно перемещаться по своему веб-сайту, но Google может просканировать его, чтобы бесплатно обучить свои модели искусственного интеллекта. Он объяснил почему: Google будет отдавать предпочтение Medium в поиске Google в обмен на доступ. Это показывает, насколько ценно иметь поисковую систему, в которой вы можете платить за свои языковые данные, уделяя приоритетное внимание SEO. Это следующая большая волна в войне данных.
Все эти компании борются за данные, пытаются их заблокировать, пытаются получить правильную цену за то, что никогда не оценивалось в истории человечества. Обычные люди стали соучастниками, и эти данные доступны лишь немногим учреждениям, что несправедливо.
Что безумно, так это то, что теперь есть авторитетные игроки, которые парсят такие сайты, как Reddit, устанавливая SDK в приложения, которые миллионы людей скачивают бесплатно. Допустим, вы скачали заставку Roku TV или несколько бесплатных мобильных игр. Разработчики получают оплату за установку SDK, который позволяет этим крупным компаниям использовать вашу пропускную способность для сканирования веб-сайтов с вашего домашнего IP-адреса, поскольку их IP-адрес заблокирован. Ирония в том, что мы всегда соглашаемся с этими условиями, а их аргументация такова: «Эй, вы получаете продукт без рекламы. Они утверждают, что именно так вы получаете вознаграждение». Но мы прекрасно знаем, что ценность рекламы гораздо меньше ценности используемых данных.
Наша философия в Grass заключается в том, что если начнется информационная война, мы, возможно, не сможем ее остановить, но у нас должен быть хотя бы шанс принять в ней участие. У нас должен быть выбор: либо продавать оружие в информационной войне, либо создать гигантский набор открытых данных для Интернета, который каждый сможет использовать для обучения своих собственных моделей ИИ.
Легко ли людям участвовать в Grass и получать какие-то преимущества?
0xdrej: Сеть в настоящее время находится на стадии бета-тестирования и очень проста. Потому что необходимое вам оборудование уже имеется на вашем устройстве. Все, что вам нужно сделать, это получить реферальный код. Затем вы просто создаете учетную запись или мобильное приложение Saga, и все готово, а процесс начала работы проходит очень гладко.
Одна из проблем, с которой мы столкнулись в последнее время, заключается в том, что число пользователей росло намного быстрее, чем мы ожидали. Поэтому по мере масштабирования нашей инфраструктуры люди могут столкнуться с некоторыми проблемами.
Как вы думаете, насколько велик этот рынок?
0xdrej: В настоящее время мы ориентируемся на две вертикали, а может быть и на три, каждая из которых имеет разный размер рынка.
Первая — это альтернативная индустрия данных, рынок которой, по моему мнению, составляет 20 миллиардов долларов. Под альтернативными данными я в основном имею в виду данные, используемые хедж-фондами. Например, если вы ищете цены и ассортимент в определенных магазинах, вы можете оценить квартальную прибыль компании. Хедж-фонды платят за эту информацию.
Сам рынок веб-скрапинга, хотя он еще только зарождается и в настоящее время оценивается в миллиарды долларов, значительно растет. Причина такого огромного роста кроется в третьем рынке — искусственном интеллекте.
Размер рынка данных ИИ сейчас очень сложно оценить количественно. Размер его рынка, вероятно, будет расти в геометрической прогрессии с каждым днем, и нам трудно его оценить. Но когда вы видите, что некоторые люди говорят о продаже данных в наборы данных ИИ, вы понимаете, что это огромная возможность.
Итак, станет ли Grass более ценным и конкурентоспособным по мере увеличения числа пользователей?
0xdrej: Да, это отличный вопрос. Чем больше сеть, тем она жизнеспособнее.
В качестве примера я могу привести hivemapper, который, на мой взгляд, является очень крутым продуктом и идеей. Если вы хотите нанести на карту весь мир, но вокруг ездят только 10 машин, вы получите только небольшую часть карты. Это может быть полезно для некоторых очень специфических небольших приложений, но оно не очень универсально.
Однако если бы у вас были миллионы водителей, нанесших на карту все дороги мира, вы могли бы нарисовать более полную картину. Тогда вы сможете продавать более качественный продукт с более высокой премией, и юнит-экономика станет намного лучше для всех участников.
Если задуматься, Грасс, по сути, составляет карту всего Интернета.
Итак, позвольте мне привести еще один пример: это приложение не имеет ничего общего с ИИ, но является частью огромной индустрии — авиабилетов, путешествий и отелей. Если вы агрегатор путешествий, вы хотите получить лучшее предложение от каждого поставщика в каждом месте. Например, цена на рейс из Берлина в Сингапур может выглядеть иначе из Нью-Йорка, чем из Берлина. Сайты агрегирования путешествий должны знать цену каждого рейса для как можно большего количества IP-адресов, чтобы иметь лучший продукт. Теперь, если у них есть IP-адреса только из Сингапура, Китая и нескольких мест в Соединенных Штатах, и кто-то пытается летать между двумя местами в Европе, им будет очень сложно узнать правильную цену. По мере масштабирования сеть открывает больше вариантов использования, и это очень интересно.
Думаете ли вы, что по мере роста сети вознаграждение пользователей будет уменьшаться? Или баланс находится по мере того, как сеть становится более прибыльной?
0xdrej: В ответ на этот вопрос я постараюсь не делать каких-либо прогнозных заявлений. Первая переменная заключается в том, что сеть сейчас очень близка к доступности, поэтому в период бета-тестирования мы решили компенсировать время безотказной работы. Мы не планируем бесконечно вознаграждать пользователей за время, проведенное в сети.
Итак, сейчас единственный раз, когда вы можете зарабатывать баллы только за то, что ваше устройство находится в сети. В дальнейшем узлы будут получать компенсацию только за фактическое использование полосы пропускания. Когда дело доходит до баланса, отличным примером является поездка, о которой я упоминал ранее.
В этой области никогда не может быть достаточно узлов. Чтобы сайты-агрегаторы путешествий оставались конкурентоспособными, наиболее конкурентоспособным веб-сайтом-агрегатором на самом деле является агрегатор с наибольшим количеством узлов. Так что, если вы сможете это разблокировать, они просто передадут по сети больше контента и увеличат пропускную способность.
Что побудило вас заняться разработкой на Солане?
0xdrej: Наличие цепочки с высокой пропускной способностью, очевидно, очень важно для того, что мы пытаемся сделать. Когда Grass Network выйдет в сеть, она станет одним из криптографических протоколов с наибольшим количеством пользователей. Это требует очень низкой платы за газ, чтобы мотивировать пользователей. Solana на данный момент является самой экономичной и, возможно, самой быстрой сетью. Некоторые из предстоящих обновлений, такие как FireDancer, очень интересны, поскольку параллельные транзакции — это именно то, что нам нужно.
На Solana существует множество протоколов DePin, и с точки зрения развития бизнеса мы хотели бы работать с некоторыми другими протоколами DePin. Одна вещь, которую мы находим действительно интересной, это то, что у Solana есть собственный телефон, и мы считаем, что распространение телефонов Solana будет только расти. Это то, чего не может предложить ни одна другая сеть. Для нас установка приложения на телефон Solana была очевидным выбором.
Обращались ли вы за вдохновением к другим проектам в сфере DePin, например к Helium?
0xdrej: Конечно, вся идея DePin на самом деле касается вас самих. Вы не только платите слишком много за многие вещи в жизни, но и лишаетесь вещей, которые могли бы принести вам деньги.
Недавнее стремление Депина к децентрализации и некоторые вещи, которые делают Helium Mobile и Saga Mobile, например, открывают глаза всем. Это похоже на то, что в моем распоряжении так много ресурсов, но во многих случаях эти ресурсы у меня украли. Но теперь люди видят другой путь, где у вас есть право не принимать происходящее. Это очень мощно, и я не хочу это пропустить. Так что мы получили от этого много вдохновения.
Забегая вперед, как будет выглядеть Грасс в 2024 году? Можете ли вы дать нам некоторое представление о вашей дорожной карте?
0xdrej: Не думаю, что кто-то удивится тому, что мы планируем полностью запустить сеть в какой-то момент в 2024 году.
Помимо этого, в дорожной карте мы хотим реализовать подтверждение запроса с использованием zk-TLS, привязывая сетевые запросы к наборам данных, что может произойти во второй половине года. Мы также планируем децентрализовать многих наших заказчиков. Как это будет реализовано, еще предстоит определить, но у нас есть много интересных идей, которые позволят людям легче управлять инфраструктурой Grass.
Мы все еще рассматриваем аппаратные проблемы. На данный момент стоимость использования Grass равна нулю, нам это нравится, и мы планируем оставить так навсегда. Но допустим, вы не хотите, чтобы ваше устройство было онлайн 24/7, или по какой-то причине вы не хотите запускать этот узел на своем устройстве. Мы хотели дать людям возможность просто купить приставку, подключить ее к Интернету и позволить ей работать в фоновом режиме. Если оставить в стороне личные предпочтения, то одним из интересных аспектов владения оборудованием является то, что мы действительно можем поместить в него агентов ИИ и позволить им работать на нем. Они могут выполнить за вас большую часть работы по очистке и сканированию веб-страниц. Все, что вам нужно сделать, это расслабиться и позволить этим агентам ИИ выполнять работу, точно так же, как если бы у вас был беспилотный автомобиль, который может рисовать карты.
Если вы хотите внести больший вклад в сеть, нам нужно устройство, которое сможет это сделать.
Мы работаем над небольшими функциями, такими как новые функции геймификации для панели управления. Мы также хотим добавить некоторые пасхальные функции специально для пользователей Saga и в настоящее время изучаем идеи для этого. Помимо этого, мы также работаем над релизами для других устройств. Теперь мы думаем не только о расширении сети, но и о том, чтобы сделать загрузки доступными для тех, кто в этом нуждается. Например, есть много людей, которые не любят устанавливать расширения, и это совершенно нормально. Поэтому мы планируем распространить его на другие платформы, такие как Android, iOS, Raspberry Pi, Linux и т. д.
В целом, мы хотим предоставить людям больше возможностей легко присоединиться к сети Grass.
Что вы думаете о структуре управления Грасса? Будет ли это децентрализованная сеть, полностью принадлежащая сообществу?
0xdrej: У нас есть несколько этапов децентрализации. Первый — это механизм аутентификации, с помощью которого мы можем вознаграждать пользователей за их вклад в цепочке.
Второй этап включает в себя децентрализацию нашего сортировщика и очистку запросов на одобрение. Управление здесь играет ключевую роль. По сути, мы хотим быть огромной сетью поставщиков данных, где члены сообщества могут сказать: «Эй, я тренирую эту модель ИИ, и мне нужны такие типы наборов данных, и я хочу порекомендовать нам перенаправить наши усилия по очистке данных на эту модель. data. «Сортировщик затем может выполнять функцию валидатора, чтобы обеспечить сбор правильных данных.
Одна из немногих функций управления, которые мы хотим включить, — это защита сети. В децентрализованной сети рыночная эффективность обычно достигается с течением времени, если она выполняется правильно. Существует множество приложений для монетизации неиспользуемых процессоров, графических процессоров и т. д., часто в бумажной валюте. Они могут начать с выплаты участникам определенной ставки, а затем постепенно снижать ставку, пока выгоды не станут минимальными.
Благодаря структуре управления вы защищаете сообщество, поскольку те, кто вносит свой вклад в сеть, фактически владеют частью сети. Это состояние, которого мы хотим достичь, когда каждый, кто управляет узлом в сети Grass, владеет частью самой сети.
Как вы думаете, у вас сейчас достаточно масштабов, чтобы теоретически запустить сеть? Или вы все же хотите увеличить количество нод перед запуском?
0xdrej: По общему количеству узлов мы очень близки к нашей цели. Однако в некоторых географических точках мы на самом деле не так уж близки. Есть определенные регионы, где люди хотят сканировать определенные типы контента, и спрос там на самом деле превышает предложение. Мы хотим быть уверены, что у нас есть возможность удовлетворить все потребности, что и является нашей целью при запуске сети.
Как вы знаете, мы находимся на стадии бета-тестирования, поэтому делаем все возможное, чтобы сеть была масштабируемой. Поскольку мы росли быстрее, чем ожидалось, у людей возникали некоторые проблемы с доступом к сети и дисплею информационной панели. Это все проблемы, которые мы планируем решить до полного запуска сети. Вот почему мы все еще находимся в стадии бета-тестирования. Поэтому, когда дело доходит до количества узлов, мы учитываем множество факторов. В целом мы вполне удовлетворены сложившейся ситуацией.