Źródło przedruku artykułu: Model Evolution

Oryginalne źródło: Tech Planet

Źródło obrazu: wygenerowane przez Unbounded AI

Zheng Wen wciąż pamięta to popołudnie kilka miesięcy temu. Zarabiała wtedy 20 centów za godzinę. Ukończyła gimnazjum w Hunan i jest adnotatorem danych dużych modeli. Jej codzienna praca nie jest skomplikowana – dodawanie etykiet do otrzymywanych surowych danych (takich jak obrazy, filmy, teksty itp.).

Jednak duże modele mają bardzo wysokie wymagania dotyczące jakości danych. Tego dnia zdjęcie było poprawiane osiem razy, zanim zostało zatwierdzone. Cały proces sprawdzania trwał godzinę. Innymi słowy, zarabiała tylko 2 centy na godzinę, podczas gdy w normalnych okolicznościach mogłaby zarobić 12 juanów i wyciągnąć 600 pudeł. „Pieniądze nie jest łatwo zarobić” – wielokrotnie podkreślała.

Jest to konsensus prawie wszystkich praktyków adnotacji danych. Na jednym końcu adnotacji z danymi widnieje miesięczna pensja praktyków, która wynosi mniej niż 5000 juanów. Stanowią oni kamień węgielny dużego modelu niczym armia mrówek. Z drugiej strony jest marzenie AI największych firm internetowych, które mają nadzieję przewyższyć Chat GPT 4.

Adnotacja danych wykorzystuje najbardziej prymitywny system stawek akordowych do obliczania wynagrodzeń, a w miejscu pracy nie ma intryg. Jedynym problemem jest to, że ta nudna praca sprawia, że ​​większości z nich trudno jest utrzymać się przez trzy miesiące. I prawie wszyscy mówili Planet Tech, że lepiej nie iść.

Nie wiedzą jednak, że większość z nich może wkrótce stracić nudną pracę. Ponieważ te proste adnotacje danych zostaną zastąpione przez sztuczną inteligencję.

Z 5 centów do 4 centów cena gwałtownie spadła

W 2017 roku Lin Shuang zarobił dużo „szybkich pieniędzy”: ponad 6000 juanów w 15 dni. Dla Lin Shuanga, który ukończył gimnazjum, dochód ten jest rzeczywiście znaczny. W tamtym czasie oczekiwania ludzi wobec sztucznej inteligencji gwałtownie rosły. Prawie nikt nie wątpił w jej przyszłość. Wszystkie instytucje inwestycyjne głęboko wierzyły, że mogą tu narodzić się firmy o skali miliardów, dziesiątek miliardów, a nawet setek miliardów.

Za prawie wszystkimi technologiami sztucznej inteligencji kryje się konkurencja między algorytmami, mocą obliczeniową i obliczeniami. Ogromne dane stanowią dolną warstwę doskonałości technicznej. Programiści z jasnym wykształceniem siedzą w biurach w „Pekinie, Szanghaju i Kantonie” i rysują plany sztucznej inteligencji za pomocą algorytmów iteracji kodu, podczas gdy studenci, matki itp. przetwarzają obrazy, tekst i głosy w ogromnych pakietach danych w kabinach w trzeciej i trzeciej klasie Miasta czwartej ligi czekają.

ChatGPT nie jest wyjątkiem. Pracownik zespołu projektowego Baidu Wenxinyiyan powiedział, że sam duży model nie ma żadnej nowej technologii, ani nie ma wysokich barier technicznych. Kluczową kwestią jest bariera parametrów, jaką tworzy bariera mocy obliczeniowej.

Adnotatory danych w epoce dużych modeli nie różnią się zbytnio od tych z przeszłości. Nieliczne różnice mogą dotyczyć wygodniejszego środowiska biurowego i wyższych wymagań dotyczących jakości adnotacji. Specjalista ds. adnotacji danych powiedział Tech Planet, że kiedy po raz pierwszy wchodzą do branży, zwykle tworzą zespół składający się z około 10 osób, z których jedna jest odpowiedzialna za kontrolę jakości. Jeśli praca nie odpowiada standardom, pracownik zostanie odesłany przerób to. Jakość danych determinuje jakość dużych modeli.

Pracownikom migrującym dane nie zależy na nowych gałęziach technologii AI. Bardziej zależy im na cenie jednostkowej, ponieważ tutaj płace są liczone od sztuki.

„W tamtym czasie, gdy cena jednostkowa była wysoka, ramka 2D kosztowała ponad 1 cent. W szczytowym okresie pracowałem ponad 10 godzin i zarabiałem ponad 600 juanów dziennie” – wspomina Lin Shuang. Nie jest to jednak najwyższa cena. Jeden z komentatorów podał, że cena wczesnych rysunków ramek 2D może sięgać nawet 50 centów.

Rysowanie ramek jest powszechną operacją w adnotacji danych. Adnotator oznacza obiekty na obrazie, takie jak pojazdy, czerwone latarnie uliczne, przeszkody itp., zgodnie z wymaganiami. Ramki dzielą się na 2D i 3D, te drugie będą droższe.

Jednak ta popularność nie trwała długo. Wraz z napływem coraz większej liczby osób i ogólnym rozwojem branży AI, cena jednostkowa opisywania zdjęć jest coraz niższa. Lin Shuang stwierdził, że jest to najniższa cena teraz to tylko 4 centy.

„Jeśli jest to rama do ciągnięcia, średnia cena jednostkowa w branży wynosi około 0,15 juana, ale to nadal zależy od projektu. Jeśli możesz otrzymywać zamówienia, minimalny wymóg otrzymania zamówienia z pierwszej ręki powinien wynosić 100 pracowników. skala jest dość duża i trójwymiarowa. Rama może kosztować 30 centów za sztukę, ale rzadko kosztuje 50 centów.

Oczywiście, jeśli posiadasz profesjonalną wiedzę z zakresu medycyny i finansów, cena jednostkowa będzie wyższa. Na przykład wiele dużych modeli medycznych wymaga od adnotatorów posiadania wiedzy klinicznej i odpowiedniego doświadczenia.

Miesięczny dochód większości praktykujących nie przekracza 5000 juanów i jest wśród nich także kilku szczęśliwców. Yang Shuo początkowo prowadził sklep odzieżowy w Syczuanie, ale epidemia wpłynęła na jego działalność. W tym roku przeszedł na adnotację danych na dużą skalę. Teraz jego dochód wynosi 8000 juanów miesięcznie. „Podpisałem umowę z firmą zapłacono Opłata franczyzowa wynosi 9500 juanów, a umowa stanowi, że minimalny miesięczny dochód wynosi 7000 juanów.”

Kto tak naprawdę zarobił pieniądze?

Internetowi giganci, tacy jak Alibaba, Tencent i Byte, a także firmy samochodowe, takie jak SAIC i Lynk & Co, są źródłami dystrybucji biznesowej adnotacji danych. Jeśli chcesz uzyskać zamówienia bezpośrednio ze źródła w najlepszej cenie, adnotacje danych firmy muszą mieć określoną skalę.

Pracownik firmy zajmującej się adnotacjami danych powiedział Tech Planet, że otrzymuje zamówienia bezpośrednio od dużych producentów, ale duzi producenci wymagają od nich zatrudniania 500 osób, więc zdecydują się zaspokoić wymagania kadrowe poprzez franczyzę lub spółki zależne.

Różnica między nimi polega na tym, że franczyza jest odpowiednia dla osób, które są nowicjuszami w branży, do założenia studia. Jeśli chcesz założyć spółkę zależną, zazwyczaj jest ona dostępna tylko w danym regionie. Studio Xiaobai musi pobrać opłatę franczyzową, która wynosi 25 000 lub 30 000. Spółka zależna jest wyłącznym agentem w regionie i musi uiścić opłatę w wysokości 50 000. Mogą także zagwarantować wystarczającą liczbę zamówień w ciągu trzech lat i w ciągu trzech lat odpowiadać za szkolenia techniczne. Te studia lub spółki zależne tworzą duży związek zawodowy, liczący od setek do tysięcy.

Pracownicy wspomnianej firmy zajmującej się adnotacjami danych stwierdzili, że popularność dużych modeli po raz kolejny wprawiła branżę adnotacji w szał i obecnie ludzie odwiedzają ich firmę niemal codziennie.

Jednak w rzeczywistości prowadzenie firmy zajmującej się etykietowaniem danych nie jest łatwe. Firma zajmująca się adnotacjami danych mówi, że w tej branży jest trudno w ciągu pierwszych 1 do 2 miesięcy, ponieważ pracownicy potrzebują okresu na rozwój. Na wczesnym etapie wystarczy tylko 5-8 osób, a nawet ciotka w niej 40-latkowie nie będą mieli problemu.

Stabilność jest najważniejszym czynnikiem dla firmy lub studia zajmującego się adnotacjami danych. Jednak większość pracowników zajmujących się adnotacjami, z którymi ma kontakt Tech Planet, często odchodzi z pracy z prędkością światła w ciągu 3 miesięcy z powodu nudy. Nowi pracownicy nie są od razu dostępni do praktycznych działań. Wynikiem dużej rotacji personelu jest jakość i cykl adnotacji danych nie są wystarczająco stabilne. Mamy, którym brakuje pieniędzy, są najpopularniejszymi osobami w studiach adnotacji danych.

„Zdecydowanie nie da się znaleźć pracy na pół etatu. Będą luki. Jeśli zainwestujesz w czynsz i komputery, stracisz pieniądze. Najlepszym sposobem jest, aby wszyscy pracownicy pracowali” – Wei Ming, który prowadzi firmę zajmującą się przetwarzaniem danych studio adnotacji, powiedział Tech Planet.

Większość danych wskazuje, że cykl spłaty firmy rozpoczyna się od 3 miesięcy i może trwać nawet pół roku, ale muszą płacić swoim pracownikom co miesiąc, co wymaga pewnego poziomu kapitału rezerwowego „3500 na osobę, 100 osób, 3 miesięcy wynosi 1,05 miliona.”

Zhang Jian dołączył kiedyś do związku zawodowego zatrudniającego ponad 200 pracowników. W pierwszym roku dogonili wybuchowy okres w branży, a cena jednostkowa rysunku ramowego 2D sięgała aż 50 centów. W tym roku jego związek zarobił ponad 4 miliony juanów.

Jednak w następnym roku sytuacja przybrała gorszy obrót. Oznaczona cena jednostkowa spadła, pracownicy stali się bardziej mobilni, a okres przerwy wydłużył się. Ponadto dwa duże projekty nie zostały rozliczone. Po całym roku stracili ponad 3 miliony juanów. „Szefowie powiedzieli, że w najbliższej przyszłości nie będą zajmować się adnotacjami danych” – powiedział Zhang Jian. „Obecnie toczą proces z podmiotami wyższego szczebla”.

Jest to biznes o niskiej marży. Haitian Ruisheng jest pierwszą notowaną na giełdzie spółką w branży adnotacji danych. W zeszłym roku firma osiągnęła przychody w wysokości 263 milionów juanów, zysk wynoszący zaledwie 29,45 miliona juanów, a marża zysku netto wyniosła nieco ponad 10%. Jednak w pierwszej połowie tego roku firma poniosła straty w związku ze spadkiem liczby klientów.

„Śruby”, które można w każdej chwili wymienić

Opierając się na nagromadzeniu mrówek przemieszczających się w Kenii, OpenAI wreszcie wyróżniło się możliwościami modelu dialogu językowego na dużą skalę. Ci zwykli ludzie, zwani data workers, wspierają marzenie AI Sama Altmana (założyciela OpenAI), ale jeśli nic więcej się nie wydarzy, większość pracy w ich rękach wkrótce zastąpią nowe produkty, w tworzeniu których brali udział. zastąpiony.

Za granicą firma Anthropic, założona w 2021 r. przez byłych pracowników Open AI, zebrała w tym roku 5,15 miliarda dolarów, czyli ponad siedmiokrotnie więcej niż całkowite finansowanie w ciągu ostatnich dwóch lat. Firma oferuje nowy sposób szkolenia modeli przy mniejszym zaangażowaniu człowieka.

W tym roku fundacja AI startup refuel uruchomiła narzędzie typu open source o nazwie Autolabel, które może wykorzystywać duże modele dostępne na rynku do etykietowania zbiorów danych. Wyniki testów firmy wykazały, że wydajność etykietowania Autolabel jest 100 razy większa niż w przypadku etykietowania ręcznego, a koszt stanowi zaledwie 1/7 kosztów robocizny.

W Chinach firma Vision Future również tworzy wielkoskalowe modele adnotacji. W wywiadzie powiedzieli, że niektóre projekty zostały zrealizowane przy użyciu GPT, a dokładność osiągnęła ponad 80%, co jest bliskie pracy ręcznej.

Haitian Ruisheng uważa jednak, że sztuczna inteligencja nie osiągnie całkowicie zautomatyzowanej adnotacji, ponieważ jeśli maszyna chce nadal ewoluować i zbliżać się do ludzkiego osądu i zrozumienia, z pewnością będzie potrzebować ludzkiego kierownictwa.

Prawie każdy, kto zajmował się adnotacją danych, przedstawił Tech Planet ten sam punkt widzenia: adnotacja danych to zawód, który nie ma progów i wymaga jedynie biegłości w posługiwaniu się komputerem.

Ale w rzeczywistości, jeśli prostą adnotację można uzupełnić za pomocą sztucznej inteligencji, wówczas ręczne uczestnictwo będzie trudniejsze weryfikacja danych i standardowa praca, co oznacza również, że próg branży będzie nadal rósł, szczególnie ChatGPT, Wen Xinyiyan Duży model językowy dla zajęcia.

Dla porównania, na długo zanim ChatGPT stał się popularny, OpenAI zorganizowało kilkunastu doktorantów w celu „zaznaczenia”. Baza adnotacji danych Baidu w Haikou obejmuje setki pełnoetatowych adnotatorów danych dużych modeli, a odsetek adnotatorów na studiach licencjackich sięga 100%.

Cechą charakterystyczną tego typu modelu dużego języka jest to, że adnotator musi posiadać pewien zasób wiedzy i zdolność analizy logicznej. Według raportu „Financial Eleven” autorzy komentarzy muszą określić rodzaj pytania, a następnie odpowiednio ocenić i uszeregować pięć odpowiedzi. Zakres punktacji wynosi 0–5 punktów. Jeśli wynik jest niższy niż 3 punkty, konieczne jest podanie konkretnych powodów takie jak „Odpowiedź nie jest taka, jak zadano pytanie (0 punktów)”, „poważnie nie na temat (1 punkt)”, „występują problemy logiczne i błędy merytoryczne, a proporcja jest niewielka i 2 punkty są dane” itp.

Kolejnym popularnym obszarem adnotacji danych jest jazda autonomiczna. Według raportu Deloitte zapotrzebowanie na etykietowanie w obszarze jazdy autonomicznej będzie stanowić 38% wszystkich zastosowań sztucznej inteligencji w 2022 r., a oczekuje się, że do 2027 r. odsetek ten wzrośnie do 52%. W porównaniu z dużymi modelami językowymi, w przypadku modeli z zakresu jazdy autonomicznej te proste operacje ciągnięcia pudełek nadal mają stosunkowo luźne wymagania akademickie.

Adnotatorzy są kamieniem węgielnym ludzkości od ery mobilnego Internetu po erę sztucznej inteligencji. Większość praktyków, z którymi Tech Planet się zetknęła, nie zna zmian, jakie przyniesie im sztuczna inteligencja, ani wkładu, jaki wnieśli w rozwój. AI. Oni To po prostu nowa generacja śrub w dobie Internetu i w każdej chwili można je wymienić.

(Uwaga: wszystkie postacie występujące w artykule to pseudonimy.)