Zdroj dotisku článku: Model Evolution
Původní zdroj: Tech Planet
Zdroj obrázku: Generated by Unbounded AI
Zheng Wen si stále pamatuje to odpoledne před několika měsíci. Ten den vydělala 20 centů za hodinu. Vystudovala střední školu v Hunanu a je velkou modelkou dat anotátorkou Její každodenní práce není složitá – přidávání štítků k nezpracovaným datům (jako jsou obrázky, videa, texty atd.), která dostává.
Velké modely však mají velmi vysoké požadavky na kvalitu dat. Ten den byl snímek revidován osmkrát, než byl schválen. Celý proces revize trval hodinu. Jinými slovy, vydělala jen 2 centy za hodinu, zatímco za normálních okolností mohla vydělat 12 juanů a vytáhnout 600 krabic. "Peníze se nevydělávají snadno," zdůrazňovala opakovaně.
To je konsenzus téměř všech odborníků na anotaci dat. Jeden konec datové anotace nese měsíční plat praktikujících, kteří jsou méně než 5 000 juanů. Staví základní kámen velkého modelu jako armádu mravenců. Na druhém konci je AI sen velkých internetových společností, které doufají, že překoná Chat GPT 4.
Anotace dat používá k výpočtu mezd nejprimitivnější systém kusových sazeb a na pracovišti se nekoná žádné záludnosti. Jediným problémem je, že kvůli této nudné práci je pro většinu z nich obtížné vydržet tři měsíce. A téměř každý řekl Planet Tech, že byste raději neměli chodit.
Ale nevědí, že většina z nich může brzy přijít o svou nudnou práci. Protože tyto jednoduché datové anotace budou nahrazeny AI.
Z 5 centů na 4 centy cena prudce klesla
Lin Shuang vydělal v roce 2017 spoustu „rychlých peněz“: více než 6 000 juanů za 15 dní. Pro Lin Shuanga, který vystudoval střední školu, je tento příjem skutečně značný. Očekávání lidí od AI v té době raketově stoupala. Téměř nikdo nepochyboval o její budoucnosti. Všechny investiční instituce pevně věřily, že se zde mohou zrodit společnosti v řádu miliard, desítek miliard, nebo dokonce stovek miliard.
Téměř za všemi technologiemi umělé inteligence je konkurence mezi algoritmy, výpočetním výkonem a výpočty Obrovská data jsou spodní vrstvou technické dokonalosti. Programátoři s jasným pozadím sedí v kancelářích v „Pekingu, Šanghaji a Guangzhou“ a kreslí plány umělé inteligence pomocí algoritmů iterace kódu, zatímco vysokoškoláci, matky atd. zpracovávají obrázky, text a hlasy v obrovských datových balíčcích v kójích ve třetích a města čtvrté úrovně.
ChatGPT není výjimkou. Zaměstnanec projektového týmu Baidu Wenxinyiyan uvedl, že velký model sám o sobě nemá žádnou novou technologii, ani nemá vysoké technické bariéry. Klíčovým problémem je bariéra parametrů tvořená bariérou výpočetního výkonu.
Datové anotátory se v éře velkých modelů nijak zvlášť neliší od těch v minulosti. Těmito pár rozdíly může být pohodlnější kancelářské prostředí a vyšší požadavky na kvalitu anotací. Odborník na anotaci dat řekl Tech Planet, že když poprvé vstoupí do odvětví, obvykle vytvoří tým asi 10 lidí a jeden z nich bude zodpovědný za kontrolu kvality, pokud práce nebude odpovídat standardu, budou to zaměstnanci poslal zpět, aby to předělal. Kvalita dat určuje kvalitu velkých modelů.
Datové migranty nezajímají žádná nová odvětví technologie AI, jde jim spíše o jednotkovou cenu, protože mzdy se zde počítají kus po kusu.
"V té době, kdy byla jednotková cena vysoká, by 2D snímek stál více než 1 cent. Na vrcholu jsem pracoval více než 10 hodin a vydělával více než 600 juanů denně," vzpomínal Lin Shuang. To však není nejvyšší. Jeden anotátor uvedl, že cena raných 2D rámových výkresů může dosáhnout až 50 centů.
Rámová kresba je běžnou operací v anotaci dat. Anotátor označí objekty na obrázku, jako jsou vozidla, červené pouliční osvětlení, překážky atd. podle požadavků. Rámečky se dělí na 2D a 3D, druhé bude dražší.
Ale tato popularita netrvala dlouho s přílivem stále více lidí a celkovým vývojem AI průmyslu se jednotková cena anotování obrázku snižuje a snižuje nyní jen 4 centy.
"Pokud je to pull-frame, průměrná jednotková cena v oboru je kolem 0,15 juanu, ale stále to závisí na projektu. Pokud můžete přijímat objednávky, minimální požadavek na přijetí objednávky z první ruky by měl být 100 zaměstnanců. měřítko je poměrně velké a 3D Rám může stát 30 centů za kus, ale zřídka stojí 50 centů.“
Samozřejmě, pokud máte odborné znalosti v lékařských a finančních oborech, bude jednotková cena vyšší. Například mnoho velkých lékařských modelů vyžaduje, aby anotátoři měli klinickou odbornost a relevantní zkušenosti.
Měsíční příjem většiny praktikujících nepřesahuje 5 000 yuanů a najde se mezi nimi i pár šťastlivců. Yang Shuo původně provozoval obchod s oblečením v Sichuanu, ale tento rok přešel na anotaci dat ve velkém měřítku. „Podepsal jsem smlouvu se společností a zaplaceno Poplatek za franšízu je 9 500 yuanů a smlouva uvádí, že minimální měsíční příjem je 7 000 yuanů.“
Kdo vlastně vydělal peníze?
Internetoví giganti jako Alibaba, Tencent a Byte, stejně jako automobilky jako SAIC a Lynk & Co, jsou zdroji obchodní distribuce anotací dat Pokud chcete získat zakázky přímo od zdroje za nejlepší cenu, anotace dat společnosti musí mít určitý rozsah.
Zaměstnanec společnosti pro anotaci dat řekl Tech Planet, že dostávají zakázky přímo od velkých výrobců, ale ti velcí požadují, aby měli 500 lidí, takže se rozhodnou splnit personální požadavky prostřednictvím franšízy nebo dceřiných společností.
Rozdíl mezi nimi je v tom, že franšízing je vhodný pro lidi, kteří jsou v oboru noví, aby si založili studio. Pokud chcete založit dceřinou společnost, obvykle je v regionu pouze jedna. Xiaobai Studio si musí účtovat franšízový poplatek, který je 25 000 nebo 30 000. Dceřiná společnost je výhradním zástupcem v regionu a musí zaplatit poplatek 50 000. A do tří let dokážou zaručit dostatek zakázek a do tří let být zodpovědní za technické školení.
Zaměstnanci výše zmíněné společnosti pro anotaci dat uvedli, že obliba velkých modelů opět přivedla odvětví anotací dat do šílenství a nyní lidé navštěvují jejich společnost téměř každý den.
Ale ve skutečnosti není řízení společnosti pro označování dat snadné. Společnost pro anotaci dat vám říká, že toto odvětví je obtížné provést během prvních 1 až 2 měsíců, protože zaměstnanci potřebují období rozběhu V rané fázi stačí pouze 5-8 lidí a dokonce i teta 40s nebude mít problém.
Stabilita je nejdůležitějším faktorem pro společnost nebo studio pro anotaci dat. Většina anotačních zaměstnanců, se kterými Tech Planet přichází do styku, však často z nudy odchází rychlostí světla do 3 měsíců Noví zaměstnanci nejsou ihned k dispozici do praktického provozu. Výsledkem vysoké fluktuace zaměstnanců je kvalita a cyklus anotace dat nejsou dostatečně stabilní. Maminky, kterým chybí peníze, jsou nejoblíbenějšími lidmi pro studia anotací dat.
"Určitě není možné najít práci na částečný úvazek. Budou tam mezery. Pokud investujete do nájmu a počítačů, přijdete o peníze. Nejlepší způsob je nechat pracovat všichni zaměstnanci," řekl Wei Ming, který spustil data anotační studio, řekl Tech Planet.
Většina údajů uvádí, že cyklus splácení společnosti začíná na 3 měsících a může být až půl roku, ale musí své zaměstnance vyplácet měsíčně, což vyžaduje určitou úroveň kapitálových rezerv „3 500 na jednu osobu, 100 lidí. 3 měsíce stačí." 1,05 milionu."
Zhang Jian jednou vstoupil do odboru s více než 200 zaměstnanci. V prvním roce dohnali explozivní období tohoto odvětví a jednotková cena 2D rámového kreslení byla až 50 centů. Ten rok jeho spojení vydělalo více než 4 miliony juanů.
Další rok ale věci nabraly rychlý spád. Značená jednotková cena se snížila, zaměstnanci se stali mobilnějšími a prodloužila se doba mezery. Po celém roce navíc nebyly vypořádány dva velké projekty. "Šéfové řekli, že se v krátkodobém horizontu nedotknou anotací dat," řekl Zhang Jian "V současné době jsou v soudním sporu s proti proudu."
Jedná se o podnikání s nízkou marží. Haitian Ruisheng je první hlavní společností kótovanou na burze v odvětví anotací dat V loňském roce měla společnost tržby 263 milionů juanů, zisk pouze 29,45 milionů juanů a čisté ziskové rozpětí něco málo přes 10 %. V první polovině letošního roku se ale firma propadla do ztráty kvůli poklesu počtu zákazníků.
"Šrouby", které lze kdykoli vyměnit
OpenAI se spoléhá na hromadění mravenců pohybujících se v Keni a nakonec vyniklo svými rozsáhlými možnostmi modelování jazykových dialogů. Tito obyčejní lidé, kterým se říká datoví pracovníci, podporují sen o AI Sama Altmana (zakladatele OpenAI), ale pokud se nic jiného nestane, většinu práce v jejich rukou brzy nahradí nové produkty, na jejichž tvorbě se podíleli. nahrazeno.
V zahraničí společnost Anthropic, založená v roce 2021 bývalými zaměstnanci Open AI, letos získala 5,15 miliardy USD, což je více než sedminásobek celkového financování za poslední dva roky. Společnost nabízí nový způsob výcviku modelů s menším zapojením lidí.
V letošním roce spustil AI startup tank open source nástroj s názvem Autolabel, který může používat běžné velké modely na trhu k označování souborů dat. Výsledky testů společnosti uváděly, že účinnost značení Autolabel je 100krát vyšší než ruční značení a náklady jsou pouze 1/7 mzdových nákladů.
V Číně také společnost s názvem Vision Future staví rozsáhlé anotační modely. V rozhovoru uvedli, že některé projekty byly dodány pomocí GPT a přesnost dosáhla více než 80 %, což se blíží ruční práci.
Haitian Ruisheng se však domnívá, že AI nedosáhne zcela automatizované anotace, protože pokud se stroj bude chtít dále vyvíjet a přiblížit se lidskému úsudku a porozumění, bude určitě potřebovat lidské vedení.
Téměř každý, kdo se zabýval anotací dat, odhalil stejný pohled na Tech Planet: Anotace dat je práce bez limitů a vyžaduje pouze, abyste byli zběhlí v používání počítačů.
Ale ve skutečnosti, pokud lze jednoduchou anotaci dokončit pomocí AI, pak manuální účast bude obtížnějším screeningem dat a standardní prací, což také znamená, že práh odvětví se bude nadále zvyšovat, zejména ChatGPT, Wen Xinyiyan Velký jazykový model pro třídy.
Pro srovnání, dlouho předtím, než se ChatGPT stal populárním, OpenAI organizovala více než tucet doktorandů, aby „oznámkovali“. Baiduova datová anotační základna v Haikou má stovky anotátorů velkých modelových dat na plný úvazek a podíl anotátorů na bakalářských školách dosahuje 100 %.
Charakteristickým rysem tohoto typu velkého jazykového modelu je, že anotátor musí mít určitou znalostní rezervu a schopnost logické analýzy. Podle zprávy „Finanční jedenáctka“ musí anotátoři určit typ otázky a poté ohodnotit a seřadit pět odpovědí. Rozsah skóre je 0–5 bodů. Pokud je skóre nižší než 3 body, musí být uvedeny konkrétní důvody je třeba poznamenat, jako například „Odpověď není to, na co byla otázka položena (0 bodů)“, „vážně mimo téma (1 bod)“, „existují logické problémy a faktické chyby a podíl je malý a 2 body jsou dáno“ atd.
Další oblíbenou oblastí anotací dat je autonomní řízení. Podle zprávy společnosti Deloitte bude poptávka po označování v oblasti autonomního řízení v roce 2022 představovat 38 % všech navazujících aplikací AI a očekává se, že tento podíl do roku 2027 vzroste na 52 %. Ve srovnání s velkými jazykovými modely mají u modelů v oblasti autonomního řízení tyto jednoduché operace vytahování krabic stále relativně volné akademické požadavky.
Anotátoři jsou základním kamenem lidstva od éry mobilního internetu až po éru umělé inteligence Většina praktiků, se kterými přišla Tech Planet do styku, nezná změny, které jim AI přinese, ani jejich přínos k vývoji. AI Oni jsou jen novou generací šroubů v éře internetu a lze je kdykoli vyměnit.
(Poznámka: Všechny postavy v článku jsou pseudonymy.)
