Quelle des Nachdrucks des Artikels: Model Evolution
Originalquelle: Tech Planet
Bildquelle: Erstellt von Unbounded AI
Zheng Wen erinnert sich noch an den Nachmittag vor ein paar Monaten. An diesem Tag verdiente sie 2 Cent pro Stunde. Sie hat einen Abschluss an einem Junior College in Hunan und ist eine große Modelldatenannotatorin. Ihre tägliche Arbeit ist nicht kompliziert: Sie fügt den Rohdaten (wie Bildern, Videos, Texten usw.) Beschriftungen hinzu.
Allerdings stellen große Modelle sehr hohe Anforderungen an die Datenqualität. An diesem Tag wurde ein Bild achtmal überarbeitet, bevor es genehmigt wurde. Der gesamte Überarbeitungsprozess dauerte eine Stunde. Mit anderen Worten: Sie verdiente nur 20 Cent pro Stunde, während sie unter normalen Umständen 12 Yuan verdienen und 600 Kisten ziehen konnte. „Geld zu verdienen ist nicht einfach“, betonte sie immer wieder.
Dies ist der Konsens fast aller Datenannotationspraktiker. Ein Ende der Datenanmerkung trägt das Monatsgehalt der Praktizierenden, das weniger als 5.000 Yuan beträgt. Sie bilden wie eine Ameisenarmee den Grundstein des großen Modells. Auf der anderen Seite steht der KI-Traum großer Internetunternehmen, von dem sie hoffen, dass er Chat GPT 4 übertreffen wird.
Bei der Datenannotation wird das primitivste Akkordlohnsystem zur Lohnberechnung verwendet, und am Arbeitsplatz gibt es keine Intrigen. Das einzige Problem ist, dass dieser langweilige Job es den meisten von ihnen schwer macht, drei Monate lang durchzuhalten. Und fast jeder sagte zu Planet Tech, dass man besser nicht hingehen sollte.
Was sie jedoch nicht wissen, ist, dass die meisten von ihnen bald ihre langweiligen Jobs verlieren könnten. Denn diese einfachen Datenanmerkungen werden durch KI ersetzt.
Von 5 Cent auf 4 Cent stürzte der Preis ab
Lin Shuang hat 2017 viel „schnelles Geld“ verdient: mehr als 6.000 Yuan in 15 Tagen. Für Lin Shuang, der ein Junior College abgeschlossen hat, ist dieses Einkommen tatsächlich beträchtlich. Damals schossen die Erwartungen der Menschen an die KI in die Höhe. Fast niemand zweifelte an ihrer Zukunft. Alle Investmentinstitute glaubten fest daran, dass hier Unternehmen mit einer Größenordnung von mehreren zehn Milliarden oder sogar Hunderten von Milliarden entstehen könnten.
Hinter fast allen KI-Technologien steht der Wettbewerb zwischen Algorithmen, Rechenleistung und Berechnungen. Riesige Daten sind die unterste Ebene technischer Exzellenz. Programmierer mit hellem Hintergrund sitzen in Büros in „Peking, Shanghai und Guangzhou“ und zeichnen KI-Entwürfe mithilfe von Code-Iterationsalgorithmen, während Studenten, Mütter usw. Bilder, Texte und Stimmen in riesigen Datenpaketen in Büros in Dritt- und Drittstaaten verarbeiten Städte der vierten Klasse warten.
ChatGPT ist keine Ausnahme. Ein Mitarbeiter des Baidu Wenxiniyan-Projektteams sagte, dass das große Modell selbst weder über neue Technologien noch über hohe technische Barrieren verfügt. Das Hauptproblem ist die Parameterbarriere, die durch die Rechenleistungsbarriere gebildet wird.
Datenannotatoren unterscheiden sich im Zeitalter großer Modelle nicht besonders von denen in der Vergangenheit. Die wenigen Unterschiede könnten eine komfortablere Büroumgebung und höhere Anforderungen an die Annotationsqualität sein. Ein Datenanmerkungsexperte sagte gegenüber Tech Planet, dass er bei seinem Einstieg in die Branche normalerweise ein Team von etwa 10 Personen bildet und einer von ihnen für die Qualitätsprüfung verantwortlich ist. Wenn die Arbeit nicht dem Standard entspricht, werden es die Mitarbeiter sein zurückgeschickt, um es zu wiederholen. Die Qualität der Daten bestimmt die Qualität großer Modelle.
Datenwanderer kümmern sich nicht um neue Zweige der KI-Technologie. Sie kümmern sich mehr um den Stückpreis, da die Löhne hier Stück für Stück berechnet werden.
„Damals, als der Stückpreis hoch war, kostete ein 2D-Rahmen mehr als 1 Cent. In meiner Blütezeit arbeitete ich mehr als 10 Stunden und verdiente mehr als 600 Yuan pro Tag“, erinnert sich Lin Shuang. Dies ist jedoch nicht der höchste Preis, sagte ein Kommentator, dass der Preis für frühe 2D-Rahmenzeichnungen bis zu 50 Cent erreichen könnte.
Das Zeichnen von Rahmen ist eine übliche Operation bei der Datenanmerkung. Der Annotator markiert die Objekte im Bild, wie z. B. Fahrzeuge, rote Straßenlaternen, Hindernisse usw., entsprechend den Anforderungen. Rahmen werden in 2D und 3D unterteilt, letzteres ist teurer.
Diese Popularität hielt jedoch nicht lange an, da immer mehr Menschen eintrafen und die Entwicklung der KI-Branche insgesamt nicht reibungslos verläuft. Lin Shuang sagte, der Preis pro Einheit sei immer niedriger jetzt sind es nur noch 4 Cent.
„Wenn es sich um einen Pull-Frame handelt, liegt der durchschnittliche Stückpreis in der Branche bei etwa 0,15 Yuan, hängt aber immer noch vom Projekt ab. Wenn Sie Bestellungen entgegennehmen können, sollte die Mindestanforderung für den Erhalt einer Bestellung aus erster Hand 100 Mitarbeiter betragen. Das heißt Ein recht großer 3D-Rahmen. Der Rahmen kostet vielleicht 30 Cent pro Stück, aber selten 50 Cent.“
Wenn Sie über Fachkenntnisse im medizinischen und finanziellen Bereich verfügen, ist der Stückpreis natürlich höher. Beispielsweise erfordern viele große medizinische Modelle, dass Annotatoren über klinisches Fachwissen und einschlägige Erfahrung verfügen.
Das monatliche Einkommen der meisten Praktizierenden beträgt nicht mehr als 5.000 Yuan, und es gibt auch ein paar Glückliche unter ihnen. Yang Shuo betrieb ursprünglich ein Bekleidungsgeschäft in Sichuan, aber die Epidemie beeinträchtigte sein Geschäft. In diesem Jahr wechselte er zu einer groß angelegten Modelldatenanmerkung. Jetzt hat er ein Einkommen von 8.000 Yuan pro Monat und bezahlt Die Franchisegebühr beträgt 9.500 Yuan, und im Vertrag steht, dass das monatliche Mindesteinkommen 7.000 Yuan beträgt.“
Wer hat eigentlich das Geld verdient?
Internetgiganten wie Alibaba, Tencent und Byte sowie Automobilunternehmen wie SAIC und Lynk & Co sind die Quellen für den Vertrieb von Datenannotationen. Wenn Sie Bestellungen direkt von der Quelle zum besten Preis erhalten möchten, ist die Datenannotation Unternehmen müssen eine gewisse Größe haben.
Ein Mitarbeiter eines Datenannotationsunternehmens sagte gegenüber Tech Planet, dass sie Aufträge direkt von großen Herstellern erhalten, die großen Hersteller jedoch 500 Mitarbeiter verlangen und sich daher dafür entscheiden, den Personalbedarf durch Franchising oder Tochtergesellschaften zu decken.
Der Unterschied zwischen beiden besteht darin, dass Franchising für Branchenneulinge geeignet ist, ein Studio zu gründen. Wenn Sie eine Tochtergesellschaft gründen möchten, gibt es in der Regel nur eine in einer Region. Xiaobai Studio muss eine Franchisegebühr erheben, die 25.000 oder 30.000 beträgt. Die Tochtergesellschaft ist der Alleinvertreter in einer Region und muss eine Gebühr von 50.000 zahlen. Und sie können innerhalb von drei Jahren ausreichende Aufträge garantieren und innerhalb von drei Jahren für die technische Ausbildung verantwortlich sein. Diese Studios oder Tochtergesellschaften bilden eine große Gewerkschaft, die von Hunderten bis Tausenden reicht.
Mitarbeiter des oben genannten Datenanmerkungsunternehmens sagten, dass die Beliebtheit großer Modelle die Datenanmerkungsbranche erneut in Aufruhr versetzt habe und die Menschen ihr Unternehmen mittlerweile fast täglich besuchen.
Tatsächlich ist es jedoch nicht einfach, ein Unternehmen zur Datenkennzeichnung zu leiten. Das Datenannotationsunternehmen sagt Ihnen, dass es in dieser Branche in den ersten 1 bis 2 Monaten schwierig ist, da die Mitarbeiter eine Anlaufphase benötigen. In der Anfangsphase reichen nur 5 bis 8 Personen aus, und sogar eine Tante in ihr 40er werden kein Problem haben.
Stabilität ist der wichtigste Faktor für ein Datenannotationsunternehmen oder -studio. Allerdings verlassen die meisten Annotationsmitarbeiter, mit denen Tech Planet in Kontakt kommt, ihren Job oft innerhalb von 3 Monaten aus Langeweile. Neue Mitarbeiter stehen nicht sofort für den praktischen Betrieb zur Verfügung und der Datenanmerkungszyklus sind nicht stabil genug. Mütter, die wenig Geld haben, sind die beliebtesten Personen für Datenannotationsstudios.
„Es ist definitiv nicht möglich, einen Teilzeitjob zu finden. Es wird Lücken geben. Wenn man in Miete und Computer investiert, verliert man Geld. Der beste Weg ist, alle Mitarbeiter arbeiten zu lassen“, sagte Wei Ming, der eine Datenanalyse durchgeführt hat Annotationsstudio, sagte Tech Planet.
Die meisten Daten deuten darauf hin, dass der Rückzahlungszyklus des Unternehmens bei 3 Monaten beginnt und bis zu einem halben Jahr dauern kann, aber sie müssen ihre Mitarbeiter monatlich bezahlen, was eine gewisse Kapitalrücklage erfordert: „3.500 für eine Person, 100 Personen, 3 Monate reichen aus.“ 1,05 Millionen.“
Zhang Jian trat einst einer Gewerkschaft mit mehr als 200 Mitarbeitern bei. Im ersten Jahr holten sie die explosive Phase der Branche ein und der Stückpreis für 2D-Rahmenzeichnungen lag bei bis zu 50 Cent. In diesem Jahr verdiente seine Gewerkschaft mehr als 4 Millionen Yuan.
Doch im nächsten Jahr wurde es noch schlimmer. Der deutliche Stückpreis wurde niedriger, die Mitarbeiter wurden mobiler und die Lückenlaufzeit verlängerte sich. Außerdem wurden zwei große Projekte nicht abgewickelt. Nach einem ganzen Jahr verloren sie mehr als 3 Millionen Yuan. „Die Chefs haben gesagt, dass sie die Datenanmerkung kurzfristig nicht berühren werden“, sagte Zhang Jian. „Sie befinden sich derzeit in einem Rechtsstreit mit dem Upstream.“
Dies ist ein Geschäft mit geringen Margen. Haitian Ruisheng ist derzeit das erste börsennotierte Unternehmen in der Datenanmerkungsbranche. Im vergangenen Jahr erzielte das Unternehmen einen Umsatz von 263 Millionen Yuan, einen Gewinn von nur 29,45 Millionen Yuan und eine Nettogewinnmarge von knapp über 10 %. Doch im ersten Halbjahr dieses Jahres verzeichnete das Unternehmen aufgrund eines Rückgangs der Kundenzahl Verluste.
„Schrauben“, die jederzeit ausgetauscht werden können
OpenAI stützte sich auf die Ansammlung von Ameisen, die sich in Kenia bewegten, und zeichnete sich schließlich durch seine umfangreichen Sprachdialogmodellfunktionen aus. Diese einfachen Leute, sogenannte Datenarbeiter, unterstützen den KI-Traum von Sam Altman (dem Gründer von OpenAI), aber wenn nichts anderes passiert, wird der Großteil der Arbeit in ihren Händen bald durch die neuen Produkte ersetzt, an deren Entwicklung sie beteiligt waren. ersetzt.
Im Ausland hat Anthropic, das 2021 von ehemaligen Mitarbeitern von Open AI gegründet wurde, in diesem Jahr 5,15 Milliarden US-Dollar eingesammelt, mehr als das Siebenfache seiner Gesamtfinanzierung in den letzten zwei Jahren. Das Unternehmen bietet eine neue Möglichkeit, Modelle mit weniger menschlichem Eingriff zu trainieren.
In diesem Jahr hat das KI-Startup refuel ein Open-Source-Tool namens Autolabel auf den Markt gebracht, mit dem gängige große Modelle auf dem Markt zur Kennzeichnung von Datensätzen verwendet werden können. Die Testergebnisse des Unternehmens ergaben, dass die Etikettierungseffizienz von Autolabel 100-mal höher ist als bei der manuellen Etikettierung und die Kosten nur 1/7 der Arbeitskosten betragen.
In China baut ein Unternehmen namens Vision Future ebenfalls groß angelegte Annotationsmodelle. In einem Interview sagten sie, dass einige Projekte mit GPT geliefert wurden und die Genauigkeit mehr als 80 % erreicht hat, was fast der manuellen Arbeit entspricht.
Der Haitianer Ruisheng glaubt jedoch, dass KI definitiv keine vollständig automatisierte Annotation realisieren wird, denn wenn sich die Maschine weiterentwickeln und dem menschlichen Urteilsvermögen und Verständnis näher bringen will, braucht sie auf jeden Fall menschliche Führung.
Fast jeder, der sich mit der Datenannotation beschäftigt hat, hat gegenüber Tech Planet den gleichen Standpunkt geäußert: Die Datenannotation ist ein Job ohne Schwellenwerte und erfordert lediglich Kenntnisse im Umgang mit Computern.
Wenn jedoch einfache Annotationen mit KI vervollständigt werden können, wird die manuelle Teilnahme zu einer schwierigeren Datenüberprüfung und Standardarbeit, was auch bedeutet, dass die Schwelle der Branche weiter ansteigt, insbesondere ChatGPT, Wen Xinyiyan Ein großes Sprachmodell für Klassen.
Zum Vergleich: Lange bevor ChatGPT populär wurde, organisierte OpenAI mehr als ein Dutzend Doktoranden zum „Markieren“. Die Datenannotationsbasis von Baidu in Haikou verfügt über Hunderte von Vollzeit-Annotatoren für große Modelldaten, und die Quote der Annotatoren im Grundstudium erreicht 100 %.
Das Merkmal dieser Art von großen Sprachmodellen besteht darin, dass der Annotator über eine gewisse Wissensreserve und logische Analysefähigkeiten verfügen muss. Laut dem „Financial Eleven“-Bericht müssen Kommentatoren die Art der Frage bestimmen und dann die fünf Antworten bewerten und bewerten. Der Bewertungsbereich beträgt 0-5 Punkte. Wenn die Punktzahl niedriger als 3 ist, müssen die spezifischen Gründe angegeben werden B. „Die Antwort entspricht nicht der Frage, die gestellt wurde (0 Punkte)“, „Off-Topic (1 Punkt)“, „Es gibt logische Probleme und sachliche Fehler, und der Anteil ist gering und 2 Punkte sind es.“ gegeben“ usw.
Ein weiterer beliebter Bereich der Datenannotation ist das autonome Fahren. Laut einem Deloitte-Bericht wird der Kennzeichnungsbedarf im Bereich des autonomen Fahrens im Jahr 2022 38 % aller nachgelagerten KI-Anwendungen ausmachen, und es wird erwartet, dass dieser Anteil bis 2027 auf 52 % steigen wird. Im Vergleich zu großen Sprachmodellen gelten für Modelle im Bereich des autonomen Fahrens für diese einfachen Box-Pulling-Operationen immer noch relativ geringe akademische Anforderungen.
Annotatoren sind der Grundpfeiler der Menschheit vom Zeitalter des mobilen Internets bis zum Zeitalter der künstlichen Intelligenz. Die meisten Praktiker, mit denen Tech Planet in Kontakt gekommen ist, wissen weder, welche Veränderungen die KI für sie mit sich bringen wird, noch welche Beiträge sie zu deren Entwicklung geleistet haben KI Sie sind nur eine neue Generation von Schrauben im Internetzeitalter und können jederzeit ersetzt werden.
(Hinweis: Die Charaktere im Artikel sind allesamt Pseudonyme.)
