Małe V w niebieskim sercu z serii VivoX100 to najbardziej „pasujący” model dużego języka, jakiego kiedykolwiek używałem.

Źródło przedruku artykułu: AIGC
Oryginalne źródło: Silicon Stand
Autor｜Luo Yihang
Źródło obrazu: wygenerowane przez Unbounded AI‌
To pierwszy wielkojęzyczny model, z którym miałem do czynienia niezależnie opracowany przez producenta smartfona – „Blue Heart Little V” wprowadzony na rynek przez vivo w oparciu o duży model Blue Heart. Jako „duży model Shennong” będę przypominał sobie, aby „obniżyć swoje oczekiwania” przed ostatnim testowaniem jakiejkolwiek usługi modelki, szczególnie w przypadku wersji demonstracyjnych, których filmy są zbyt fajne. Ale jeśli chodzi o model z dużym niebieskim sercem, moje odczucia są następujące: jest on zgodny z oczekiwaniami. To nie jest fajne, ale jest funkcjonalne.
Jako że jest to duży model językowy wprowadzany na rynek przez producentów smartfonów, ludzie generalnie uważają, że nie będzie on zbyt duży, parametry są niskie, efekt pojawiania się może nie być zbyt dobry, a ponadto pojawią się błędy w rozumieniu niektórych złożonych tekstów i intencji. Jednak moje doświadczenia z modelem Blue Heart są odwrotne: wykazuje on wysoką zdolność rozumowania w zakresie tworzenia i podsumowywania, która może osiągnąć wynik powyżej 80 punktów, ale wypada przeciętnie w podstawowym wyszukiwaniu obrazów i ogólnym pisaniu.
Powinieneś wiedzieć, że duży model Blue Heart, obecnie zainstalowany w serii telefonów komórkowych vivo X100, jest modelem podwójnego zastosowania dla scenariuszy end-side i cloud-end, specjalnie zaprojektowanym dla telefonów komórkowych. Jest znacznie mniej „duży” niż duży model z setkami miliardów parametrów. Ale kiedy rzuciłem artykuł o tym, czy powstawanie dużych modeli rzeczywiście istnieje, trafnie znalazł w nim najbardziej krytyczny i sedno argumentu: zdolność powstawania dużych modeli jest wynikiem standardów pomiarowych wybranych przez badaczy, a nie ekspansji możliwości modeli, więc nie jest to prawdziwe „pojawienie się inteligencji”.
To mnie trochę zszokowało. Ponieważ „odczytywanie dokumentów” jest zadaniem stosunkowo trudnym w przypadku dużych modeli językowych, nie każdy model potrafi je dobrze odczytać. Na przykład zdolność ChatGPT do odczytywania skomplikowanych i długich plików PDF ostatnio drastycznie się pogorszyła, zwłaszcza pod względem generalizacji. Ale Blue Heart Little V z modelu Blue Heart Big potrafi od razu znaleźć najistotniejszy argument. Warto wspomnieć, że podczas testu sprawdziłem konkretnie funkcję „lokalnego podsumowania” i w pełni wykorzystałem moc obliczeniową (MediaTek Dimensity 9300) i zdolność rozumowania maszyny vivo X100 do podsumowania. W pewnym stopniu łamie to wrodzoną percepcję, że „duże modele muszą być duże”.
Potem odkryłem ciekawsze zjawisko: gdy przesyłasz dłuższy artykuł do Blue Heart Big Model, nadal może on wydobyć najbardziej krytyczne i ważne idee i ustalenia, ale rozszerzona narracja często składa się tylko z kilku zdań, „czytanych dobrze, ale nie próbujących zrozumieć głęboko”. Stanowi on kontrast z niektórymi innymi dużymi modelami chat botów pod względem zdolności czytania ze zrozumieniem: wiele modeli dobrze radzi sobie z rozkładaniem informacji na czynniki pierwsze, ale brakuje im zdolności do jej udoskonalania i podsumowywania. Model Blue Heart jest niezwykle dokładnym podsumowaniem i destylacją, ale nie chce go rozłożyć na czynniki pierwsze i przeczytać szczegółowo, ani nie chce marnować żetonów na wyjaśnienie problemu. Powinno to być ściśle powiązane z rozmiarem modelu.
Jeśli chodzi o wyszukiwanie zdjęć i obrazów na lokalnych telefonach komórkowych, Blue Heart Model reaguje tak płynnie jak jedwab. Na przykład, może znaleźć wszystkie „zdjęcia z Zakazanego Miasta” przechowywane lokalnie na telefonie w ciągu jednej sekundy. Jeśli chodzi o pisanie przewodników turystycznych, program wypada przeciętnie. Jeśli chodzi o kreowanie wizerunku, rysunki Zakazanego Miasta, wołowego ramenu i pikantnego gulaszu dorównują poziomowi DALL-E ChatGPT, ale wyobraźnia nie jest tak bogata jak ChatGPT i nie jest w stanie tworzyć szczególnie szalonych i pomysłowych obrazów. Kiedy jednak poprosiłem go o narysowanie „sztucznej inteligencji głęboko myślącej o przyszłości ludzkości”, otrzymałem obrazek o takim właśnie nastroju.
Dodatkowo, zdolność modelu Blue Heart do kontrolowania aplikacji poprzez naturalną rozmowę jest niezwykła. Powiedziałem mu, że chcę zamówić danie na wynos z pikantnym hotpotem, a on powiedział, że Meituan nie jest zainstalowany na tym nowym telefonie. Po wyrażeniu zgody na instalację automatycznie pobierze aplikację Meituan ze sklepu z aplikacjami. Następnie otworzy się strona zawierająca wszystkie dania „pikantnego gulaszu”. Oczywiście można założyć, że Apple Siri także to potrafi, ponieważ jako aplikacja działająca na poziomie asystenta systemowego, może ona łatwo uzyskiwać dostęp do uprawnień w tym telefonie. Ale różnica polega na tym, że Siri może przyjmować tylko bardzo jasne instrukcje dotyczące tego, którą aplikację otworzyć, i jest bezsilna w obliczu ogólnego zapotrzebowania na język naturalny. Jest to wbudowany inteligentny moduł głosowy, ale dzięki wsparciu Blue Heart Big Model, Blue Heart Little V jest już Copilotem z możliwością rozumienia języka naturalnego.
Krótko mówiąc, po dostosowaniu kilku kluczowych funkcji, będziesz miał pewniejszy kierunek i osąd, czyli duży model końcowy będzie trafny i niezawodny. Co więcej, wdrożenie dużego modelu end-side, a nawet całego dużego modelu językowego w tysiącach gospodarstw domowych i wśród wszystkich ludzi może nadal zależeć od producentów telefonów komórkowych, niezależnie od tego, czy nam się to podoba, czy nie.
W pewnym stopniu duży model dostosowany do telefonów komórkowych jest w rzeczywistości bliższy „modelowi małego języka”, na który niedawno zwrócił uwagę Microsoft. Jego parametry zazwyczaj nie mogą przekraczać 10 miliardów, w przeciwnym razie pamięć telefonu komórkowego nie będzie w stanie go uruchomić. Oznacza to również, że może on wykonywać szkolenie tylko w określonych aspektach lub szkolić model do określonego poziomu wyjściowego, a następnie zatrzymać się. Dla większości ludzi to wystarczy. Mistral AI, paryski startup, który ostatnio stał się bardzo popularny, jest właśnie takim małym, modelowym przedsiębiorstwem.
Sądząc po parametrach opublikowanych przez Blue Heart Big Model, oparty na chmurze duży model o 170 miliardach parametrów służy do destylacji i trenowania modelu niskoparametrowego w celu uzyskania modelu o 7 miliardach parametrów, przy czym obliczenia i wnioskowanie znajdują się zarówno po stronie chmury, jak i telefonu komórkowego, podczas gdy obliczenia i wnioskowanie modelu o 1 miliardzie parametrów odbywają się tylko po stronie terminala. Właśnie nad tym nieustannie próbują pracować Qualcomm, MediaTek, Intel i AMD, aby pozbyć się klątwy Nvidii. Jeśli modeli nie umieścimy w telefonach i komputerach, nie będą miały szans. Jednak modele, które można umieścić w telefonach komórkowych i komputerach, są często zbyt małe i mają małą pojemność.
Małe modele mają swoje zalety: skupiają się na robieniu kilku rzeczy dobrze, nie generują długich informacji i kodu, mają kilka wyróżniających się funkcji i są przeciętne pod innymi względami. Na przykład kod Mistral AI jest mocniejszy niż kod ChatGPT. Przykładowo, model Blue Heart jest dokładniejszy od innych modeli przy wyodrębnianiu i przetwarzaniu lokalnych dokumentów oraz wydajniejszy przy zarządzaniu dokumentami i harmonogramami na prywatnych telefonach komórkowych. Potrafię także rysować, pisać i wyszukiwać, ale nie są to umiejętności wybitne. Ale co z tego?
Kiedy dziś w Chinach dyskutuje się o przyszłości generatywnej sztucznej inteligencji, można zaobserwować dziwne zjawisko: ci, którzy głośno o niej mówią, nie rozumieją jej, a ci, którzy żyją w realnym świecie, są wobec niej obojętni. Większość ludzi nigdy nie używała ChatGPT. Mogli słyszeć tylko o Wenxin Yiyan, Tongyi Qianwen i ChatGLM i używali ich okazjonalnie, ale nie widzą żadnych istotnych zmian, jakie te rzeczy wniosły do ​​nich samych. Ci gracze, którzy są zafascynowani dużymi parametrami modelu, skalą i wynikami oceny porównawczej, umieszczają wszystkie swoje wyniki na Hugging Face i GitHub. Prawie nigdy nie promują ich wśród zwykłych ludzi, a zwykli ludzie nie są nimi zainteresowani. Twórcy sztucznej inteligencji i jej użytkownicy nie są świadomi swojego istnienia i sytuacja ta może się nie zmienić w najbliższej przyszłości.
Jeśli jednak producenci smartfonów stworzą obszerne modele językowe, sytuacja może wyglądać inaczej. Głównym powodem jest wrażliwość użytkowników. Gdy duży model jest wbudowany w dolną warstwę systemu operacyjnego, można go obudzić, wspomagać i przywołać w dowolnym momencie, tak jak duży model Blue Heart rośnie na Origin OS4. Użytkownicy będą go mimowolnie potrzebować, potrzebować jego pomocy, testować jego potencjał, a nawet potrzebować jego towarzystwa. Może to nie być uniwersalny duży model, może to być po prostu mały model, ale rozumie swoich użytkowników, zna dane w urządzeniu, rozumie nawyki użytkowników, chroni prywatność użytkowników, może pomóc w planowaniu, otwieraniu menu na wynos, podsumowywaniu dokumentów, wybieraniu zdjęć i wykonywaniu podstawowych czynności pisemnych. To sztuczna inteligencja, która jest „wystarczająca” i „godna zaufania” dla większości ludzi.
Popularyzacja dużych modeli językowych z pewnością nie odbywa się za pośrednictwem programowania sztucznej inteligencji, ani też nie jest możliwa wyłącznie dzięki przełomom technologicznym, które odświeżają oceny SOTA i mogą przynieść korzyści większości ludzi. Podobnie jak możesz stwierdzić, czy para butów pasuje, dopiero po ich założeniu, tak samo możesz stwierdzić, czy dany model pasuje, dopiero po jego użyciu. Ostatnio świadomie „usuwam” ChatGPT: korzystam z Kimi Chat do czytania artykułów i dokumentów, z Wenxin Yiyan i ChatGLM do pracy biurowej, a z vivo Blue Heart Big Model jako osobistego asystenta, nie do niczego innego, po prostu dlatego, że „pasuje”. Nie spodziewam się, że przewyższy ChatGPT pod każdym względem, ale naprawdę potrzebuję „dużego modelu” lub „małego modelu”, którego można używać na telefonie komórkowym, który chroni prywatność i bezpieczeństwo danych oraz ma przyzwoite średnie wyniki we wszystkich kryteriach.
Duże modele językowe są przeznaczone do użytku ludzi, a nie do chwalenia się nimi.