深潮 TechFlow 消息,近日,全鏈數據網絡 Chainbase 宣佈在 HuggingFace 開源其專爲加密領域打造的大語言模型 Theia-Llama-3.1-8B 。該模型在困惑度(Perplexity)和 BERT 評分上均超越了市場主流模型,對crypto世界的理解能力超過大多主流開源大模型。
Chainbase 團隊獨創性地構建了首個專業 Web3 數據集,收錄了 CoinMarketCap 前 2000 項目的各類資料。數據集經過手動和算法過濾,確保訓練數據的準確性、多樣性和專業性。基於此數據集,團隊採用 LoRA 技術高效微調模型,並利用 DeepSpeed 等工具加速訓練過程。此外,模型量化爲 Q8 GGUF 格式,大幅降低了內存佔用,提升了推理速度。
據悉,Theia-Llama-3.1-8B 是 Chainbase 在加密領域大模型的初步嘗試且該模型已成功應用於 Chainbase DEMO 交互應用 TheiaChat,目前日活用戶超過 30 萬。