微軟(Microsoft)近期發表SLM(小型語言模型)「Phi-3」系列,引起熱烈討論!微軟指出,對比其他模型,他們相信Phi-3是效能最好但成本最划算的模型,特別的是,微軟官方也曝光研究員順利研發出Phi-3的靈感來源和「女兒的睡前故事」有關!究竟SLM和LLM有何差異?本文帶您深入了解!
Phi-3系列共有哪些模型?
微軟內部AI首席產品經理Sonali Yadav指出,Phi-3系列並非單純將LLM進行規模轉化、變成SLM,而應該定義為從「單一類」模型轉為「系列化」模型,如此客戶可以在整個小模型系列組合中找出最符合需求用途的其中一個。
Phi-3系列率先推出的模型是「Phi-3-mini」,其中包含38億個參數,現在已列入Azure AI 模型目錄、Hugging Face、Ollama,也在輝達「NVIDIA NIM微服務」的提供項目中。
該系列中,還包含其他模型「Phi-3-small」和「 Phi-3-medium」,前者包含70億個參數,後者包含140億個參數,將陸續推出。
Phi-3系列的靈感來源是什麼?
該系列模型的靈感來源要從研發團隊研究員Ronen Eldan和女兒的溫馨互動說起。微軟公開透露,Ronen Eldan有天對女兒朗讀睡前故事時,突然萌生了「生成許多小故事(TinyStories)」數據集的想法,而這個數據集包含了數百萬個經由大型語言模型生成的簡單短篇故事,其中包含的詞彙也是4歲左右的孩童能理解的。
特別的是,對比其他「億」級參數規模的模型來說,這樣的小故事數據集僅有約1000萬個參數,卻還是能生成讀來流暢且語意良好的好故事。
因此Ronen Eldan後來便和團隊成員先取得大量精準的數據,經過一系列提示、人工與LLM嚴密審查後,再創建出「CodeTextbook」數據集,以作為Phi-3系列的基礎。
話說回來,SLM到底是什麼?相較LLM,具有什麼特點?
SLMs是建立於更為簡單的神經網路架構之上,再基於較短序列的數據集進行推理或預測生成,非常適合用來進行文本生成、分類分析和翻譯等項目,相較LLM,訓練成本消耗更低,也更容易部署和維護。
儘管「知識廣度」和數據規模不如LLM,但是在特定專業領域中,其表現成效和能力極為優異。
以下為SLM的6大優點。
1. 尺寸較小:SLM的參數數量較少,因此在設備部署層面更容易,不需要大量的計算推理資源。
2. 速度更快:SLM可以提供「延遲率低」的良好AI使用體驗,對於有時需要「即時做出反應」的迫切情況下,會比LLM表現地更為優秀。
3. 沒網絡也可以:SLM能夠在離線狀態繼續運行,這對於沒連接網絡或網絡連接不穩定的場合非常重要。
4. 有利隱私保護:SLM的數據不需傳送到雲端,這有助於保護用戶的隱私。
5. 成本效益佳:SLM的維運與訓練成本通常偏低,不需要大規模的成本,這對於想在有限預算使用AI的企業或客戶來說非常方便。
6. 多樣性:SLM可適用於不同應用場景、各類產業,並協助進行簡單的問題回答、摘要和內容生成。