Ko-LLaMA:基于LLaMA的朝鮮語大語言模型
提 要:在本文中,我們通過擴展LLaMA現(xiàn)有的詞表,增加額外的20,000個朝鮮語Token,從而提高其對朝鮮語的編碼和語義理解的能力;并且進一步使用朝鮮語數(shù)據(jù)進行繼續(xù)預訓練,使用朝鮮語指令微調數(shù)據(jù)集對模型進行SFT(Supervised Fine-Tuning),并分析不同數(shù)據(jù)量對指令精調效果的影響,經(jīng)過繼續(xù)預訓練和指令微調后的模型顯著提高了理解和遵循朝鮮語指令的能力。(剩余15089字)
目錄
- Ko-LLaMA:基于LLaM...
- 基于語料庫的朝鮮語命名實體結構...
- 從句子圖到篇章圖...
- 語言模型輔助的英語科技論文摘要...
- 基于隱性句逗號識別的漢語長句機...
- 大語言模型對批評隱喻分析中隱喻...
- 我國高中英語教材生態(tài)素養(yǎng)呈現(xiàn)研...
- 英美文學教材與課程思政融合提質...
- 德國英語教材價值觀呈現(xiàn)研究...
- 法國英語教材價值觀呈現(xiàn)研究...
- 論“心即理”視域下翻譯學天人合...
- 阿列克謝耶夫《聊齋志異》譯本的...
- 中國文化“譯出”路徑下翻譯立場...
- 論一階量詞及其語義解釋...
- 新加坡的語言政策與國家安全...
- 多維視野中的錢冠連后語言哲學思...