一種基于領域知識的檢索增強生成方法

打開文本圖片集
摘 要:
為了提高當前大語言模型(large language model,LLM)在利用檢索文檔生成答案時的準確性,提出一種基于領域知識的檢索增強生成(retrieval-augmented generation,RAG)方法。首先,在檢索過程中通過問題和領域知識進行第1層的稀疏檢索,為后續(xù)的稠密檢索提供領域數據集;其次,在生成過程中采用零樣本學習的方法,將領域知識拼接在問題之前或之后,并與檢索文檔結合,輸入到大語言模型中;最后,在醫(yī)療領域和法律領域數據集上使用大語言模型ChatGLM2-6B、Baichuan2-7B-chat進行多次實驗,并進行性能評估。(剩余17112字)