特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

國產(chǎn)大語言模型的語文作文評(píng)價(jià)能力測試

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要:大語言模型作為人工智能的最新技術(shù)成果,將對數(shù)智時(shí)代的教育樣態(tài)產(chǎn)生深刻影響。為調(diào)查大語言模型的作文評(píng)價(jià)能力,文章選取500篇小學(xué)語文作文,設(shè)計(jì)了37條提示語,以“智譜AI”“訊飛星火”這兩款國產(chǎn)大語言模型為測試工具,從評(píng)分和評(píng)語兩個(gè)方面進(jìn)行評(píng)價(jià),發(fā)現(xiàn):在評(píng)分的可用性上,國產(chǎn)大語言模型的評(píng)分與原始分?jǐn)?shù)具有微弱相關(guān)關(guān)系;在評(píng)分的穩(wěn)定性上,國產(chǎn)大語言模型前后兩次評(píng)分的相關(guān)度低、穩(wěn)定性較差,而前后兩次評(píng)級(jí)的相關(guān)度高、穩(wěn)定性較好;在評(píng)語的準(zhǔn)確率方面,國產(chǎn)大語言模型在內(nèi)容選擇、篇章結(jié)構(gòu)方面的作文評(píng)語準(zhǔn)確率較高;在評(píng)語的穩(wěn)定性方面,國產(chǎn)大語言模型的評(píng)語具有生成性,前后兩次生成的評(píng)語相似度低。(剩余12012字)

monitor