《大语言模型开发:用开源模型开发本地系统》第11-12章阅读心得之词向量构建与检索...
在百忙之中,完成本次阅读的第四部分。我研读了《大语言模型开发》第11-12章,这两章是对模型评估标准与RAG技术的剖析。市面上的大模型可谓是百花齐放,百家争鸣,不过不同模型的性能和表现总要分个高下,那么如何来评估模型的好坏呢?作者在第11章指出,评估指标体系分为自动评估和人工评估两大类。自动评估采用BLEU评分机制,通过计算n-gram匹配度来衡量生成文本质量,n取1到4时分别计算unigram到4-gram重叠率,再用几何平均得到最终分数。ROUGE指标族包含ROUGE-N(n-gr