真题
真题1:云服务的优势在于?
- 需关注运维,自动扩容
- 提供完善的监控和管理工具
- 按量付费,成本可控
- 支持向量 + 标量的混合检索,提升检索准确性
真题2:node_postprocessors是什么含义?
query_engine = index.as_query_engine(# 先设置一个较大的召回切片数量similarity_top_k=20,streaming=True,node_postprocessors=[# 在rerank 模型中选择你最终想召回的切片个数,重排模型选择通义实验室的gte-rerank模型DashScopeRerank(top_n=3, model="gte-rerank"),# 设置一个相似度阈值,低于该阈值的切片会被过滤掉SimilarityPostprocessor(similarity_cutoff=0.2)]
)
真题3:如何让输出的内容尽可能相同?
可以在每次模型调用时传入相同的seed值
真题4:如何提升检索质量?
在实践中,单纯升级Embedding模型就可能显著提升检索质量
真题5:如果RAG召回所有内容会造成什么问题?
过多的无关信息还会降低大模型回答的效率和准确性。
真题:HyDE(Hypothetical Document Embedding)方法是?
先生成假想答案文档,再用于检索真实文档
单选题
- 在 RAG 应用中,文档切片长度过短可能导致什么问题?
A. 引入过多干扰信息
B. 有效信息被截断,无法获取完整上下文
C. 提高检索效率
D. 降低生成模型的计算成本
答案:B - Markdown 切片策略的主要优势是?
A. 适合处理复杂图片内容
B. 针对 Markdown 文档结构优化,保持层次清晰
C. 适用于所有类型的文档格式
D. 自动提取表格和图片信息
答案:B - 以下哪种切片策略适合处理逻辑性强、内容专业的文档?
A. Token 切片
B. 语义切片
C. 句子窗口切片
D. 默认句子切片
答案:B - 在检索阶段,若用户问题描述不完整,以下哪种方法可能提升效果?
A. 直接返回空答案
B. 使用问题改写或扩写
C. 增加文档切片长度
D. 降低 Embedding 模型版本
答案:B - HyDE(Hypothetical Document Embedding)方法的核心步骤是?
A. 直接检索真实文档
B. 先生成假想答案文档,再用于检索真实文档
C. 仅依赖标签过滤
D. 使用滑动窗口补充上下文
答案:B - 若知识库文档包含大量表格且解析失败,应优先采取什么措施?
A. 更换生成模型
B. 改进文档解析器以支持表格提取
C. 增加切片长度
D. 使用默认句子切片策略
答案:B - Embedding 模型升级到 text-embedding-v3 的主要优势是?
A. 降低计算成本
B. 提升检索效果,减少优化需求
C. 支持更多文档格式
D. 自动处理图片内容
答案:B - 索引默认使用内存存储的缺点是?
A. 无法持久化数据
B. 支持超大规模数据
C. 提高检索准确性
D. 降低运维复杂度
答案:A - 云服务存储向量的优势不包括以下哪项?
A. 自动扩容
B. 按量付费
C. 支持混合检索(向量+标量)
D. 无需监控工具
答案:D - 在检索后处理阶段,以下哪种方法用于提升相关性?
A. 问题扩写
B. 重排序(ReRank)
C. 增加切片数量
D. 降低相似度阈值
答案:B
多选题
- 文档解析阶段可能遇到的问题包括哪些?(多选)
A. 不支持 Keynote 格式
B. 无法提取表格和图片内容
C. 切片长度过大
D. 目录层级混乱
答案:A, B - 以下哪些是文档切片的策略?(多选)
A. Token 切片
B. 语义切片
C. 图片切片
D. Markdown 切片
答案:A, B, D - 提升检索效果的方法包括哪些?(多选)
A. 升级 Embedding 模型
B. 使用问题改写
C. 增加文档切片长度
D. 引入重排序机制
答案:A, B, D - 关于句子窗口切片,以下哪些描述正确?(多选)
A. 保持句子完整性
B. 包含上下文窗口
C. 适合处理长文档
D. 仅适用于短文本
答案:B, C - 以下哪些是问题改写的方法?(多选)
A. HyDE(假想文档)
B. StepDecomposeQueryTransform
C. 直接返回答案
D. 提取标签过滤
答案:A, B, D - 云服务存储向量的优势包括哪些?(多选)
A. 按量付费
B. 自动扩容
C. 支持混合检索
D. 无需任何配置
答案:A, B, C - 以下哪些是检索后处理的方法?(多选)
A. 滑动窗口补充上下文
B. 重排序(ReRank)
C. 相似度阈值过滤
D. 问题扩写
答案:A, B, C - 关于
node_postprocessors
的参数设置,以下哪些是合理的?(多选)
A.similarity_top_k
大于top_n
B.streaming=True
放在外部配置
C. 直接设置similarity_cutoff=0
D. 忽略重排序模型
答案:A, B - 以下哪些场景适合使用语义切片?(多选)
A. 文档逻辑性强
B. 内容专业且结构复杂
C. 需要严格控制 Token 数量
D. 处理简单对话文本
答案:A, B - 在 RAG 应用中,以下哪些方法可以增强检索准确性?(多选)
A. 提取结构化标签
B. 使用 HyDE 生成假想文档
C. 结合用户画像扩展上下文
D. 减少文档切片数量
答案:A, B, C - 关于 Embedding 模型,以下哪些说法正确?(多选)
A. 余弦相似度是常用计算方法
B. 新版本模型通常效果更好
C. 无法处理长文本
D. 仅用于生成答案
答案:A, B - 以下哪些是文档切片过长的负面影响?(多选)
A. 引入无关信息
B. 降低生成准确性
C. 提高检索效率
D. 增加计算成本
答案:A, B, D - 关于滑动窗口检索,以下哪些描述正确?(多选)
A. 补充相邻切片的上下文
B. 避免语义连接丢失
C. 仅适用于短文档
D. 会增加检索结果的数量
答案:A, B, D - 在标签提取增强检索中,以下哪些步骤是必要的?(多选)
A. 从文档切片提取结构化标签
B. 从用户问题中提取标签
C. 使用标签过滤检索结果
D. 忽略标签的语义关联
答案:A, B, C - 关于 RAG 系统优化,以下哪些措施可能有效?(多选)
A. 使用大模型润色 Markdown 文档
B. 调整生成模型的温度参数
C. 补充知识库缺失内容
D. 仅依赖默认切片策略
答案:A, B, C
原文链接
https://github.com/AlibabaCloudDocs/aliyun_acp_learning/blob/main/%E5%A4%A7%E6%A8%A1%E5%9E%8BACP%E8%AE%A4%E8%AF%81%E6%95%99%E7%A8%8B/p2_%E6%9E%84%E9%80%A0%E5%A4%A7%E6%A8%A1%E5%9E%8B%E9%97%AE%E7%AD%94%E7%B3%BB%E7%BB%9F/2_5_%E4%BC%98%E5%8C%96RAG%E5%BA%94%E7%94%A8%E6%8F%90%E5%8D%87%E9%97%AE%E7%AD%94%E5%87%86%E7%A1%AE%E5%BA%A6.ipynb