信息检索（IR）知识图谱：从入门到前沿的书单和论文清单

写在前面

信息检索（Information Retrieval, IR）是一个有 60+ 年历史的学科，但近十年因为深度学习和 RAG 的兴起又焕发了第二春。这篇文章帮你建立对整个领域的全局认知——哪些书必读，哪些论文改变了方向，模型之间怎么演进的。

一、核心书籍

📕 入门与经典

1. Introduction to Information Retrieval (IIR)

作者：Manning, Raghavan, Schütze（2008）
链接：nlp.stanford.edu/IR-book
地位：IR 领域的圣经，必读
特色：从布尔模型讲到语言模型，覆盖索引、排序、评估、分类、聚类，全面且深入
在线免费阅读，有 HTML 和 PDF 版本
适合：第一次系统学 IR 的人

2. Search Engines: Information Retrieval in Practice

作者：Croft, Metzler, Strohman（2009）
特色：更偏工程实践，搜索引擎的实现细节更多
适合：想动手做搜索引擎的人
注意：部分内容有点旧了，但核心原理不变

3. Modern Information Retrieval

作者：Baeza-Yates, Ribeiro-Neto（2011, 2nd ed）
特色：覆盖面最广，包括 Web 检索、多媒体检索、数字图书馆
适合：想了解 IR 在不同场景应用的人

📗 进阶专题

4. Language Modeling for Information Retrieval

作者：Croft, Lafferty（2003）
特色：语言模型方法在 IR 中的应用，是理解统计检索方法的关键读物

5. Learning to Rank for Information Retrieval

作者：Liu, Tie-Yan（2011）
特色：LTR 方法的系统总结，包括 pointwise、pairwise、listwise 三大类

📘 数学基础

6. Foundations of Statistical Natural Language Processing

作者：Manning, Schütze（1999）
特色：IR 和 NLP 的统计方法基础，对理解概率检索模型有帮助

二、里程碑论文

按主题分组，标注了每篇论文的核心贡献。

🏛️ 概率检索与 BM25 系列

论文	年份	核心贡献
Robertson & Spärck Jones, “Relevance Weighting of Search Terms”	1976	提出 RSJ 权重，概率检索的奠基之作
Robertson, Walker, “Some Simple Effective Approximations to the 2-Poisson Model”	1994	2-Poisson 模型的实用近似，BM25 的直接前身
Robertson, Zaragoza, “The Probabilistic Relevance Framework: BM25 and Beyond”	2009	BM25 的权威综述，推导链 + 扩展（BM25F 等）
Spärck Jones et al., “A Probabilistic Model of Information Retrieval”	2000	BM25 原始实验验证，TREC 上的系统评测

为什么要读：BM25 至今仍是混合检索的核心组件，理解它的推导比把它当黑盒强 10 倍。

📊 语言模型方法

论文	年份	核心贡献
Ponte & Croft, “A Language Modeling Approach to Information Retrieval”	1998	开创了 LM for IR 的方向，SIGIR 最佳论文
Zhai & Lafferty, “A Study of Smoothing Methods for Language Models”	2001	语言模型的平滑策略（Dirichlet, Jelinek-Mercer 等），对效果影响巨大
Lavrenko & Croft, “Relevance Based Language Models”	2001	相关性模型（RM），将 LM 和伪相关反馈结合

为什么要读：LM 方法是向量检索（embedding）的理论前身。理解 Dirichlet 平滑等概念，对理解现代稠密检索有帮助。

🏋️ Learning to Rank

论文	年份	核心贡献
Burges et al., “Learning to Rank Using Gradient Descent” (RankNet)	2005	神经网络做排序，pairwise 方法的先驱
Burges et al., “LambdaRank”	2006	引入 lambda 梯度，效果飞跃
Cao et al., “Learning to Rank: From Pairwise Approach to Listwise Approach” (ListNet)	2007	listwise 方法，优化整个列表的排序
Liu, “Learning to Rank for Information Retrieval”	2009	综述论文，三大类方法的系统比较

为什么要读：LTR 是现代搜索系统的标配。Elasticsearch 的 Rank Feature、百度/谷歌的排序层都用了 LTR 思想。

🧠 稠密检索与深度学习 IR

论文	年份	核心贡献
Huang et al., “Learning Deep Structured Semantic Models for Web Search” (DSSM)	2013	双塔模型的鼻祖，语义检索的起点
Mitra et al., “Dual Encoder with Attention” (Duet)	2017	结合精确匹配和语义匹配
Karpukhin et al., “Dense Passage Retrieval for Open-Domain Question Answering” (DPR)	2020	RAG 时代的检索基线，对比学习训练双塔
Xiong et al., “Approximate Nearest Neighbor Negative Contrastive Learning” (ANCE)	2021	硬负例挖掘，提升稠密检索质量
Gao & Callan, “Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval” (Condenser)	2022	预训练阶段就为检索优化
Lin et al., “Pre-trained Language Models for Information Retrieval”	2023	PLM for IR 的综述

为什么要读：如果你在做 RAG，这些论文构成了稠密检索的技术栈。DPR 是起点，ANCE/Condenser 是改进。

🔄 重排序与交叉编码器

论文	年份	核心贡献
Nogueira & Cho, “Passage Re-ranking with BERT”	2019	BERT 做重排序的开山之作，简单但效果极好
Gao et al., “Modularized TransRanker”	2021	模块化重排序
Sun et al., “LiR: Late Interaction for Retrieval” (ColBERT)	2020	延迟交互模型，兼顾效率和效果，token 级匹配

为什么要读：现代 RAG 管线的标准做法——先粗检索（BM25/DPR），后精排序（ColBERT/Cross-Encoder）。

📚 混合检索与检索增强

论文	年份	核心贡献
Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”	2020	RAG 概念的正式提出，Facebook AI
Karpukhin et al., “DPR”	2020	RAG 中稠密检索的标配
Ma et al., “Replication of DPR + BM25 Hybrid”	2021	验证 BM25 + DPR 混合 > 单一方法
Gao et al., “Precise Zero-Shot Dense Retrieval without Relevance Labels” (HyDE)	2023	用 LLM 生成假设文档来增强检索

三、IR 模型演进全景

1950s-60s: 布尔模型（精确匹配，全有或全无）
    │
1970s-80s: 向量空间模型（VSM, Salton）
    │         └─ tf-idf, 余弦相似度
    │
1980s-90s: 概率检索模型（Robertson, Spärck Jones）
    │         └─ BIM → BM25（词频饱和 + 长度归一化）
    │
1990s-2000s: 语言模型方法（Ponte & Croft, Zhai）
    │         └─ 统计语言模型 + 平滑 → 查询似然
    │
2000s: Learning to Rank（机器学习排序）
    │         └─ Pointwise → Pairwise → Listwise
    │
2010s: 语义检索（深度学习）
    │         └─ DSSM → 双塔模型 → 表示学习
    │
2020s: 稠密检索 + RAG
    │         └─ DPR → ColBERT → Hybrid(BM25+Dense) → Rerank
    │
2024+:  端到端检索 + LLM-native
          └─ GRIT, contextual embeddings, chunk-free retrieval

四、推荐学习路径

第一阶段：建立基础（2-3 周）

读 IIR 第 1-6 章（布尔模型、词项词典、索引、向量空间模型）
读 IIR 第 11 章（概率检索，BM25）
读 Robertson & Zaragoza 2009（BM25 的权威综述）

第二阶段：理解现代方法（2-3 周）

读 Ponte & Croft 1998（语言模型方法入门）
读 DPR 论文（Karpukhin et al. 2020）
读 ColBERT 论文（延迟交互，token 级匹配）

第三阶段：RAG 实战（2-3 周）

读 RAG 原始论文（Lewis et al. 2020）
了解 HyDE（假设文档增强检索）
实践：搭建 BM25 + DPR 混合检索 + Cross-Encoder 重排序

第四阶段：深入专题

如果做评估：读 IR 评估方法（Cranfield paradigm, nDCG, MAP）
如果做 LTR：读 Liu 的综述
如果做稠密检索优化：读 ANCE, Condenser 系列

五、重要会议和追踪渠道

SIGIR：IR 领域顶会，每年必看
WSDM：Web 搜索与数据挖掘
ECIR：欧洲 IR 会议
NeurIPS/ICML：深度学习检索方法
EMNLP/ACL：NLP 视角的检索
TREC：年度评测竞赛，跟踪 SOTA

追踪建议：关注 Papers With Code - Information Retrieval 和 Semantic Scholar 的相关话题。

持续更新：这份清单会随着领域发展更新。如果你发现重要的遗漏，欢迎告诉我。