3.1.1 原理
3.1.2 具体操作步骤
- 从文档集中提取所有的词。
- 对每个词进行分词和标记,将其作为一个索引项。
- 为每个索引项创建一个列表,存储其在文档中的位置信息。
- 将所有索引项和列表存储在一个数据结构中,即倒排索引。
3.1.3 数学模型公式
$$ ext{inverted_index} = { ext{word} : [ ext{doc_id}1, ext{doc_id}2, ldots, ext{doc_id}_n] } $$
其中,$ ext{word}$ 是一个词,$ ext{doc_id}_i$ 是包含该词的文档的ID。
TF-IDF(Term Frequency-Inverse document Frequency)是一种基于文本的搜索算法,用于评估文档中词的重要性。TF-IDF算法的主要思想是,词的重要性不仅取决于文档中词的出现频率,还取决于词在所有文档中的出现频率。
3.2.1 原理
3.2.2 具体操作步骤
- 从文档集中提取所有的词。
- 计算每个词在文档中的出现频率(TF)。
- 计算每个词在所有文档中的出现频率(IDF)。
- 将TF和IDF相乘,得到词的重要性得分。
- 将所有词的重要性得分存储在一个数据结构中,即TF-IDF矩阵。
3.2.3 数学模型公式
$$ ext{tf-idf_matrix} = begin{bmatrix} ext{tf-idf}{1,1} & ext{tf-idf}{1,2} & ldots & ext{tf-idf}{1,n} ext{tf-idf}{2,1} & ext{tf-idf}{2,2} & ldots & ext{tf-idf}{2,n} vdots & vdots & ddots & vdots ext{tf-idf}{m,1} & ext{tf-idf}{m,2} & ldots & ext{tf-idf}_{m,n} end{bmatrix} $$
其中,$ ext{tf-idf}_{i,j}$ 是词$j$在文档$i$的重要性得分。
3.3.1 原理
3.3.2 具体操作步骤
- 从文档集中提取所有的词。
- 计算每个词在文档中的出现频率(TF)。
- 计算每个词在所有文档中的出现频率(IDF)。
- 将TF和IDF相乘,得到词的重要性得分。
- 将所有词的重要性得分存储在一个数据结构中,即BM25矩阵。
3.3.3 数学模型公式
$$ ext{bm25_matrix} = begin{bmatrix} ext{bm25}{1,1} & ext{bm25}{1,2} & ldots & ext{bm25}{1,n} ext{bm25}{2,1} & ext{bm25}{2,2} & ldots & ext{bm25}{2,n} vdots & vdots & ddots & vdots ext{bm25}{m,1} & ext{bm25}{m,2} & ldots & ext{bm25}_{m,n} end{bmatrix} $$
其中,$ ext{bm25}_{i,j}$ 是词$j$在文档$i$的重要性得分。
```python import re from collections import defaultdict
class InvertedIndex: def init(self): self.index = defaultdict(set)
index = InvertedIndex() index.adddocument(1, "The quick brown fox jumps over the lazy dog") index.adddocument(2, "The quick brown fox jumps over the lazy cat") index.add_document(3, "The quick brown fox jumps over the lazy fox")
querywords = ["quick", "fox", "lazy"] results = index.search(querywords) print(results) # 输出: {1, 2, 3} ```
```python from sklearn.feature_extraction.text import TfidfVectorizer
documents = [ "The quick brown fox jumps over the lazy dog", "The quick brown fox jumps over the lazy cat", "The quick brown fox jumps over the lazy fox" ]
vectorizer = TfidfVectorizer()
tfidfmatrix = vectorizer.fit_transform(documents)
print(tfidfmatrix.toarray()) ```
```python from sklearn.featureextraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosinesimilarity
documents = [ "The quick brown fox jumps over the lazy dog", "The quick brown fox jumps over the lazy cat", "The quick brown fox jumps over the lazy fox" ]
vectorizer = TfidfVectorizer()
tfidfmatrix = vectorizer.fit_transform(documents)
def bm25(querywords, tfidfmatrix, k1=1.2, b=0.75): querytfidf = vectorizer.transform([querywords]) querytf = querytfidf.toarray()[0] documenttfidf = tfidfmatrix.toarray() documenttf = documenttfidf.sum(axis=1) k3 = (k1 - 1) / (documenttf + k1) score = querytf @ documenttfidf / (documenttf + k3 * querytf_idf.sum(axis=1)[:, None]) return score
querywords = "quick fox lazy" score = bm25(querywords, tfidfmatrix) print(score) # 输出: [0.66666667 0.66666667 0.66666667] ```
