개념

주어진 검색 쿼리에 대해 문서의 관련성을 추정하는 데 사용되는 랭킹 함수
문서 A, B의 검색어 빈도수가 같을 때 문서의 길이가 길수록 낮은 점수를 갖음
다른 문서에 잘 등장하지 않은 단어를 포함한 문서는 해당 단어의 빈도수가 높지 않아도 높은 점수를 갖음

수식

$$
score(D, Q) = \sum_{i=1}^{n} IDF(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac {|D|}{avgdl})}
$$

$$
IDF(q_i) = ln(\frac {N - n(q_i) + 0.5} {n(q_i) + 0.5} + 1)
$$

Reference

회귀 모델 성능 평가 지표(MAE, MSE, RMSE, MAPE 등) (1)	2022.01.07
분류 모델 성능 평가 지표(Accuracy, Precision, Recall, F1 score 등) (2)	2022.01.02
TF-IDF(Term Frequency - Inverse Document Frequency) (0)	2021.12.13
DTM(Document-Term Matrix) (0)	2021.12.13
[논문] 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 (0)	2021.12.12