개념
주어진 검색 쿼리에 대해 문서의 관련성을 추정하는 데 사용되는 랭킹 함수
문서 A, B의 검색어 빈도수가 같을 때 문서의 길이가 길수록 낮은 점수를 갖음
다른 문서에 잘 등장하지 않은 단어를 포함한 문서는 해당 단어의 빈도수가 높지 않아도 높은 점수를 갖음
수식
score(D,Q)=n∑i=1IDF(qi)⋅f(qi,D)⋅(k1+1)f(qi,D)+k1⋅(1−b+b⋅|D|avgdl)
- Q : 키워드 q1,…,qn을 포함하는 쿼리
- D : 문서
- IDF(qi) : TF-IDF(Term Frequency - Inverse Document Frequency) 참고
- f(qi,D) : 문서 D에서 q_i$의 용어 빈도수
- |D| : 문서 D의 길이
- avgdl : 데이터 집합의 평균 문서 길이
- k1,b : 자유 매개변수로 최적화가 없는 경우 k1∈[1.2,2.0], b=0.75
IDF(qi)=ln(N−n(qi)+0.5n(qi)+0.5+1)
- N : 데이터 집합의 전체 문서 수
- n(qi) : qi 를 포함하는 문서 수
Reference
'Study' 카테고리의 다른 글
회귀 모델 성능 평가 지표(MAE, MSE, RMSE, MAPE 등) (1) | 2022.01.07 |
---|---|
분류 모델 성능 평가 지표(Accuracy, Precision, Recall, F1 score 등) (2) | 2022.01.02 |
TF-IDF(Term Frequency - Inverse Document Frequency) (0) | 2021.12.13 |
DTM(Document-Term Matrix) (0) | 2021.12.13 |
[논문] 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 (0) | 2021.12.12 |