Processing math: 100%
본문 바로가기

Study

BM25

개념

주어진 검색 쿼리에 대해 문서의 관련성을 추정하는 데 사용되는 랭킹 함수
문서 A, B의 검색어 빈도수가 같을 때 문서의 길이가 길수록 낮은 점수를 갖음
다른 문서에 잘 등장하지 않은 단어를 포함한 문서는 해당 단어의 빈도수가 높지 않아도 높은 점수를 갖음

수식

score(D,Q)=ni=1IDF(qi)f(qi,D)(k1+1)f(qi,D)+k1(1b+b|D|avgdl)

  • Q : 키워드 q1,,qn을 포함하는 쿼리
  • D : 문서
  • IDF(qi) : TF-IDF(Term Frequency - Inverse Document Frequency) 참고
  • f(qi,D) : 문서 D에서 q_i$의 용어 빈도수
  • |D| : 문서 D의 길이
  • avgdl : 데이터 집합의 평균 문서 길이
  • k1,b : 자유 매개변수로 최적화가 없는 경우 k1[1.2,2.0], b=0.75

IDF(qi)=ln(Nn(qi)+0.5n(qi)+0.5+1)

  • N : 데이터 집합의 전체 문서 수
  • n(qi) : qi 를 포함하는 문서 수

Reference