본문 바로가기

전체 글

(14)
BM25 개념 주어진 검색 쿼리에 대해 문서의 관련성을 추정하는 데 사용되는 랭킹 함수 문서 A, B의 검색어 빈도수가 같을 때 문서의 길이가 길수록 낮은 점수를 갖음 다른 문서에 잘 등장하지 않은 단어를 포함한 문서는 해당 단어의 빈도수가 높지 않아도 높은 점수를 갖음 수식 $$ score(D, Q) = \sum_{i=1}^{n} IDF(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac {|D|}{avgdl})} $$ $Q$ : 키워드 $q_1, \dots, q_n$을 포함하는 쿼리 $D$ : 문서 $IDF(q_{i})$ : TF-IDF(Term Frequency - Inverse Document Fre..
TF-IDF(Term Frequency - Inverse Document Frequency) 개념 단어 빈도 - 역 문서 빈도 DTM(Document-Term Matrix) 내에 있는 각 단어에 대한 중요도를 계산할 수 있음 정보 검색과 텍스트 마이닝에서 이용하는 가중치 여러 문서에서 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치 모든 문서에서 자주 등장하는 단어는 중요도가 낮고, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단함 즉, TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것임 용도 문서의 핵심어 추출 검색 엔진에서 검색 결과의 순위 결정 문서들 사이의 비슷한 정도 계산 설명 TF(Term Frequency) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 값이 높을수록 해당 단어가 문서에서 ..
DTM(Document-Term Matrix) 개념 문서 단어 행렬 서로 다른 문서들의 BoW들을 결합한 표현 방법 행(문서)과 열(단어)을 반대로 선택하면 TDM이라고 부르기도 함 서로 다른 문서들을 비교할 수 있음 예시 아래와 같이 3개의 문서가 있을 때 DTM은 아래 표와 같음 문서 문서1: 나는 학교에 갔다 문서2: 나는 집에 갔다 문서3: 나는 회사에 갔다 DTM 갔다 나는 집에 학교에 회사에 문서 1 1 1 0 1 0 문서 2 1 1 1 0 0 문서 3 1 1 0 0 1 총 개수 3 3 1 1 1 한계점 희소 표현(Sparse representation) 각 문서 벡터의 차원은 단어 집합의 크기이고 대부분의 값이 0이 됨 공간적 낭비와 계산 리소스를 증가시킬 수 있음 구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을..
[논문] 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 제목: 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 저널명: 한국정보과학회 출간년도: 2021 저자: 박서연(울산대학교), 옥철영(울산대학교) URL: https://www.dbpia.co.kr/Journal/articleDetail?nodeId=NODE10536782 요약 본 논문에서 말뭉치에서 음절 uni-gram, bi-gram, tri-gram의 빈도수를 계산하고 이를 활용하여 확률식을 학습하여 띄어쓰기 및 붙여쓰기 오류 교정 시스템을 구축한다. 딥러닝 모델을 사용할 경우 문장에 있는 띄어쓰기를 모두 제거하고 띄어쓰기를 교정하는데 본 논문은 원래 문장의 띄어쓰기를 반영하여 잘못된 띄어쓰기를 제거하고 띄어쓰기가 되지 않은 곳에 띄어쓰기를 제거한다..
GLUE Benchmark GLUE(General Language Understanding Evaluation) benchmark는 자연언어 이해 시스템을 학습, 평가, 분석하기 위한 리소스 모음으로 영어로 구성되어있다. 언어 모델 평가할 때 많이 사용되고 있다. 논문: https://openreview.net/pdf?id=rJ4km2R5t7 사이트: https://gluebenchmark.com/ GLUE Benchmark The General Language Understanding Evaluation (GLUE) benchmark is a collection of resources for training, evaluating, and analyzing natural language understanding systems gl..
Programmers | Weekly Challenge | 1주차 - 부족한 금액 계산하기 문제 설명 새로 생긴 놀이기구는 인기가 매우 많아 줄이 끊이질 않습니다. 이 놀이기구의 원래 이용료는 price원 인데, 놀이기구를 N 번 째 이용한다면 원래 이용료의 N배를 받기로 하였습니다. 즉, 처음 이용료가 100이었다면 2번째에는 200, 3번째에는 300으로 요금이 인상됩니다. 놀이기구를 count번 타게 되면 현재 자신이 가지고 있는 금액에서 얼마가 모자라는지를 return 하도록 solution 함수를 완성하세요. 단, 금액이 부족하지 않으면 0을 return 하세요. 핵심 등차수열의 합 공식을 이용한다. $$ a = 첫 항 $$ $$ l = n번째 항 $$ $$ S_{n} = {n (a+l) \over 2} = {n (a \times (n+1)) \over 2} $$ 구현 price = ..