개념
- 문서 단어 행렬
- 서로 다른 문서들의 BoW들을 결합한 표현 방법
- 행(문서)과 열(단어)을 반대로 선택하면 TDM이라고 부르기도 함
- 서로 다른 문서들을 비교할 수 있음
예시
아래와 같이 3개의 문서가 있을 때 DTM은 아래 표와 같음
- 문서
- 문서1: 나는 학교에 갔다
- 문서2: 나는 집에 갔다
- 문서3: 나는 회사에 갔다
- DTM
갔다 나는 집에 학교에 회사에 문서 1 1 1 0 1 0 문서 2 1 1 1 0 0 문서 3 1 1 0 0 1 총 개수 3 3 1 1 1
한계점
- 희소 표현(Sparse representation)
- 각 문서 벡터의 차원은 단어 집합의 크기이고 대부분의 값이 0이 됨
- 공간적 낭비와 계산 리소스를 증가시킬 수 있음
- 구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을 통해 단어를 정규화하여 단어 집합의 크기를 줄일 순 있음
- 단순 빈도 수 기반 접근
- 각 문서에는 중요한 단어와 불필요한 단어들이 혼재되어 있음
- 불용어와 중요한 단어에 대해서 가중치를 주어야 함 → TF-IDF
Reference
'Study' 카테고리의 다른 글
분류 모델 성능 평가 지표(Accuracy, Precision, Recall, F1 score 등) (2) | 2022.01.02 |
---|---|
BM25 (0) | 2021.12.13 |
TF-IDF(Term Frequency - Inverse Document Frequency) (0) | 2021.12.13 |
[논문] 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 (0) | 2021.12.12 |
GLUE Benchmark (0) | 2021.11.07 |