2010. 8. 13. 11:29 [Major] Machine Learning
연관 분석(confidence, support)
각 항목 집합에서 항목간의 연관도를 알 수 있는 방법 중 하나가 지지도(support)와 신뢰도(confidence)이다.
지지도는 한 규칙이 주어진 데이터 집합에 얼마나 자주 적용할 수 있는지를 결정한다.
내가 하는 문제에 적용하면 -> 대상 문서 전체 중, X와 Y가 동시에 나타난 비율
Support(X, Y) = X와 Y가 동시에 발생한 문서 개수/전체 문서 개수
신뢰도는 Y에 속한 항목들이 얼마나 빈발하게 X를 포함한 트랜잭션들에 나타나는지를 결정한다.
Confidence(X, Y) = Support(X, Y)/Support(X)
일단 support값이 크면 두 단어가 비슷하다고 본다. 하지만 같이 발생한 것만으로는 실제 두 단어의 연관성이 높아도 값이 작게 나올 수가 있다 그래서 confidence값을 통해 이를 보완한다.
출처 : Introduction to data mining, Pang-ning Tan, Michael Steinbach, Vinpin Kumar
'[Major] Machine Learning' 카테고리의 다른 글
영화 등급 정리 (0) | 2010.08.04 |
---|---|
IEEE (0) | 2010.01.04 |
Computer Science Conference Ranking (0) | 2010.01.04 |
ACM SIG 국제 학회 정리 (0) | 2010.01.04 |