'[Major] Machine Learning' 카테고리의 글 목록

연관 분석(confidence, support)

각 항목 집합에서 항목간의 연관도를 알 수 있는 방법 중 하나가 지지도(support)와 신뢰도(confidence)이다.

지지도는 한 규칙이 주어진 데이터 집합에 얼마나 자주 적용할 수 있는지를 결정한다.

내가 하는 문제에 적용하면 -> 대상 문서 전체 중, X와 Y가 동시에 나타난 비율

Support(X, Y) = X와 Y가 동시에 발생한 문서 개수/전체 문서 개수

신뢰도는 Y에 속한 항목들이 얼마나 빈발하게 X를 포함한 트랜잭션들에 나타나는지를 결정한다.

Confidence(X, Y) = Support(X, Y)/Support(X)

일단 support값이 크면 두 단어가 비슷하다고 본다. 하지만 같이 발생한 것만으로는 실제 두 단어의 연관성이 높아도 값이 작게 나올 수가 있다 그래서 confidence값을 통해 이를 보완한다.

출처 : Introduction to data mining, Pang-ning Tan, Michael Steinbach, Vinpin Kumar

영화 등급 정리 (0)	2010.08.04
IEEE (0)	2010.01.04
Computer Science Conference Ranking (0)	2010.01.04
ACM SIG 국제 학회 정리 (0)	2010.01.04

Posted by 레커

1 2 3 4 5