Introduction
데이터 마이닝 프로세스로는 크게 3가지 방법이 있다.
- CRISP-DM : Business Understand- Data Understandiung- Data Preparation- Modeling- Evaluation- Deployment
- KDD : Selection- Preprocessing- Transformation- Data Mining- Interpretation/Evaluation
- SEMA : Sample- Explore- Modify- Model- Assess
[추천] 각 단계별 간략한 설명은 Dr. Saed Sayad 사이트를 참고 바란다.
CRISP-DM는 "Cross Industry Standard Process for Data Mining"의 약어로 오늘날 가장 많이 사용되는 데이터 처리 방법론중 하나이다1.
본 문서에서는 CRISP-DM데이터 처리 순서에 따라서 내용을 작성 하였다[2].
CRISP-DM
CRISP-DM에 따르면 가장 첫 부분에는 "Business Understaing"부터 시작하지만, 기술적인 부분이 낮아 Introduction 챕터와 함께 간략하게만 설명 한다.
Business Understanding
This initial phase focuses on understanding the project objectives and requirements from a business perspective, and then converting this knowledge into a data mining problem definition, and a preliminary plan designed to achieve the objectives. A decision model, especially one built using the Decision Model and Notation standard can be used.
목표
- 고객의 요구 사항과 비즈니스 목표를 이해하고 이를 데이터 마이닝의 목표로 전환
- 결과에 영향을 주는 중요한 항목을 도출하고 마이닝 목표를 달성하기 위한 예비 계획 수립
Actions
- Determine Business Objects : 비즈니스 관점에서 고객 요구를 이해
- Assess Situation : 프로젝트에 영향을 미치는 요인에 대한 사실 조사
- Determine Data Mining Goals : 기술적인 측면에서 프로젝트 목표를 결정
- Produce Project Plan : 프로젝트의 목표를 달성하기 위한 세부 계획의 준비
기업내의 어떤 문제점을 빅데이터로 해결할 것인가?
[2]: ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf "IBM SPSS Modeler CRISP-DM" Guide