انجام پروژه های داده کاوی و یادگیری ماشین(پروژه داده کاوی)
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
برای صحبت در خصوص هر یک از عناوین زیر و مشاوره رایگان از طریق تلگرام با آی دی @ ارتباط برقرار کنید
انجام پروژه های داده کاوی (Data Mining) با تمام ابزار های داده کاوی از جمله رپیدماینر، وکا و … در زمینه های زیر قابل انجام است
انجام پروژه های داده کاوی data mining با نرم افزار متلب ، R ، کلمنتاین ، وکا weka ، رپیدماینر ، spss
رده بندی (Classification)
الگوریتم های دسته بندیClassification
خوشه بندی (Clustering)
خوشه بندی : k-Means ، kohonen ، Twostep ، Anomaly
پیش بینی (Prediction)
درخت تصمیم :C5.0 ، CHAID ، C&R ،QUEST ، RandomForest ،REPTree ،ID3،NBTree
شبکه عصبی :Neural Net ،perceptron ،AutoMLP
شبکه بیزین : Bayes Net،NaiveBayes
ماشین بردار پشتیبان : SVM ،LibSVM ،Support Vector Machine (Linear)
رگرسیون : Regression ، Logeistic
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
الگوریتم های قواعد انجمنی : Apriori ، Carma ، Sequence ، FP-Growth
انتخاب ویژگی (Feature Selection)
نزدیکترین همسایه: KNN
الگوریتم های خوشه بندی Clustering
نرم افزار weka RapidMiner
انجام پروژه های داده کاوی با نرم افزار weka
آموزش نرم افزار کلمنتاین Clementine
آموزش نرم افزار IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine
انجام پروژه های داده کاوی با نرم افزار IBM SPSS Modeler
فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler
فرآیند داده کاوی در SPSS Modeler
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
انجام پروژه های داده کاوی با نرم افزار RapidMiner
انجام پروژه های داده کاوی با نرم افزار weka
مشاوره در زمینه پروژه های داده کاوی
انجام پروژه های داده کاوی با نرم افزار weka RapidMiner
مشاوره در زمینه پروژه های داده کاوی
در مقاطع کارشناسی و کارشناسی ارشد
با نرم افزار Weka- Clementine
خوشه بندی : k-Means ، kohonen ، Twostep ، Anomaly
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
الگوریتم های قواعد انجمنی : Apriori ، Carma ، Sequence ، FP-Growth
پیش بینی عود مجدد سرطان پستان به کمک داده کاوی
کاربرد داده کاوی در پیدا کردن انواع خرابی در شبکه ایرانسل
ارائه چارچوبی برای شناسایی رابطه بین خصوصیات دستگیرشدگان با نوع مواد مخدرمکشوفه
تحلیل سبد سهام به منظور شناسایی الگوهای رایج در رفتار سهامداران
کاربرد داده کاوی در پیش بینی بیماری سرطان ریه
بررسی عوامل موثر بر بیماری افسردگی و ارائه راهکارهایی جهت کاهش آن
طراحی یک متدولوژی مبتنی بر RFMجهت سنجش وفاداری مشتریان
کاربرد داده کاوی در بیمه – قراردادهای سود اور و زیان آور
۱۳۹۳٫۱۲٫۱۰
آموزش نرم افزار کلمنتاین Clementine 12
آموزش نرم ۱۴٫۲ افزارIBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine 12
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler14.2
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
انجام پروژه های داده کاوی data mining با نرم افزار متلب ، R ، کلمنتاین ، وکا weka ، رپیدماینر ، spss
انجام پروژه های داده کاوی با نرم افزار رپید ماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکاweka
انجام پروژه های داده کاوی با نرم افزارSPSS Modeler14.2
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12
کاربرد داده کاوی در بیماری سرطان ، خوش خیم و بد خیم
کاربرد داده کاوی در پیش بینی وضعیت تحصیلی دانشجویان با تکنیک های داده کاوی
رگرسیون : Regression ، Logeistic
شبکه های عصبی مصنوعی چند لایه پرسپترون
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
شبکه های عصبی مصنوعی با تابع پایه شعاعی
درختان تصمیم گیری طبقه بندی و رگرسیونی
مدل های درختی
ماشین های بردار حامی طبقه بندی و رگرسیونی
سیستم های استنباط فازی
سیستم های استنباط فازی – عصبی
سیستم استنباط بیزین
قواعد انجمنی(Association Rules)
شبکه عصبی مصنوعی یا ANN
درخت تصمیم
عوامل موثر بر بروز بیماری دیابت و ارائه راهکار جهت کاهش آن
کاربرد داده کاوی در اعتیاد به مواد مخدر
کاربرد داده کاوی در مدیریت ارتباط با مشتری- کالاهای مرجوعی
کاربرد داده کاوی در شناسایی باکتری ها
نزدیکترین همسایه KNN
کاربرد داده کاوی بر تصادفات جاده ای و ارائه راهکار های برای کاهش آن
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
هرس درخت تصمیم
الگوریتم های خوشه بندی Clustering
کاربرد داده کاوی در روش های پیشگیری از بارداری
درخت تصمیم با شاخص جینی
آنتروپی
درخت تصمیم C5.0
درخت های تصمیم CHAID ، C&R ،QUEST ، RandomForest ،REPTree ،ID3،NBTree
بگینگ و بوستینگ
ماشین بردار پشتیبان
کاربرد داده کاوی در تشخیص اختلالات در کبد
ماشین بردار پشتیبان با بهینه ساز ازدحام ذرات
سیستم استنباط بیزین
شبکه عصبی Neural Net ، perceptron ،AutoMLP
الگوریتم ژنتیک
کاربرد داده کاوی در تشخیص بیماری هپاتیت
کاربرد داده کاوی در بازی شطرنج
داده کاوی (Data Mrining) در زمینه های قواعد انجمنی (Association Rules)
داده کاوی (Data Mrining) در زمینه های وب سرویس
کاربرد داده کاوی در بیماری تیروئید
داده کاوی (Data Mrining) در زمینه های متن کاوی
کاربرد داده کاوی در ثبت نام در مهد کودک
داده کاوی (Data Mrining) در زمینه های اینترنت اشیاء
داده کاوی (Data Mrining) در زمینه های قواعد همسایگی با fp-growth,apriory
کاربرد داده کاوی در پیش بینی درآمد
داده کاوی در پیش بینی سرطان سینه با استفاده از ماموگرافی
کاربرد داده کاوی در پیش بینی بیماری مزمن کلیه
کاربرد داده کاوی در پزشکی : سوءتغذیه
شبکه بیزین : Bayes Net NaiveBayes
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
مشاوره و انجام پایان نامه و پروژه های کارشناسی ارشد داده کاوی
الگوریتم های دسته بندیClassification
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12
انجام پروژه های داده کاوی با نرم افزار SPSS Modeler14.2
ازدحام ذرات
الگوریتم های دسته بندیClassification
الگوریتم های فراابتکاری
قواعد همسایگی
آموزش نرم افزار کلمنتاین Clementine 12
آموزش نرم ۱۴٫۲ افزارIBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine 12
انجام پروژه های داده کاوی با نرم افزار.۲ ۱۴ IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکا weka
فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler14.2
فرآیند داده کاوی در SPSS Modeler14.2
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler14.2
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
انجام پروژه های داده کاوی رشته مهندسی کامپیوتر
انجام پروژه های داده کاوی هوش مصنوعی
انجام پروژه های داده کاوی رشته مهندسی برق
انجام پروژه های داده کاوی دانشجویی
انجام پروژه های داده کاوی سازمانی
انجام پروژه های داده کاوی data mining با نرم افزار متلب ، R ، کلمنتاین ، وکا weka ، رپیدماینر ، spss
انجام پروژه های داده کاوی با نرم افزار رپید ماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکاweka
انجام پروژه های داده کاوی با نرم افزارSPSS Modeler14.2
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12
fp-growth
Apriory
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
ماشین بردار پشتیبان SVM مانند LibSVM ،Support Vector Machine (Linear)
تحلیل نتایج با رسم نمودار Roc
انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و …
کاربرد داده کاوی در مدیریت ارتباط با مشتری – تحلیل سبد بازار
انواع روش های نمونه برداری و بیش نمونه گیری
کاربرد داده کاوی در مخابرات ، سفارشی سازی در خدمات به مشتریان
تشخیص داده پرت با کانزدیکترین همسایه
تشخیص داده پرت محلی
رده بندی (Classification)
وب کاوی (Web Mining)
انتخاب ویژگی (Feature Selection)
قواعد انجمنی (Association Rules)
کاربرد داده کاوی در پیش بینی شرکتهای ورشکسته از نظر اقتصادی
کاربرد داده کاوی در بازاریابی بانکی
خوشه بندی (Clustering)
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
کاربرد داده کاوی بر روابط بین نمرات آزمون های ورودی با عملکرد شغلی و وضعیت ارتقاء آنان
پیش بینی (Prediction)
کاربرد داده کاوی در تشخیص شناسایی ایمیل های اسپم
متن کاوی(Text mining)
کاربرد داده کاوی در تشخیص قارچ های سمی از غیر سمی
شبکه عصبی :Neural Net ،perceptron ،AutoMLP
شبکه بیزین : Bayes Net،NaiveBayes
ماشین بردار پشتیبان : SVM ،LibSVM ،Support Vector Machine (Linear)
رگرسیون : Regression ، Logeistic
نزدیکترین همسایه: KNN
الگوریتم های خوشه بندی Clustering
خوشه بندی : k-Means ، kohonen ، Twostep ، Anomaly
الگوریتم های قواعد انجمنی : Apriori ، Carma ، Sequence ، FP-Growth
انجام پروژه های داده کاوی با نرم افزار وکا Weka
روش های حل مشکل رده نامتوازن
پیش بینی نرخ بیکاری با استفاده از سری زمانی
کاربرد داده کاوی در شناسایی تذکرات جعلی با استفاده از روش شباهت بین تذکرات
الگوریتم ژنتیک
انجام پروژه های داده کاوی رشته مهندسی کامپیوتر
انجام پروژه های داده کاوی هوش مصنوعی
انجام پروژه های داده کاوی رشته مهندسی برق
انجام پروژه های داده کاوی دانشجویی
انجام پروژه های داده کاوی سازمانی
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
داده کاوی پزشکی : کاربرد داده کاوی در پیش بینی سوختگی
الگوریتم ازدحام ذرات
الگوریتم های فراابتکاری
کاربرد داده کاوی در بیماری قلبی
شبکه عصبی مصنوعی(ANN)
شبکه های عصبی مصنوعی (RBF)
کاربرد داده کاوی در بیماری سرطان ریه
پیش بینی عودمجدد سرطان پستان به کمک داده کاوی
کاربرد داده کاوی در تشخیص بیماری اپاندیس
درخت تصمیم با شاخص جینی و آنتروپی
کاربرد داده کاوی در هدفمند کردن انتخاب رشته دانشگاهی کاربرد داده کاوی در پیش بینی تصادفات جاده ای
شبکه های عصبی PCNN
کاربرد داده کاوی در طبقه بندی حیوانان
بگینگ و بوستینگ
کاربرد داده کاوی در پیدا کردن انواع خرابی در شبکه ایرانسل
ماشین بردار پشتیبان
سیستم استنباط بیزین
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
بررسی الگوریتم های مختلف شبکه های گیرید
داده کاوی (Data Mrining) در زمینه های دسته بندی (Classification)
داده کاوی (Data Mrining) در زمینه های خوشه بندی (Clustering)
نرمافزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت”Waikato Environment for knowledge Analysis” استخراج گشته است. همچنین Weka ، نام پرندهای با طبیعت جستجوگر است که پرواز نمیکند و در نیوزلند، یافت میشود.
این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است.Weka تقریباً روی هر پلت فرمی اجرا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی، آزمایش شده است.
داده کاوی (Data Mrining) در زمینه های پیش بینی
داده کاوی (Data Mrining) در زمینه های Prediction
داده کاوی (Data Mrining) در زمینه های انتخاب ویژگی (Feature Selection)
تحلیل نتایج با رسم نمودار Roc
انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و …
پیش بینی واستخراج الگوهای مرتبط با مصرف گاز با استفاده از تکنیک های داده کاوی
انواع روش های نمونه برداری و بیش نمونه گیری
کاربرد داده کاوی در شناسایی نوع خودرو
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
موزش نرم افزار کلمنتاین Clementine 12
آموزش نرم افزار۱۴ IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine 12
انجام پروژه های داده کاوی با نرم افزار ۱۴ IBM SPSS Modeler
فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler14.2
فرآیند داده کاوی در SPSS Modeler14.2
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler14.2
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
روش های حل مشکل رده نامتوازن
تشخیص داده پرت
الگوریتم ژنتیک
کاربرد داده کاوی در بانک ، مشتریان خوش حساب و بد حساب
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
شبکه عصبی
هوش مصنوعی
بهینه سازی
کمک در پروژه های سمینار
الگوریتم چندهدفه
تکاملی
سیمولینک
تشخیص داده پرت محلی
انجام پایان نامه و مقاله داده کاوی
انجام پایان نامه و پروژه دانشجویی
کاربرد داده کاوی در پیش بینی بیماری افسردگی
کاربرد داده کاوی در پیش بینی وضعیت تحصیلی دانش آموزان
انجام پروژه های داده کاوی با نرم افزار.۲ ۱۴ IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکا weka
فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler14.2
فرآیند داده کاوی در SPSS Modeler14.2
کاربرد داده کاوی در تشخیص پروتین ویروس انفولانزا
کاربرد داده کاوی در تشخیص بیماری کبد
انجام پایان نامه داده کاوی
مشاوره آنلاین رایگان
مشاوره رایگان
مشاوره دانشجویی
انجام پروژه پایان نامه های داده کاوی با WEKA
پایان نامه داده کاوی
دانلود پایان نامه داده کاوی در پایگاه داده های بزرگ
انجام پروژه های داده کاوی
انجام پروژه های داده کاوی با متلب
انجام پروژه های داده کاوی رشته مهندسی کامپیوتر
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
انجام پروژه های داده کاوی هوش مصنوعی
انجام پروژه های داده کاوی رشته مهندسی برق
انجام پروژه های داده کاوی دانشجویی
سیستم پشتیبان تصمیم جهت کاهش تصادفات جاده ای
کاربرد داده کاوی در رای گیری در گنگره امریکا
کاربرد داده کاوی در پیش بینی شرایط مختلف پوست
چارچوب برای شناسایی رابطه بین خصوصیات دستگیر شدگان با نوع مواد مخدر
کاربرد داده کاوی در پیش بینی میزان مصرف برق مشترکین
انجام پروژه های داده کاوی سازمانی
انجام پروژه های داده کاوی با نرم افزار وکا Weka
کاربرد داده کاوی در اعتیاد به مواد مخدر
کاربرد داده کاوی در بیماری سرطان ریه
کاربرد داده کاوی در رضایت شهروندان از خدمات ودفاتر الکترونیک
کاربرد داده کاوی در مدیریت ارتباط با مشتری با رویکرد پرتال
کاربرد داده کاوی در پیش بینی مصرف گاز خانگی
درخت تصمیم :C5.0 ، CHAID ، C&R ،QUEST ، RandomForest ،REPTree ،ID3،NBTree
نرم افزار Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.
انجام پروژه های داده کاوی با نرم افزار رپید ماینر RapidMiner
بنابر تحقیقات انجام شده نرم افزار RapidMiner یکی از پرکاربرد ترین نرم افزارهای داده کاوی طی سال های اخیر بوده است.
طراحی متدلوژی RFM جهت سنجش وفاداری مشتریان بانک
تحلیل رفتار مشترکین تلفن ثابت شرکت مخابرات
کاربرد داده کاوی در تشخیص بیماری سرطان سینه
کاربرد داده کاوی در پیش بینی بیماری دیابت
کاربرد داده کاوی در مدیریت بانکداری – مشتریان خوش حساب و بد حساب
بهبود اعتبار سنجی مشتریان بانک با رویکرد رده بندی
کاربرد داده کاوی در پیش بینی بیماری قلبی
پیاده سازی با استفاده از نرم افزار های Clementine, SPSS, WEKA, Rapid Miner, Qnet, MATLAB
مشاوره و آموزش جهت انجام پروژه های دانشجویی (پروژه دانشجویی) برای دانشجویان ایرانی داخل و خارج ازکشور
انجام کلیه پروژه های تحقیقاتی درزمینه مختلف
مشاوره و آموزش جهت شبیه سازی و پیاده سازی پایان نامه و پروپوزال های دانشجویی کارشناسی ارشد ودکتری دانشگاه های داخل وخارج ازکشوررشته کامپیوتروفناوری اطلاعات و…….
مشاوره رایگان وآموزش انتخاب موضوع پایان نامه
کاربرد داده کاوی در پیش بینی بیماری تیروئید
کاربرد داده کاوی در پیش بینی بیماری مزمن کلیه
کاربرد داده کاوی در پیش بینی مصرف برق خانگی
کاربرد داده کاوی در بازار یابی بانکی
کاربرد داده کاوی در بدافزار تروجان ها با تکنیک های داده کاوی
کاربرد داده کاوی در پیش بینی عملکرد اساتید
کاربرد داده کاوی در خوشه بندی رشته های تحصیلی براساس معدل و ترم گذرانده
انجام پروژه های داده کاوی با نرم افزار رپید ماینر RapidMiner
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12
انجام پروژه های داده کاوی با نرم افزار SPSS Modeler14.2
تمامی خدمات مربوط به تهیه پیشنهادیه پایان نامه( proposal )
مشاوره و ویراستاری پایان نامه های مرتبط با فناوری اطلاعات و کامپیوتر
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
بینایی ماشین Image Processing & Machine vision
پایان نامه ارشد پردازش تصوبر
پایان نامه ارشد داده کاوی
پایان نامه کارشناسی ارشد بیگ دیتا
پایان نامه ارشد اینرتنت اشیا
داده های بزرگ
شهریور ۲۷, ۱۳۹۵
پیش بینی به کمک بیز(قضیه بیز به زبان ساده)
مقدمه
به طور ساده روش بیز روشی برای دسته بندی پدیدهها، بر پایه احتمال وقوع یا عدم وقوع یک پدیدهاست.
قبل از شروع بحث باید بگم کد پیش بینی به کمک روش بیزین با سی شارپ و همچنین قابل کاستومایز شدن در رپیدماینر و کلمنتاین موجود است. در صورت تمایل با آدرس تلگرام ما Research_moghimi@ در تماس باشید یا با ما از طریق Research.moghimi@gmail.com مکاتبه کنید.
براساس ویژگیهای ذاتی احتمال(به ویژه اشتراک احتمال) نایو بیز (به انگلیسی: Naive Bayes classifier) با دریافت تمرین اولیه نتایج خوبی ارایه خواهد کرد. شیوه یادگیری در روش نایو بیز از نوع یادگیری با ناظر (به انگلیسی: Supervised learning) است.
برای نمونه یک میوه ممکن است پرتغال باشد. اگر نارنجی و کروی با شعاع حدود ده سانتی متر باشد. اگر این احتمالات به درستی به همدیگر وابسته باشند نایو بیز در تخشیص اینکه این میوه پرتغال است یا نه بدرستی عمل خواهد کرد.
برنامههای کاربردی بسیاری هستند که پارامترهای نایو بیز را تخمین میزنند، بنابر این افراد بدون سروکار داشتن با تئوری بیز میتوانند از این امکان به منظور حل مسایل مورد نظر بهره ببرند. با وجود مسایل طراحی و پیش فرضهایی که در خصوص روش بیز وجود دارد، این روش برایطبقه بندی کردن بیشتر مسایل در جهان واقعی، مناسب است.
این الگوریتم بر پایهی قضیه بیز برای مدل سازی پیشگویانه ارائه شده است. قضیه بیز از روشی برای دستهبندی پدیدهها بر پایه احتمال وقوع یا عدم وقوع یک پدیده استفاده میکند و احتمال رخ دادن یک پدیده محاسبه و دسته بندی میشود. به مثال زیر توجه کنید:
بخش بازاریابی شرکت قصد دارد به عنوان یک استراتژی تبلیغاتی برای مشتریان بالقوه نامههای تبلیغاتی ارسال کند. از طرفی برای کاهش هزینهها قصد دارد فقط به مشتریانی که علاقهمند هستند و ممکن است واکنش مثبت نشان دهند نامهها را ارسال کند. در پایگاه داده شرکت اطلاعاتی از افرادی که به نامههای قبلی واکنش نشان داده بودند ذخیره شده است.
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
آنها میخواهند ببینند که به وسیله اطلاعات آماری مانند سن، موقعیت مکانی و به وسیله مقایسه پتانسیل مشتریان بالقوه با مشتریانی که مشخصات مشترک دارند و اینکه چه اشخاصی در گذشته از شرکت خریداری کرده است می توانند به واکنشها و پاسخهای دریافتی خود بی افزاییند.
به طور کلی می خواهند تفاوت مشتریانی که محصول خریداری کردهاند و مشتریانی که هیچ محصولی نخریدهاند را پیدا کنند.
با استفاده از الگوریتم بیز سازمانها برای بازاریابی میتوانند نتیجه را برای یک مشتری خاص به سرعت پیش بینی کنند، بنابراین مشخص می شود که کدام مشتری علاقه بیشتری به پاسخ دادن نامه دارد.
قدمه
تاریخچه
سیر تحول دادهکاوی
داده ، اطلاعات و دانش
جایگاه دادهکاوی در سازمان
دادهکاوی و دیگر رشته ها
آمار و دادهکاوی
نام های دیگر دادهکاوی
تعاریف دادهکاوی
دو دیدگاه در مورد دادهکاوی
آماده سازی و پیش پردازش دادهها
ساختار یک سیستم دادهکاوی
معیارهای جذابیت الگو
ارزیابی و به تصویر کشیدن الگوهای کشف شده
انواع دادهکاوی
وظایف دادهکاوی
OLTP و OLAP
تعاریف انبار داده
چهار خصوصیت اصلی انبار دادهها
موارد تفاوت پایگاه داده و انبار داده
مزایا و معایب پایگاه داده
فنون دادهکاوی
شبکه های عصبی
درخت تصمیم
قواعد پیوند
نرم افزارهای دادهکاوی
کاربردهای دادهکاوی
محدودیتهای دادهکاوی
مشکلات دادهکاوی
نمونههای اجرا شده ی دادهکاوی
دادهکاوی در ایران
متنکاوی
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
کاربردهای متنکاوی
فرایند متنکاوی
روش های متنکاوی
وبکاوی
نتیجهگیری
مقدمه
دنیای مدرن در واقع دنیایی دادهگرا است. ما با دادههای عددی و غیرعددی در بخش های صنعتی ، بازرگانی ، مدیریتی ، مالی و علمی احاطه شدهایم. این دادهها باید تحلیل و پردازش شوند تا تبدیل به اطلاعاتی شوند که آگاهی بخش ، آموزش دهنده و پاسخگو باشند یا به شکل دیگری به درک و تصمیمگیری ما کمک کنند.
در سالهای اخیر رشد انفجارآمیزی از روش ها برای اکتشاف دانش جدید از دادههای خام به وقوع پیوسته است. در پاسخ به این امر ، رشتهی جدیدی از کاوش دادهها موسوم به دادهکاوی[۱] به طور ویژه گسترش یافته است تا اطلاعات با ارزشی از مجموعه دادههای عظیم استخراج نمایند.
امروزه فناوری دادهکاوی به صورت موضوعی داغ برای تصمیمگیران در آمده است ، زیرا این فن ، اطلاعات نهفته ی با ارزش تجاری و علمی را از دادههای حجیم ذخیره شده استخراج میکند. با این وجود ، ماهیت دادهکاوی فناوری جدیدی محسوب نمیشود. استخراج اطلاعات و دانش از دادههای ذخیره شده یک مفهوم کاملا دیرینه در مطالعات علمی و پزشکی میباشد. آنچه که جدید است همگرایی و اشتراک چندین رشته و فناوریهای متناظر آنها است که فرصت منحصر به فردی برای دادهکاوی به دنیای علم ، تجارت و اقتصاد ایجاد کرده است. اما دادهکاوی یا کشف دانش و معرفت از پایگاه دادهها[۲] با این تعریف یک شاخهی نسبتا جدید علمی است که از انجام تحقیقات در رشته های آمار ، یادگیری ماشین[۳] ، علوم رایانه (به ویژه پایگاه دادهها) شکل گرفته است. در حالی که مرزهای این رشتهها در دادهکاوی مبهم است ، ولی میتوان گفت که مهمترین این رشته ها آمار میباشد به طوری که بدون آمار دادهکاوی مفهومی نخواهد داشت. با وجود اینکه دادهکاوی یک رشتهی نسبتا جدید علمی میباشد و کاربردهای متنوع و گسترده ای در رشته هایی مانند بازرگانی ، پزشکی ، مهندسی ، علوم رایانه ، صنعت ، کنترل کیفیت ، ارتباطات و کشاورزی پیدا کرده است. امروزه مرز و محدودیتی برای دانش دادهکاوی متصور نیست و مرز آن را از اعماق اقیانوس ها تا بیکران فضا میدانند. به عبارت دیگر کاربرد دانش دادهکاوی در تمامی حوزه های برخوردار از داده بوده و تنها محدودیت دانش دادهکاوی نبود داده است.
تاریخچه
از سال ۱۹۵۰ رایانه ها در تحلیل و ذخیره سازی دادهها به کار گرفته شدند. پس از حدود ۲۰ سال حجم دادهها دو برابر شد و پس از آن تقریبا هر دو سال یک بار همزمان با پیشرفت فناوری اطلاعات ، حجم دادهها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه دادهها به چند صد میلیارد رسید. پدیده ی شبکه ی جهانی وب ، استفادهی گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع آوری داده ، انفجاری را در مجموعه های اطلاعاتی سازمانها و موسسات ایجاد کرده است. حجم زیاد اطلاعات ، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرده است.
پیشرفت شگفتانگیز فناوری رایانهای و مجهز شدن بشر به این ابزار سبب پیشرفت فوقالعاده در کسب و ذخیرهسازی دادههای عددی و همچنین به وجود آمدن پایگاه دادههای بزرگ در زمینههای مختلف شده است. دادههای تبادلات تجاری ، کشاورزی ، ترافیک ، اینترنت ، دادههای نجومی ، جزئیات مکالمات تلفنی ، دادههای پزشکی و درمانگاهی مثالهایی از چنین پایگاه دادههایی میباشند. در واقع تکنیکهای تولید و جمعآوری پایگاه دادهها بسیار سریعتر از توانایی ما در درک و استفاده از آنها رشد کرده است. از اواخر دههی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این دادههای حجیم افتاد و تلاشها برای انجام این کار را شروع کرد که با سیستمهای سنتی استفاده از پایگاه دادهها میسر نبود. شدت رقابت ها در عرصههای علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت عامل سرعت یا زمان دسترسی به اطلاعات را دو چندان کرد. بنابراین نیاز به طراحی سیستمهایی که قادر به اکتشاف سریع اطلاعات مورد علاقه ی کاربران با تاکید بر حداقل مداخله ی انسانی باشند از یک طرف و روی آوردن به روش های تحلیل متناسب با حجم دادههای زیاد از سوی دیگر احساس شد.
در سال ۱۹۸۹ و ۱۹۹۱ کارگاه های کشف دانش و معرفت از پایگاه دادهها توسط پیاتتسکی[۴] و همکارانش برگزار شد. در واقع دادهکاوی فرایندی است که در آغاز دهه ی ۹۰ پا به عرصهی ظهور گذاشته و با نگرشی نو ، به مسالهی استخراج اطلاعات از پایگاه دادهها پرداخت. در واقع پژوهش جدی روی موضوع دادهکاوی از اوایل دهه ی ۹۰ شروع شد. پژوهشها و مطالعههای زیادی در این زمینه صورت گرفته ؛ همچنین سمینارها ، دورههای آموزشی و کنفرانسهایی نیز برگزار شد و پایههای نظری دادهکاوی در تعدادی از مقالههای پژوهشی آورده شد. در فواصل سالهای ۱۹۹۱ تا ۱۹۹۴ کارگاههای کشف دانش و معرفت از پایگاه دادهها توسط فیاد[۵] و پیاتتسکی و دیگران برگزار شد. از سال ۱۹۹۵ دادهکاوی به صورت جدی وارد مباحث آمار شد.
واژه ی «کشف دانش» به طور رسمی اولین بار توسط فیاد در اولین کنفرانس بینالمللی دادهکاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود ، معرفی شد که به بیان ارتباط تکنیک های آنالیز در چندین مرحله با هدف استخراج دانشهای ناشناختهی قبلی از دادههای در دسترس می پرداخت. دادههایی که ارتباط منظم و پراهمیت آنها قبلا به نظر نمیرسید.
گروهی از محققین سال ۱۹۹۵ با استفاده از دادهکاوی ، انبارههای دادهی بانکهای آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم ها برای بانکهای آمریکا قدرت رقابت بیشتری ایجاد میکنند. در این سال انجمن دادهکاوی همزمان با اولین کنفرانس بینالمللی «کشف دانش و دادهکاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. در سال ۱۹۹۶ اولین شماره ی مجله ی «کشف دانش از پایگاه دادهها» منتشر شد. در همان سال دیدگاهی از دادهکاوی به عنوان «پرس و جو کننده از پایگاههای استنتاجی» پیشنهاد شد و فیاد و پیاتتسکی پیشرفتهای کشف دانش و دادهکاوی را اعلام کردند. همچنین دیدگاه اقتصادسنجی روی دادهکاوی و عملکرد دادهکاوی به عنوان یک مسالهی بهینه ، ارائه و کنفرانسهای ناحیه ای و بینالمللی در مورد دادهکاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره ی کشف دانش و دادهکاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و دادهکاوی و نیز استفاده از وب در کاوش دادهها و کاربردهای آن ارائه شد و در نهایت در سال ۲۰۰۲ «دادهکاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد. در حال حاضر ، دادهکاوی مهمترین فناوری جهت بهره برداری موثر از دادههای حجیم است و اهمیت آن رو به افزایش است.
سیر تحول دادهکاوی
از ۱۹۶۰
ایجاد سیستم های جمع آوری و مدیریت دادهها توسط CDC و IBM
ذخیره ی دادهها روی دیسک ها و کامپیوترها
بازیابی ایستا (محاسبه کل سود یک فروشگاه در ۵ سال گذشته)
۱۹۸۰
ایجاد زبان پرس و جو برای تهیه ی گزارشات از پایگاه داده[۶]
شاخصگذاری و سازماندهی دادهها با DBMS های DB2 و Sybase و Oracle
بازیابی پویا در سطح رکورد (میزان فروش یک کالا در یک شعبه به صورت روزانه)
۱۹۹۰
ایجاد پایگاه دادههای چند بعدی Data Warehouse و OLAP
بازیابی پویا در چند سطح (با امکان Drill Down )
در حال حاضر
ابزارهای پیشرفته مانند SAS و SGI و SPSS Clementine
کشف الگوهای جدید در پایگاه دادهها
بازیابی پویا با نگاه پیشرو به آینده (فروش یک کالا در ماه آینده در یک شعبه خاص و دلایل آن)
داده ، اطلاعات و دانش[۷]
دادهها نمایشی از واقعیت ها ، معلومات ، مفاهیم ، رویدادها یا پدیده ها برای برقراری ارتباط ، تفسیر یا پردازش ، توسط انسان یا ماشین می باشند. از طرف دیگر واژه ی اطلاعات به دانشی که از طریق خواندن ، مشاهده و آموزش به دست می آید اطلاق میشود و در حقیقت می توان گفت اطلاعات دادههایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی آن را دانش می نامند. بین دادهها و اطلاعات یک شکاف وجود دارد که اندازه ی این شکاف با حجم دادهها ارتباط مستقیم دارد. هرچه دادهها حجیم تر باشند ، این شکاف بیشتر خواهد بود و هرچه حجم دادهها کمتر و روش ها و ابزارهای پردازش دادهها کاراتر باشد ، فاصله ی بین دادهها و اطلاعات کمتر است. امروزه افزایش سریع حجم پایگاه دادهها به شکلی است که توانایی انسان برای درک این دادهها بدون ابزارهای پرقدرت میسر نمیباشد. در این وضعیت ، تصمیمگیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند ، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند.
جایگاه دادهکاوی در سازمان
دادهکاوی و دیگر رشته ها
دادهکاوی یک رشته ی نسبتا جدید علمی میباشد که از انجام تحقیقات حداقل در رشته های آمار ، یادگیری ماشین ، علوم رایانه (خصوصا مدیریت پایگاه داده) شکل گرفته است. مهمترین این رشته ها ، آمار کلاسیک[۸] میباشد. بدون آمار دادهکاوی وجود نخواهد داشت ، به طوری که آمار ، اساس اغلب تکنولوژی هایی میباشد که دادهکاوی بر روی آنها بنا میشود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون ، توزیع استاندارد ، انحراف استاندارد ، واریانس ، تحلیل خوشه ای و فاصله های اطمینان را که همه ی این موارد برای مطالعه ی داده و ارتباط بین دادهها میباشد را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیک های دادهکاوی ایفا میکند. دومین رشته ی مرتبط با دادهکاوی ، یادگیری ماشین میباشد ، که به مفهوم دقیق تر اجتماع آمار و هوش مصنوعی[۹] است. در حالی که هوش مصنوعی نتوانست موفقیت تجاری کسب کند ، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شده است چون ترکیبی از روش های ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته میباشد. یادگیری ماشین اجازه می دهد تا برنامههای رایانهای در مورد دادهای که آنها را مطالعه میکنند ، مانند برنامههایی که تصمیمات متفاوتی بر مبنای کیفیت دادهی مطالعه شده میگیرند ، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده کنند و از الگوریتم ها و روشهای ابتکاری هوش مصنوعی برای رسیدن به هدف بهره گیرند.
آمار و دادهکاوی
در دادهکاوی تلاش میشود بین آمار و علوم رایانه ای[۱۰] رابطه ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح ، دشوار بودن تبدیل مفاهیم نظری به الگوریتم های رایانه ای در مباحث آماری و به دلیل وجود الگوریتم های فراوان در متون رایانه ای ، دشوار است. لذا داشتن درکی درست از مدل سازی و الگوریتم های محاسباتی برای کارهای دادهکاوی ضروری است.
اگرچه آمار و دادهکاوی هر دو با روش های تحلیل و مدل بندی دادهها مرتبط می باشند و اشتراکات زیادی بین این دو رشته وجود دارد اما می توان تفاوت های آمار و دادهکاوی را در جدول زیر نشان داد :
آمار
دادهکاوی
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
حجم داده ها
کوچک و متوسط
بزرگ
نوع داده ها
داده های دست اول
داده های دست دوم[۱۱]
مطالعه های کنترل موردی
داده های تبادلات تجاری
طرح آزمایش ها
داده های ترافیک اینترنت
بررسی نظرخواهی
داده های مکالمات تلفن
مطالعه های مشاهده ای
داده های پزشکی
پردازش داده ها
روش های دستی
روش های کاملا خودکار
پردازش داده ها توسط انسان به کمک رایانه
پردازش داده ها توسط الگوریتم های رایانه ای به کمک انسان
وظایف معمول
برازش مدل
جستجو و شناخت الگوها
آزمون مدل
رده بندی
فواصل اطمینان و پیش بینی
دستهبندی
اهداف تحقیق
توسعه ی روش های آماری بهتر
توسعه ی الگوریتم های بهتر و سریع تر
مطالعه ی خواص آماری و ریاضی روش ها
مطالعه عملکردهای تجربی الگوریتم های دادهکاوی
نام های دیگر دادهکاوی
علاوه بر دادهکاوی اصطلاحات دیگری از جمله «استخراج دانش[۱۲]» ، «اکتشاف اطلاعات[۱۳]» ، «تحصیل اطلاعات[۱۴]» ، «دیرینهشناسی یا تبارشناسی دادهها[۱۵]» معادل دادهکاوی به کار برده می شوند. به علاوه گریگوری پیاتتسکی شاپیرو برای اولین بار در ۱۹۹۱ اصطلاح «کشف دانش از پایگاه دادهها» را به منظور تصریح بر این امر که دانش محصول نهایی این فرایند است ، به کار برد.
تعاریف دادهکاوی
Data mining is the exploration and analysis of large quantities of data in order to discover valid , novel , potentially useful , and ultimately understandable patterns in data
Valid : The patterns hold in general.
Novel : We did not know the pattern beforehand.
Useful : We can devise actions from the patterns.
Understandable : We can interpret and comprehend the patterns
* دادهکاوی تحلیل و کشف مقادیر بزرگی از داده است به منظور کشف الگوهای معتبر ، جدید ، به طور بالقوه مفید و نهایتا قابل فهم از دادهها میباشد. (Fayyad)
Data mining , or knowledge discovery in databases , refers to the “discovery of interesting , implicit , and previously unknown knowledge from large databases.”
* دادهکاوی یا کشف دانش از پایگاه دادهها اشاره به کشف دانش جدید [از قبل آن را نمی دانیم] ، مطلق و جالب توجه از پایگاه دادههای بزرگ دارد. (Frawley)
* دادهکاوی یعنی فرایند کشف یا استنتاج الگوهای بالقوه سودمند ، اطلاعات معتبر و بدیع ، دانش پنهان و قابل فهم موجود در دادهها و یا پایگاه دادهها (Judson)
* دادهکاوی به فرایند استخراج اطلاعات نهفته ، قابل فهم ، قابل پیگیری از پایگاه دادههای بزرگ و استفاده از آن در تصمیمگیری های تجاری مهم ، اطلاق میشود. (Zekulin)
* دادهکاوی مجموعه ای از روش ها در فرایند کشف دانش میباشد که برای تشخیص الگوها و روابط نامعلوم در دادهها مورد استفاده قرار می گیرد. (Ferruzza)
* فرایند کشف الگوهای مفید از دادهها را دادهکاوی می گویند. (Elder)
* فرایند انتخاب ، کاوش و مدل بندی دادههای حجیم ، جهت کشف روابط نهفته با هدف به دست آوردن نتایج واضح و مفید ، برای مالک پایگاه دادهها را دادهکاوی گویند.
* دادهکاوی یعنی جستجو در یک پایگاه دادهها برای یافتن الگوهایی میان دادهها.
* دادهکاوی فرایند تحلیل داده از چشم اندازها یا زوایای گوناگون و تلخیص و تبدیل آن به دانش یا اطلاعاتی سودمند است.
دو دیدگاه در مورد دادهکاوی
با توجه به این تعاریف دو تعبیر مختلف از دادهکاوی وجود دارد. برخی مولفین مانند چتفیلد (۱۹۹۵) ، دادهکاوی را مترادف عبارت کشف دانش و معرفت از پایگاه دادهها می دانند. بقیه از جمله فیاد (۱۹۹۶) به دادهکاوی به عنوان یک مرحله ضروری از فرایند بزرگتر کشف دانش و معرفت از پایگاه دادهها که به اختصار KDD میگویند ، اشاره دارند.
در دیدگاه اول دادهکاوی به عنوان مجموعه ای از فرایندها که از تعریف اهداف تا ارزیابی نتایج را در بر میگیرد ، معرفی میشود. مراحل مختلف دادهکاوی در این دیدگاه عبارتند از :
الف) تعریف اهداف تحلیل
ب) انتخاب و سازماندهی دادهها
پ) تحلیل کاوشگرانه ی دادهها
ت) مشخص کردن روش های آماری مورد استفاده در مرحله ی تحلیل
ج) تحلیل دادهها بر اساس روش انتخابی
چ) ارزیابی و مقایسه روش های مورد استفاده و انتخاب مدل نهایی برای تحلیل
ح) تفسیر مدل حاصل و استفاده از آن در فرایند تصمیمگیری
اما در دیدگاه دوم ، KDD شامل مراحل زیر است :
۱) پاکسازی دادهها[۱۶] : حذف دادههای ناپایدار و مزاحم
۲) یکپارچه سازی دادهها[۱۷] : ترکیب منابع متعدد ، پراکنده و احیانا ناهمگن دادهها
۳) انتخاب دادهها[۱۸] : بازیابی دادههای مربوط به عمل کاوش از پایگاه دادهها
۴) تبدیل دادهها[۱۹] : تبدیل دادهها به اشکالی مناسب برای به کار بردن روش های مختلف
۵) دادهکاوی : مرحله ای ضروری از فرایند KDD است که در آن از روش های مختلف آماری و یادگیری ماشین برای استخراج الگوها استفاده میشود ، که شامل مراحل زیر است :
الف) انتخاب عملیات دادهکاوی (رده بندی ، خوشهبندی ، پیش بینی ، تعیین وابستگی و …)
ب) انتخاب روش دادهکاوی (شبکه های عصبی ، درخت تصمیمگیری ، الگوریتم ژنتیک و …)
ج) دادهکاوی و جستجو برای یافتن الگوی مناسب
۶) ارزیابی الگوها[۲۰] : شناسایی الگوهای جذاب ارائه دانش ، بر اساس معیارهای جذابیت.
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
۷) ارائه دانش[۲۱] : ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات
آماده سازی و پیش پردازش دادهها
آماده سازی دادهها گاهی در متون دادهکاوی به عنوان موضوع کم اهمیت و به عنوان یک گام در فرایند دادهکاوی ندیده گرفته میشود. در کاربردهای دادهکاوی در دنیای واقعی ، وضعیت برعکس میشود. برای آماده سازی دادهها تلاشی بیشتر از کاربست روش های دادهکاوی صرف میشود. دو وظیفه ی اصلی برای آماده سازی دادهها وجود دارد :
۱) سازماندهی دادهها به شکل استاندارد به طوری که برای پردازش با دادهکاوی و دیگر ابزارهای مبتنی بر رایانه آماده باشد.
۲) مجموعه های دادهها طوری آماده شوند که به بهترین عملکرد روش های دادهکاوی منتهی شوند.
دادهکاوی به نوعی تحلیل دادههای دست دوم است ، با این مفهوم که داده کاوها مستقیما در فرایند جمعآوری دادهها دخالت نداشتهاند. گاهی این واقعیت می تواند کیفیت بد دادههای خام را توجیه کند. کیفیت دادهها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر است. پایگاه دادههای حجیم شامل دادههای مزاحم ، گمشده و ناپایدار هستند. از این رو برای ارتقای کیفیت دادهها لازم است در ابتدای کار به صورت زیر پردازش شوند :
۱) پاکسازی دادهها : برای انجام یک دادهکاوی مطلوب لازم است مقادیر گمشده جایگزین شوند. دادههای مزاحم شناسایی و به نحوی مناسب با آنها برخورد و ناپایداری ها اصلاح شوند.
الف) مقادیر گمشده : دادههایی هستند که به هر دلیلی در هنگام تحلیل دادهها در اختیار تحلیلگر قرار ندارند. وجود چنین دادههایی می تواند تحلیل دادهها را بسیار دشوار سازد. در صورت وجود مقادیر گمشده در دادهها باید به گونهای مناسب در مورد آنها تصمیمگیری شود. به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت ، میانگین مقادیر خصیصهی مورد نظر ، میانگین نمونههای مشابه یا محتملترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روشهای مدل سازی انجام شود.
ب) دادههای مزاحم : انحرافی تصادفی یا غیر تصادفی در یک متغیر اندازهگیری شده هستند که به عنوان مثال میتوانند نتیجهی خطای اندازهگیری یا یک اثر پنهان باشند. باید علت وجود یک دادهی مزاحم به خوبی بررسی و در مورد آن تصمیمگیری شود. خوشهبندی و برازش یک تابع رگرسیونی به دادهها از جمله راه های هموارسازی دادهها هستند. البته بسیاری از روشهای هموارسازی دادهها ، روشهایی برای تخلیص دادهها محسوب میشوند.
ج) دادههای ناپایدار : این گونه دادهها شامل تغییراتی بیقاعده هستند که تحلیل آنها را دچار مشکل میسازد. برخی از انواع آنها را میتوان با تبدیل مناسب اصلاح کرد یا برای تحلیل آنها روشهای خاصی را به کار برد.
۲) یکپارچهسازی دادهها : از آن جا که دادهها از منابع مختلف جمع آوری می شوند ، ممکن است دارای ناسازگاریهایی مانند تفاوت در مقیاس باشند یا خصیصه های مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آنها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است دادهها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصایص مشابه یا تکراری در تحلیل دادهها پرهیز شود. برخی از خصایص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دو این خصیصه ها لزومی ندارد.
۳) تبدیل دادهها : گاهی برای خلاصه سازی یا به کارگیری روش های تحلیل دادهها لازم است به یکی از روش های زیر دادهها به شکلی مناسب تبدیل شوند.
الف) هموارسازی : برای حذف افتوخیز شدید دادهها از تکنیکهای هموارسازی مانند خوشهبندی و رگرسیون استفاده میشود.
ب) انبوهش : نوعی خلاصهسازی است که با عملیات جبری روی برخی مقادیر و به دست آوردن مقادیر کلیتر اجرا میشود. به عنوان مثال مقادیر فروش روزانه میتوانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.
ج) تعمیم دادهها : با استفاده از سلسله مراتب مفاهیم دادههای ابتدایی یا سطح پایین مانند سن به وسیله ی مفاهیم سطح بالاتر مانند جوان ، میان سال و کهن سال جایگزین می شوند.
د) نرمال سازی دادهها : دادهها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده ی مشخص و کوچک قرار گیرند
۴) تخلیص دادهها : برای کاهش دادهها از تکنیک هایی مانند کاهش بعد ، فشرده سازی و مجزا سازی دادهها استفاده میشود. موضوع اصلی برای ساده کردن دادهها ، کاهش بعد است و سوال عمده این است که آیا برخی از این دادههای آماده و پیش پردازش شده را می توان بدون فدا کردن کیفیت نتایج کنار گذاشت یا خیر.
ساختار یک سیستم دادهکاوی
پس از پیش پردازش دادهها ، نتایج در پایگاه داده یا انبار داده ی جدیدی ذخیره می شوند. شکل زیر ساختار یک سیستم دادهکاوی معمول را نشان میدهد که ورودی آن مخازن بزرگ دادهها و خروجی آن اطلاعات مورد نیاز کاربر است و پایان کار کشف دانش و معرفت از پایگاه دادهها تلقی میشود.
در حالت کلی یک سیستم دادهکاوی می تواند شامل مولفه های زیر باشد :
الف) پایگاه داده و انبار داده[۲۲] : برای ذخیره سازی دادههای حجیم به کار می روند.
ب) سرور[۲۳] : مسئول بازخوانی دادههای مربوط به کار کاوش بر اساس اهداف دادهکاوی است.
ج) پایگاه دانش[۲۴] : محدودهای از دانش است که جهت هدایت فرایند کاوش یا ارزیابی جذابیت الگوهای حاصل به کار میرود. این اطلاعات میتواند شامل دانستنیهایی مانند عقاید کاربر یا مفاهیم طبقهبندی شده جهت سازماندهی خصیصهها ، آستانه های تعیین جذابیت و … باشد.
د) موتور دادهکاوی[۲۵] : به صورت گسترده از روش های آماری و یادگیری ماشین برای توصیف ، پیوند دادن ، رده بندی ، تحلیل خوشه ای ، پیش بینی و … استفاده میکند و هسته ی اصلی سیستم دادهکاوی را تشکیل می دهد.
هـ) واحد ارزیابی الگوها : با استفاده از معیارهای جذابیت الگو و آستانه های جذابیت و همچنین ارتباط متقابل با واحدهای دیگر دادهکاوی ، کاوش را به سمت تمرکز بر استخراج الگوهای جذاب هدایت میکند.
و) رابط گرافیکی کاربر[۲۶] : بین کاربران و سیستم دادهکاوی ارتباط برقرار میکند.
معیارهای جذابیت الگو
گرچه مشخص ساختن دادههای کاری[۲۷] و نوع دانشی که باید استخراج شود ، می تواند تعداد الگوهای تولید شده را کاهش دهد اما یک فرایند دادهکاوی ممکن است تعداد بسیار زیادی از الگوها را تولید کند که تنها تعداد کمی از آنها مد نظر هستند. بنابراین کاربر نیاز به معیارهایی برای تشخیص الگوهای جذاب دارد.
به طور کلی هر معیار با یک آستانه در ارتباط است که به وسیلهی کاربر مشخص میشود و آن دسته از الگوهایی که این آستانه را کسب نکنند ، جذاب تشخیص داده نمیشوند و به عنوان الگو به کاربر ارائه نمیشوند. برخی معیارهای مورد نظر برای جذابیت الگو عبارتند از :
۱) سادگی[۲۸] : یکی از عوامل موثر بر جذابیت یک الگو ، سادگی کلی آن الگو است که با توجه به معیارهای عینی ، اندازه ی الگو ، تعداد خصیصه ها و یا عملگر ظاهر شده در الگو کنترل میشود.
۲) قطعیت[۲۹] : هر الگوی استخراج شده باید یک معیار حتمیت وابسته به آن داشته باشد که درجه ی اعتبار الگو و صحت آن را نشان می دهد.
۳) مطلوبیت[۳۰] : یکی دیگر از معیارهایی که می تواند جذابیت یک الگو را تعیین کند ، میزان سودمندی آن الگوست که توسط یک تابع سودمندی تقریب زده میشود.
ارزیابی و به تصویر کشیدن الگوهای کشف شده
برای آن که دادهکاوی موثر باشد ، سیستم دادهکاوی باید قادر به ارائه و نمایش الگوهای کشف شده در اشکال مختلف مانند قواعد ، جداول ، نمودارهای مختلف ، درخت های تصمیم و سایر نمایش های تصویری باشد. امکان به تصویر کشیدن الگوهای کشف شده می تواند به کاربران با پس زمینه های مختلف برای شناسایی الگوهای مورد علاقه و هدایت سیستم به اکتشاف بیشتر کمک کند. استفاده از سلسله مراتب مفاهیم نیز بسیار مفید است و امکان نمایش دادهها به صورت مفاهیم سطح بالاتر ممکن است برای کاربران بیش از قواعد ارائه شده به صورت مفاهیم سطح پایین قابل درک باشد.
انواع دادهکاوی
دادهکاوی در دو نوع هدایت شده و غیرهدایت[۳۱] شده ظاهر میشود. دادهکاوی هدایت شده ، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص می گردد ؛ در حالی که هدف دادهکاوی غیر هدایت شده ، یافتن الگوها یا تشابهات بین گروه هایی از اطلاعات ، بدون داشتن متغیر هدفی خاص و یا مجموعه ای از دسته ها و الگوهای از پیش تعیین شده میباشد.
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
وظایف دادهکاوی
دادهکاوی با همه ی عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که می توان بسیاری از مسائل محیط اطراف را در قالب یکی از این شش عمل و وظیفه ی زیر گنجاند :
۱) دستهبندی ۲) تخمین ۳) پیش بینی ۴) گروه بندی شباهت ۵) خوشهبندی ۶) توصیف و نمایه سازی
سه مورد اول همگی دادهکاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشهبندی جزو دادهکاوی غیر هدایت شده هستند که در آن هدف ، یافتن ساختار پنهان درون دادهها بدون توجه به یک متغیر هدف خاص است. نمایه سازی عملی توصیفی است که می تواند هم هدایت شده و هم غیر هدایت شده باشد.
۱) دستهبندی[۳۲] : به نظر می رسد دستهبندی که یکی از معمول ترین کارکردهای دادهکاوی است ، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دستهبندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه درباره ی دنیا ، به طور مداوم دستهبندی ، طبقه بندی[۳۳] و درجه بندی[۳۴] میکنیم. ما موجودات زنده را به شاخه ها و گونه ها ، مواد را به عناصر و حیوانات و انسانها را به نژادها تقسیم میکنیم.
دستهبندی شامل بررسی ویژگی های یک شئ جدید و تخصیص آن به یکی از مجموعههای از قبل تعیین شده میباشد. عمل دستهبندی با تعریف درستی از دسته ها و مجموعه ای از ویژگیها که حاوی موارد از پیش دستهبندی شده هستند مشخص میگردد ؛ این عمل شامل ساختن مدلی است که بتوان از آن برای دستهبندی کردن دادههای دستهبندی نشده ، استفاده نمود. اشیائی که باید دستهبندی شوند ، معمولاً به وسیله ی اطلاعاتی در جدول پایگاه دادهها یا یک فایل ارائه می شوند. عمل دستهبندی شامل افزودن ستون جدیدی با کد دستهبندی خاصی است. مثال هایی از دستهبندی در زیر ارائه شده است :
* دستهبندی متقاضیان وام و اعتبار به عنوان کم خطر ، متوسط و پرخطر
* انتخاب محتویات یک صفحه ی وب برای قرار دادن در شبکه ی اینترنت
* تعیین شماره تلفن های متصل به دستگاه های نمابر
* تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه
در همهی این مثالها تعداد محدود و از پیش تعیین شدهای از دستهها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آنها تخصیص دهیم. تکنیکهای درخت تصمیم و نزدیکترین همسایه[۳۵] از جمله تکنیکهای دستهبندی میباشند. شبکههای عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دستهبندی را انجام می دهند.
۲) تخمین[۳۶] : تخمین ، با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند ، سروکار دارد. در تخمین ، دادههای ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری میباشد. در عمل ، تخمین اغلب برای انجام دستهبندی استفاده میشود. یک شرکت کارت های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت های صورت حساب به یک تولید کننده ی پوتین اسکی بفروشد ، باید مدل دستهبندی تهیه کند که همه ی دارندگان کارت ها را در یکی از دو دسته ی اسکی باز یا غیر اسکی باز قرار دهد. روش دیگر ایجاد مدل تخمین این است که به هر دارندهی کارت ، یک امتیاز تمایل به اسکی تخصیص می دهد ؛ این ارقام میتواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن یا نبودن دارندهی کارت است. عمل دستهبندی ، اکنون به ایجاد امتیازی آستانهای[۳۷] منجر میگردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی باز قلمداد میشود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمی گردد. روش تخمین فواید زیادی دارد که مهم ترین آنها این است که می توان اطلاعات را مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که شرکت تولید پوتین های اسکی ، برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دستهبندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شدهاند. پس به راحتی می توان به صورت تصادفی ، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود ؛ در حالی که اگر مدل تخمین ، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتملترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری از ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات میباشد. برخی دیگر از مثال های تخمین در ادامه آمده است ؛ تخمین تعداد فرزندان در یک خانواده ، تخمین درآمد کل یک خانواده ، تخمین دوره عمر یک مشتری ، تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمه ی عمر
مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب دادهکاوی برای تخمین می باشند.
۳) پیش بینی[۳۸] : پیش بینی مانند دستهبندی یا تخمین است با این تفاوت که اطلاعات ، مطابق برخی از رفتارهای پیش بینی شدهی آینده یا ارقام تخمین زده ی آینده دستهبندی می شوند. در عملِ پیش بینی ، تنها روش برای بررسی صحت دستهبندی ، انتظار و دیدن آینده است.
هر یک از تکنیک های استفاده شده در دستهبندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد. جایی که متغیری که باید پیش بینی شود از قبل معلوم است و دادههای پیشین برای آن وجود دارد ؛ از دادههای پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده میشود ؛ وقتی این مدل برای ورودی های کنونی به کار رفت ؛ نتیجه ی کار ، پیش بینی رفتار آینده خواهد بود. مثال هایی از پیش بینی از این قرارند :
* پیش بینی اینکه کدام مشتریان در طول ۶ ماه آینده ، بازار محصول ما را ترک خواهند کرد.
* پیش بینی اینکه کدام مشترکین تلفن ، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغام گیر خواهند شد.
بیشتر تکینک های دادهکاوی در صورت وجود دادههای مناسب ، برای استفاده در پیش بینی مناسبند. انتخاب تکنیک به ماهیت دادههای ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
۴) گروه بندی شباهت یا قوانین وابستگی[۳۹] : عمل گروهبندی شباهت برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین مینماید. به بیان ساده تر عمل گروه بندی شباهت تعیین میکند که چه چیزهایی با هم جورند ؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می گیرند ؛ چیزی که آن را تحلیل سبد بازار[۴۰] مینامیم. فروشگاه های زنجیره ای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه ، در یک کاتالوگ و یا صفحه ی وب فروش اینترنتی استفاده کنند ، تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروش های متقابل و همزمان و همچنین برای طراحی بسته بندی های جذاب و یا دستهبندی محصولات و خدمات استفاده کرد.
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
گروه بندی شباهت یک روش ساده برای ایجاد قوانین از دادههاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند ، می توان دو قانون وابستگی ایجاد کرد :
افرادی که شیر خشک نوزاد می خرند ، با احتمال P1 پوشک نوزاد را هم می خرند.
افرادی که پوشک نوزاد می خرند ، با احتمال P2 شیر خشک نوزاد را هم می خرند.
۵) خوشهبندی[۴۱] : خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها یا خوشه های همگن گفته میشود. وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دسته های از پیش تعیین شده تکیه ندارد. در دستهبندی بر اساس یک مدل هر کدام از دادهها به دسته ای از پیش تعیین شده اختصاص می یابد ؛ این دسته ها یا از ابتدا در طبیعت وجود داشته اند (مثل جنسیت ، رنگ پوست و مثال هایی از این قبیل) یا از طریق یافته های پژوهش های پیشین تعیین گردیده اند. اما در خوشهبندی هیچ دسته ی از پیش تعیین شده ای وجود ندارد و دادهها صرفا براساس تشابه گروه بندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین می گردد. به طور مثال خوشه های علائم بیماری ها ممکن است بیماری های مختلفی را نشان دهند و خوشههای ویژگی های مشتریان ممکن است حاکی از بخش های مختلف بازار باشد.
خوشهبندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیل های دادهکاوی یا مدل سازی به کار می رود. به عنوان مثال ، خوشهبندی ممکن است اولین گام در تلاش برای تقسیم بندی بازار باشد ؛ برای ایجاد یک قانون که در همه ی موارد کاربرد داشته باشد و به این سؤال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می دهند ، اول باید مشتریان را به خوشه هایی متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل میکند.
۶) نمایه سازی[۴۲] : گاهی اوقات هدف دادهکاوی ، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده درجریان است. نتایج نمایهسازی درک ما را از مردم ، محصولات یا فرایندهایی که دادهها را در مرحلهی اول تولید کردهاند افزایش میدهد. توصیف خوب رفتار ، اغلب توضیح خوبی هم به همراه دارد ؛ یک توصیف خوب حداقل نشان می دهد چه زمانی می توان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا ، مثالی از این دست است که چگونه این توصیف ساده که «تعداد زنان حامی حزب دموکرات بیش از مردان است» میتواند توجه بیشتر و مطالعات تکمیلی را برای روزنامهنگاران ، جامعهشناسان ، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند. درخت های تصمیم ابزار مفیدی برای نمایه سازی میباشد ؛ قوانین وابستگی و خوشهبندی را نیز می توان برای نمایه سازی ها استفاده نمود.
OLTP و OLAP
وظیفه اصلی سیستم های پایگاه داده کاربردی آنلاین ، پشتیبانی از تراکنش های متصل و پردازش پرس و جو است. این سیستم ها سیستم پردازش تراکنش آنلاین[۴۳] (OLTP) نامیده می شوند و بیشتر عملیات روزمره ی یک سازمان را پوشش می دهند. از سوی دیگر انبار داده به کاربران و کارکنان دانشی خدماتی در نقش تحلیلگر داده و تصمیم گیرنده ارائه میکند. چنین سیستم هایی میتوانند دادهها را در قالب های مختلف برای هماهنگ کردن نیازهای مختلف کاربران مختلف ، سازماندهی و ارائه دهند. این سیستم ها با نام سیستم های پردازش تحلیلی آنلاین (OLAP) شناخته میشوند.
OLAP چیست؟
سیستم های OLAP نام خود را از عبارت (Online Analytical Process) با معنی تحت اللفظی «سیستم های پردازش تحلیلی برخط» گرفتهاند. می توان به جای OLAP از واژه ی «پردازش سریع اطلاعات چند بعدی» و یا به عبارت بهتر از «فناوری تحلیل دادهها» استفاده کرد. این سیستم ها بر اساس تکامل سیستم های OLTP ایجاد شده اند. سیستم های OLAP برای ارائهی پاسخ های سریع به سوالات و جستجوهای تحلیلی روی دادههای «چند بعدی» طراحی شده اند. به طور معمول اگر بخواهیم مشابه همین پرس و جوهای تحلیلی را روی سیستمهای اطلاعاتی عادی OLTP اجرا کنیم ممکن است نتایج در زمانی طولانی و غیرکاربردی بازگردانده شود در حالی که استفاده از OLAP تضمین میکند که اطلاعات و گزارشات تحلیلی با زمان پاسخی مناسب به کاربر تحویل داده شود. کاربردهای معمول OLAP عبارتند از : گزارشات تجاری فروش ، بازاریابی ، گزارشات مالی و مواردی از این قبیل. این سیستم ها دادههای خود را به نحوی خاص نگهداری میکنند که از نظر سرعت در برخورد با دادههای چند بعدی بهتر از سیستم های OLTP عمل میکنند و از این رو به آنها بانکهای اطلاعاتی سلسله مراتبی هم گفته میشود. OLAP و پایگاه دادههای مربوطه با استفاده از یک ساختار سلسله مراتبی و یک Data Model چند بعدی قدرتمند جهت سازماندهی اطلاعات به سادهسازی محاسبات پرداخته و گزارشاتی بسیار سریعتر نسبت به روش های قبلی ارائه میدهند.
نحوه عملکرد سیستم های OLAP
سیستم OLAP به صورت مرتب از دادههای منابع اطلاعاتی مختلف کپی های خلاصه شده برداشته و آنها را در مکعبهای دادهای[۴۴] مرتب میکند. پرس و جوهای کاربران می تواند روی این مکعب اجرا شود . روش های مختلف طراحی انبار دادهها امکان پردازش های بهینه را بر روی مقادیر زیادی ازدادهها فراهم میآورند. پرس و جوهای پیچیده روی سیستمهای OLAP به زمانی حدود تنها ۰٫۱ درصد از زمان اجرای جستجوهای مشابه روی سیستمهای OLTP احتیاج دارند. انواع ویژه ای از الگوهای پایگاه دادهها به نام ستاره ای یا دانه برفی[۴۵] نیز برای طراحی انبار دادهی چند بعدی وجود دارد. در این حالت ، پایگاه دادهها از یک جدول مرکزی و جداول چند بعدی تشکیل شده است و روابط بین آنها کاملا مشخص است. برای دستیابی به سرعت بالا و زمان کوتاه ، سیستمهای OLAP جداول اطلاعاتی خود را در آرایشهای ستارهای یا دانهبرفی مرتب میکنند. ساختار OLAP مثل یک مکعب روبیک است که میتوان آن را در جهات مختلف چرخاند تا بتوان تحلیلهایی از دیدگاه های مختلف را بررسی کرد. نحوه ی عملکرد این سیستم ها به این صورت است که معیارهای اساسی تحلیل به عنوان ابعاد مختلف یک مکعب در نظر گرفته شده و این مکعب در انبار دادهها ساخته میشود. این ابعاد میتوانند در سطوح مختلف و به صورت سلسلهمراتبی نیز وجود داشته باشند. مثلا میزان فروش کل میتواند از سه بعد زمان ، نوع محصول و مشتری ساخته شود. زمان میتواند در سلسله مراتبی متشکل از سال ، ماه ، هفته ، روز و … قرار گیرد. یک بار که جداول حقیقی به OLAP معرفی شده و مکعبهای متعدد با ابعاد[۴۶] متنوع ساخته شدند ، ابزارهای گزارشگیری مبتنی بر OLAP محیطی ساده را جهت استفادهی کاربران از این اجزا فراهم میکند. به این ترتیب هر کاربری قادر است به بررسی نتایج از دیدگاه خاص خود و بر مبنای سلسله مراتب و سطوح مختلف اطلاعاتی بپردازد.
انواع مختلف سیستم های OLAP :
۱) سیستم های OLAP چند بعدی (MOLAP)(Multi dimensional OLAP) : این سیستمها به دلیل ساختار خاص نگهداری اطلاعات از سرعت بالاتری نسبت به سایر مدلها برخوردارند و به جای ذخیره کردن اطلاعات در رکوردهای کلیددار ، بانکهای اطلاعاتی خاصی را برای خود طراحی کردهاند به طوری که دادهها را به شکل آرایههای مرتب شده بر اساس ابعاد داده ذخیره میکنند. این سیستمها جداول دادههای حقیقی و جداول چند بعدی را با ایندکسهای فشرده نگهداری کرده و جستجوهای تحلیلی پیچیده را در حداقل زمان اجرا میکنند. سرعت این ابزار بالا و سایز بانک اطلاعاتی آن نسبتا کوچک است.
۲) سیستم های OLAP رابطهای (ROLAP)(Relational OLAP) : این ابزارها با ایجاد یک بستر روی بانک های رابطه ای اطلاعات را ذخیره و بازیابی میکنند. به طوری که اساس بهینه سازی برخی بانک های اطلاعاتی رابطه ای بر همین اساس استوار است. سیستم های ROLAP عملیات OLAP را در قالب استفاده از مدل سنتی Relational سازماندهی میکنند و لذا از سیستم های MOLAP کندتر عمل میکنند و به فضای بیشتری نیز نیاز دارند.
۳) سیستم های OLAP از نوع (HOLAP)(Hybrid OLAP) : منظور از Hybrid ترکیبی از ROLAP و MOLAP است که دارای بانک اطلاعاتی بزرگ و راندمان بالاتر نسبت به ROLAP میباشد. سیستمهای HOLAP به شکلی بینابین پیادهسازی شده اند. یعنی دادههای Fact را در جداول فشرده و دادههای Dimension را در فضای رابطه ای نگهداری میکنند ؛ لذا مزایای هردو مدل را دارند.
تعاریف انبار داده
* مجموعهای از دادههای موضوعگرا ، مجتمع ، غیرفرار و وابسته به زمان که برای پشتیبانی از تصمیمگیریهای مدیریتی مورد استفاده قرار میگیرد. (بیل اینمون)
* نسخه ای از دادههای چند پایگاه داده که به منظور تسهیل پردازش و پرس و جوهای کاربران طراحی شده است.
* یک انبار داده ، داده ای دلخواه را از یک یا چند منبع جمع آوری کرده و آنها را به موضوعاتی اطلاعاتی تبدیل میکند ، سپس آنها را به همراه اطلاعات زمان و تاریخ برای پشتیبانی بهتر از تصمیمگیری ها ذخیره میکند. این سیستم ها نماهای[۴۷] متعددی از اطلاعات برای طیف های مختلف کاربران فراهم میکند. قدرت این مفهوم در آن است که به کاربران اجازه ی تحلیل و پرس و جوهای گوناگون بر روی دادههایی را می دهد که قبل از آن هیچ ارتباطی با هم نداشتند.
* جمع آوری ، پاکسازی انتقال داده از سیستم های عملیاتی متعدد و آماده کردن اطلاعات حاصل برای تحلیل و گزارش گیری کاربران نهایی ، انبارداری دادهها نامیده میشود.
* انبار داده پایگاه داده ی بزرگی است که برای پاسخگویی به سوالات ایجاد شده است. متناسب با انبار ، سوالات مذکور هم با هم فرق میکنند. انبار می تواند در اندازه های بزرگ یا کوچک باشد. کاربران انبار ممکن است کارکنان داخلی ، افراد ناشناس شبکه ها و یا هردو باشند.
* انبار دادهها اساس هر DSS[48] است و برای اخذ دادههای DSS و کارایی بهتر پرس و جو ها طراحی شده است.
* انبار داده یک پایگاه داده موضوع گرا است که به منظور دسترسی های گسترده طراحی شده است و ابزارهایی برای برآوردن نیازهای اطلاعاتی مدیران در همه ی سطوح سازمان آماده میکند. به بیان دیگر یک انبار داده به صورتی طراحی میشود که کاربران اطلاعات مورد نیاز خود را شناسایی کنند و بتوانند با استفاده از ابزارهای ساده ای به آنها دسترسی داشته باشند.
* یک انبار داده مخزنی از اطلاعات مجتمع شده است که برای انجام پرس و جو و تحلیل ها آماده میشود.
چهار خصوصیت اصلی انبار دادهها
بر اساس تعریف بیل اینمون[۴۹] (پدر سیستم های انبار داده) که معمول ترین و شناخته شده ترین تعریف انبار داده است ، چهار خصوصیت اصلی انبار داده را مورد بررسی قرار می دهیم :
۱) موضوعگرا[۵۰] : هر انبار داده ، دادههای مرتبط با یک موضوع خاص را در خود نگاه می دارد و این دادهها را به منظور استخراج مفاهیم و نتایج خاصی به شکلی ویژه سازماندهی میکند. به این ترتیب سرعت جستجوها در انبار بسیار بالا خواهد بود. انبار داده برای پاسخ گویی به پرسش های مختلف در مورد یک موضوع خاص بهینه سازی میشود.
۲) مجتمع[۵۱] : در سیستم های مختلف ، دادهها ممکن است از جنبه های مختلفی با هم نامتناسب باشند. مثلا منابع داده در کشورهای مختلف با زمان و تاریخ های مختلف ذخیره شده اند و یا منابعی که از ماشین های مختلف هستند در اعداد ، حروف و دیگر فیلدها متناسب با محدودیت های ماشین ، سیستم عامل و تطابق با استانداردهای مختلف ، متفاوت هستند. با توجه به مختلف بودن منابع انبار داده ، قبل از ذخیره سازی آنها در انبار داده برای تامین یکپارچگی ، تکنیک های پاکسازی دادهها و مجتمعسازی به کار میرود. با توجه به این موضوع که دادهها زیر نظر مدیریت واحدی ذخیره سازی می شوند ، دادههای کاملا سازگاری خواهیم داشت که داشتن چنین سازگاری در سایر سیستم ها مثل سیستم های شبکه ای و توزیعی ناممکن است.
۳) وابسته به زمان[۵۲] : دادهها در انبار داده برای تهیه اطلاعات تاریخی (مثلا برای ۵ تا ۱۰ سال پیش) به کار می روند. هر ساختار کلیدی در انبار داده شامل عنصر زمان است. در سیستم انبار داده ، دادهها هرگز به روزآوری[۵۳] نمیشوند ، بلکه دادههای جدید و یا تغییر یافته با زمانهای جدید به انبار اضافه میشوند.
۴) غیر فرار[۵۴] : دادههای انبار داده همیشه از لحاظ فیزیکی مجزا هستند و هیچ گاه نیازی به تغییر و به روزرسانی نخواهند داشت. با توجه به این موضوع انبار داده مثل پایگاه دادههای معمولی احتیاجی به پردازش تراکنش ، بازگرداندن فرایند و مکانیزم کنترل تصادم ندارند. علاوه بر این نیازی به ایجاد و دسترسی انحصاری به دادهها نخواهیم داشت. فقط به دو فعالیت کلیدی احتیاج داریم : بارکردن دادهها ، دسترسی به دادهها
موارد تفاوت پایگاه داده و انبار داده
از لحاظ مدل های داده ای : پایگاه های داده برای مدل OLTP بهینه سازی شده است که بر اساس مدل داده رابطهای امکان پردازش تعداد زیادی تراکنش هم روند که اغلب حاوی رکوردهای اندکی هستند را دارد. اما در انبارهای داده که برای OLAP طراحی شدهاند ، امکان پردازش تعداد کمی پرسوجوی پیچیده بر روی تعداد بسیار زیادی رکورد داده فراهم میشود.
از لحاظ کاربران : کاربران پایگاهداده کارمندان و مسئولان هستند و کاربران انبار داده مدیران و تصمیمگیرندگان هستند.
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
از لحاظ عملیات قابل اجرا بر روی آنها : عملیاتی که بر روی پایگاه دادهها صورت میگیرد ، عموما شامل عملیات بههنگامسازی است در حالی که عمل خواندن از انبار ، عمده عملیات قابل اجرا بر روی انبار دادهها را تشکیل میدهد.
از لحاظ مقدار دادهها : مقدار دادههای یک پایگاه داده در حدود چند مگابایت تا چند گیگابایت است در حالی که این مقدار در انبار داده در حدود چند گیگابایت تا چند ترابایت است.
از لحاظ زمان پرس و جو : انبار داده با استفاده از دو تکنیک خلاصه سازی و سلسله مراتبی کردن ، سرعت انجام پرس و جو را بهبود بخشیده است.
مزایای پایگاه داده
۱) تجمع ، وحدت ذخیره سازی و کنترل متمرکز دادهها
۲) کاهش افزونگی : تجمع داده و وحدت ذخیره سازی باعث کاهش افزونگی میشود. مثلا آدرس های مختلف برای یک مشتری در قسمت های مختلف سازمان ثبت نمیشود.
۳) به اشتراک گذاشتن دادهها : چند کاربر می توانند هم زمان به پایگاه داده دسترسی داشته باشند. برنامه های کاربردی موجود توانایی به اشتراک گذاردن دادهها در پایگاه دادهها را دارند و برنامه های کاربردی جدید نیز می توانند از این دادهها استفاده کنند.
۴) پرهیز از ناسازگاری : با کاهش افزونگی ، کنترل متمرکز و جامعیت ، سازگاری و یکپارچگی دادهها تضمین میشود.
۵) اعمال محدودیت های امنیتی : سیستم های امنیتی در پایگاه داده امکان اعمال کنترل های مختلف را برای هر نوع دسترسی (بازیابی ، اصلاح ، حذف و …) بر روی پایگاه داده فراهم میکند.
۶) صحت بیشتر داده و استقلال از برنامه های کاربردی
۷) راحتی پیاده سازی برنامه های کاربردی جدید
معایب سیستم پایگاه داده نسبت به سیستم فایلی
۱) طراحی سیستم های پایگاه داده پیچیده تر، دشوارتر و زمانبرتر از سیستم فایلی است.
۲) هزینه ی قابل توجهی صرف سخت افزار و نصب نرم افزار میشود.
۳) آسیب دیدن پایگاه داده روی کلیه برنامه های کاربردی تاثیر میگذارد.
۴) هزینه ی زیادی برای تبدیل از سیستم فایلی به سیستم پایگاه داده نیاز است.
۵) نیازمند تعلیم اولیه ی برنامه نویسان و کاربران و استخدام کارمندان خاص پایگاه داده است.
۶) نیاز به تهیه چندین کپی پشتیبان از پایگاه داده میباشد.
۷) خطاهای برنامه می توانند فاجعه برانگیز باشند.
۸) زمان اجرای هر برنامه طولانی تر میشود.
۹) بسیار وابسته به عملیات سیستم مدیریت پایگاه داده است.
فنون دادهکاوی
۱) روش های آماری که عبارتند از استنباط بیزی ، رگرسیون لجستیک ، تحلیل ANOVA و مدل های لگ خطی
۲) تحلیل خوشهای که عبارتند از الگوریتمهای قابل تقسیم ، الگوریتمهای تراکمی ، خوشهبندی افرازی و خوشهبندی افزایشی
۳) درختان تصمیم و قواعد تصمیم که عبارتند از مجموعه روش های یادگیری استقرایی که عمدتا در هوش مصنوعی ایجاد و توسعه یافته اند. فنونی مثل روش CLS ، الگوریتم ID3 ، الگوریتم C4.5 و الگوریتم های هرس کردن متناظر.
۴) قواعد پیوند مجموعهای از متدولوژیهای نسبتا جدید را معرفی میکند که شامل الگوریتمهایی مثل تحلیل سبد خرید ، الگوریتم پیشین و الگوهای پیمایش مسیر هستند.
۵) شبکه های عصبی مصنوعی که در آن تاکید بر پرسپترون چند لایه با یادگیری پس انتشار و شبکه های Kohonen است.
۶) الگوریتم های ژنتیکی که به عنوان یک متدولوژی برای حل مسائل سخت بهینه سازی بسیار مفیدند.
۷) سیستم های استنباط فازی که بر اساس نظریه ی مجموعه های فازی و منطق فازی قرار دارند. مدل بندی فازی و تصمیمگیری فازی گام هایی هستند که غالبا در فرایند دادهکاوی قرار می گیرند.
۸) روش های تجسم Nبعدی که با وجود این که در صورت استفاده از این فنون و ابزارها می توان اطلاعات مفیدی کشف کرد ، از آن در ادبیات استاندارد دادهکاوی سخنی به میان نمیآید. فنونی مثل تجسم هندسی ، نشانه ای و فنون سلسله مراتبی
شبکه های عصبی[۵۵]
شبکه های عصبی یکی از موضوعاتی است که در مدل سازی ، پیش بینی ، رده بندی و … با حجم داده ی بسیار زیاد و دادهکاوی استفاده میشود. اساس این روش بر پایه ی ساختار مغز انسان میباشد که با توجه به نوع کارکرد مغز ، دریافت اطلاعات ، پردازش آنها و در نهایت تولید یک خروجی پایه ریزی شده است. شبکه های عصبی قدمت زیادی مانند برخی رشته ها از جمله ریاضی ، فیزیک ، شیمی و … ندارد و می توان آن را شاخه ای از علم نامید که زاییده ی قرن بیستم است و یکی از نشانه های نبوغ بشری برای ایده گرفتن از جهان پیرامون خود میباشد. پس از آن که ایده ی شبکه های عصبی به ذهن انسان ، قبل از ۱۹۵۰ خطور کرد و بعد از آن مبانی ریاضی آن پایه ریزی شد ، این موضوع با مشکلی روبرو شد که تا سال ها به صورت حل نشده باقی ماند که همین باعث رکود آن شد. ولی در نهایت در سال ۱۹۸۶ رومل هارت و مک کللند[۵۶] با ارائه ی یک راه حل جدید توانستند مشکل شبکههای عصبی را حل نموده و بار دیگر این شاخه از علم را به جریان و پیشرفت بازگردانند. پس از این بود که شبکههای عصبی به سرعت پیشرفت کرده و در علوم مختلف به کار گرفته شد. بر مبنای کارکرد آماری ، شبکههای عصبی در رگرسیون و سریهای زمانی برای مدل سازی و پیش بینی به کار می رود.
شبکه های عصبی در ۱۹۸۰ فراگیر شد که از چند عامل نشات می گرفت. نخست ، توان محاسبه کردن به راحتی در دسترس قرار گرفت. دوم ، با درک این که این شبکه ها رابطه ی نزدیکی با روش های آماری مشخص دارند ، تحلیلگران با شبکه های عصبی ارتباط برقرار کردند و با آن راحت تر شدند. سوم ، دادههای مناسب وجود داشت چون سیستم های عملیاتی در اکثر شرکتها قبلا خودکار شده بودند. چهارم ، کاربردهای سودمند شبکه های عصبی بر اهداف نهایی آن که مربوط به هوش مصنوعی بود پیشی گرفت. شبکه های عصبی امروزه در مهندسی برق ، مکانیک ، کامپیوتر ، اقتصاد ، ژئوفیزیک ، مدیریت ، آمار و خیلی رشتههای دیگر مورد استفاده است.
شبکه ی عصبی چیست؟
این اولین سوالی است که ممکن است به ذهن برسد. برای پاسخ به این سوال آن را به دو بخش تقسیم میکنیم :
۱) چرا آن را شبکه ی عصبی می نامند؟
چون شبکه ای از اجزای به هم مرتبط است آن را شبکه ی عصبی می نامند. این اجزاء از مطالعات سیستم های عصبی زیستی الهام گرفته شده است. به عبارت دیگر شبکه های عصبی کوششی است تا با استفاده از اجزایی که شبیه سلول های عصبی زیستی رفتار میکنند ، ماشین هایی ایجاد شوند که مانند مغز انسان کار میکنند.
۲) یک شبکه ی عصبی چه کار میکند؟
وقتی یک الگوی ورودی به یک شبکه ی عصبی ارائه میشود ، یک الگوی خروجی تولید میکند. بنابراین طبقه بندی ، رگرسیون و سری های زمانی در حیطه ی آمار ؛ تشخیص چهره یا اثر انگشت ، تشخیص صدا و سیستم های حفاظتی برای پیشامدهای غیر عادی ، که بنا به تعریف نمی توان آن را پیش بینی کرد ، در حیطه ی مهندسی و … از جمله مواردی است که از شبکه ی عصبی می توان برای انجام آنها استفاده نمود. به طور خلاصه میتوان گفت که شبکههای عصبی در حل سه گروه از مسائل بیشترین کاربرد را یافتهاند. مسائلی که دارای راه حل الگوریتمی نیستند ، مسائلی که راه حل الگوریتمی بسیار پیچیدهای دارند و مسائلی که انسان در حل آنها موفقتر از ماشین عمل میکند.
قابلیت های شبکه ی عصبی
شبکه های عصبی دارای قابلیت های زیر میباشد :
* الگوها را طبقه بندی میکند.
* به قدر کافی کوچک است تا به لحاظ فیزیکی قابل پیاده سازی باشد.
* با آموزش برنامه ریزی میشود ، لذا می تواند قابلیت یادگیری داشته باشد.
* با استفاده از مثال های نشان داده شده در طی آموزش تعمیم می یابد.
درخت تصمیم[۵۷]
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
درخت تصمیم یکی از مفیدترین روش ها در مسائل رده بندی است. با این روش یک درخت در فرایند رده بندی ساخته میشود. درخت تصمیم در رده بندی ، فضای جستجو را به نواحی مستطیل تقسیم میکند. یک نمونه ، بر اساس ناحیه ای که در آن قرار دارد رده بندی میشود. استفاده از درخت تصمیم به دلیل دقت و سرعت الگوریتم ها و سادگی در استفاده و فهم یک تکنیک معمول برای حل مسائل دادهکاوی میباشد.
قواعد پیوند
قواعد پیوند یکی از تکنیک های اصلی دادهکاوی است و شاید بتوان آن را مهم ترین شکل از کشف و استخراج الگوهای موضعی در سیستم های یادگیری هدایت نشده دانست. این روش از دادهکاوی شباهت خیلی زیادی به فرایند هایی دارد که اغلب مردم ، وقتی سعی میکنند فرایند دادهکاوی را بفهمند ، درباره ی آن فکر میکنند. برای مثال می توان به کاوش طلا در یک پایگاه دادههای وسیع اشاره نمود. در این حالت طلا یک قاعده است که مطالبی در مورد بعضی مسائل پایگاه داده به شما میگوید که تا به حال از آن بی خبر بوده اید و شاید به طور صریح نمی توانستهاید آن را مطرح کنید. این روش تمام الگوهای ممکن جالب در پایگاه دادهها را بازیابی میکند. این امر یک نقطه ی قوت است با این مفهوم که این روش همه ی دادهها را زیر و رو میکند ، اما می توان آن را یک نقطه ضعف نیز شمار آورد. زیرا به سهولت می تواند کاربر را در انبوهی از اطلاعات جدید غرق کند که تحلیل قابل استفاده بودن آنها دشوار و وقت گیر باشد.
مثال هایی از قواعد پیوند
* بررسی ویژگی های مشترکین یک شرکت تلفن که به یک سرویس جدید ارائه شده پاسخ مثبت می دهند.
* بررسی اینکه اگر والدین اهل مطالعه باشند ، به چه نسبتی کودک به مطالعه علاقه مند میشود.
* کشف اینکه چه کالاهایی در سوپرمارکت با هم خریداری می شوند و چه کالاهایی هرگز با هم خریداری نمیشوند.
* تعیین اثرات جانبی مصرف داروها با بررسی مصرف کنندگان و اثرات جانبی مختلف و میزان ارتباط آنها
* کشف ارتباط بین داروهای مختلف در یک داروخانه و به تبع آن چیدمان مناسب و بسته بندی سودمند
* کشف سایت های مرتبط در شبکه ی جهانی اینترنت و ترتیب مشاهده ی آنها توسط کاربر و بررسی رفتار کاربر
نرم افزارهای دادهکاوی
یک پـروژهی دادهکـاوی جهت انجام تحـلیلها به یک نرمافزار مناسـب نیاز دارد. امروزه نرمافزارهای مختـلفی در این زمیـنه وجود دارد. مانند :
AI Trilogy , Alice , Answer Tree , BrainMaker , CART , SPSS Clementine , Darwin , DataEngine , Datamite , DBMiner , Decider , DecisionTime , SAS Enterprise Miner , GainSmarts , Intelligent Miner , JDBCMiner , MarketMiner , MARS , Insightful , STATISTICA Data Miner , WebMiner ASP , WEKA , XLMiner
بیشتر سیستم های نرم افزاری فقط جهت انجام روش های خاصی مناسب هستند و قابلیت انجام روش های دیگر را ندارند. یکی از نرم افزارهای مناسب بنا بر تحقیقات انجام شده SAS Enterprise Miner میباشد.
کاربردهای دادهکاوی
امروزه عملیات دادهکاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند ، استفاده میشود ، از جمله : فروشگاهها ، شرکتهای مالی ، ارتباطاتی ، بازاریابی و غیره. استفاده از دادهکاوی به این شرکت ها کمک میکند تا ارتباط عوامل داخلی از جمله : قیمت ، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی مثل وضعیت اقتصادی ، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. همچنین دادهکاوی پیشبینی وضع آینده ی بازار ، گرایش مشتریان و شناخت سلیقههای عمومی آنها را برای شرکت ها ممکن میسازد. به عنوان مثال : بازار هدف ، پیدا کردن الگوی خرید مشتری ، برنامهریزی برای معرفی محصول جدید ، Customer profiling ، دستهبندی مشتریان براساس نوع خرید ، آنالیز نیازهای مشتریان ، تشخیص محصولات مناسب برای دستههای مختلف مشتریان ، تشخیص فاکتورهایی برای جذب مشتریان جدید ، تعیین الگوهای خرید مشتریان ، تجزیه و تحلیل سبد خرید بازار ، پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی) ، پیشبینی الگوهای کلاهبرداری از طریق کارتهای اعتباری و شناسایی جرایم مالی ، تشخیص مشتریان ثابت و دستهبندی و خوشهبندی مشتریان با توجه به رفتار مشابه آنها در زمینه ی بانکداری و بازپرداخت وام ، تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی ، تحلیل اعتبار مشتریان ، شناسایی فاکتورهای اصلی در ریسک بازپرداخت وام ، تحلیل پاسخگویی مشتریان به ارائه ی خدمات جدید بانکی ، پیشگویی میزان خرید بیمهنامههای جدید توسط مشتریان ، تحلیل ریسک و برآورد حق بیمه مشتریان بر اساس میزان ریسک هر مشتری ، پیشبینی میزان خسارت بر اساس گروههای مشتریان ، مدیریت ارتباط با بیمهگذاران و تدوین استراتژی بر اساس مشتریان هدف ، تعیین عوامل وفاداری و یا رویگردانی مشتریان ، شناخت نیازها و الگوهای خرید سرویس های بیمهای توسط مشتریان ، شناخت تخلفات بیمهای ، تعیین نوع رفتار با بیماران و تعیین روش درمان بیماری ها ، پیشگویی میزان موفقیت عمل جراحی و تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت ، بررسی میزان تاثیر دارو بر بیماری و اثرات جانبی آن ، تشخیص و پیشبینی انواع بیماری ها مانند تشخیص و یا پیشبینی انواع سرطان ، تجزیه و تحلیل دادههای موجود در سیستم های اطلاعات سلامت ، تحلیل عکس های پزشکی
همچنین بعضی از کاربردهای دادهکاوی را می توان در کاربردهای معمول تجاری (مثل تحلیل و مدیریت بازار ، تحلیل سبد بازار ، پیش بینی قیمت نفت ، بازاریابی هدف ، فهم رفتار مشتری و تحلیل و مدیریت ریسک) ، مدیریت و کشف فریب (کشف فریب تلفنی ، کشف فریب های بیمه ای اتومبیل ، کشف حقه های کارت اعتباری ، کشف تراکنش های مشکوک مالی و پول شویی) ، متنکاوی (خلاصه سازی ، یافتن متون مشابه و کلمات کلیدی ، پالایش نامه های الکترونیکی ، گروه های خبری و …) ، پزشکی (کشف ارتباط علامت و بیماری ، تحلیل آرایه های DNA ، تصاویر پزشکی) ، وب کاوی (پیشنهاد صفحات مرتبط ، بهبود ماشین های جستجوگر یا شخصی سازی حرکت در وب سایت) و یافتن روندهای فرهنگی سیاسی در وب ، تحلیل شبکههای اجتماعی وب۲ (وبلاگها ، ویکی ها) ، آنالیز ترافیک وب ، تشخیص نفوذی به شبکه ، بیوانفورماتیک ، سیستم پیشنهاد دهنده برای آموزش مجازی و کاربردهای بسیار دیگری در شاخه های مختلف مهندسی دانست.
فروش
یکی از کاربردهای بسیار مهم دادهکاوی فعالیت های مربوط به فروش کالا است. شرکت هایی که دارای حجم عظیمی از دادههای حجیم ذخیره شده و دادههای بسیار بسیار با ارزش هستند ، از این ویژگی دادهکاوی به خوبی استفاده میکنند. دلیل مهم علاقه ی این شرکت ها به این خاصیت دادهکاوی ، اهمیت زیاد تصمیمگیری و پیشگویی برای آنها است.
تحلیل سبد خرید یکی از کاربردهای مفید تکنیک های کشف پیوند است که برای پیدا کردن گروه هایی از کالاها که در تبادلات در کنار هم قرار می گیرند به کار می رود و عموما در سوپرمارکت ها استفاده میشود. در بسیاری از فروشگاه ها این تبادلات تنها منبع اطلاعات فروش هستند که دادهکاوی می تواند از آن استفاده کند. به طور مثال ، یک تحلیل خودکار از اطلاعات فروش یک سوپر مارکت ، ممکن است برخی حقایق را در مورد مشتریان آشکار کند. مثلا پی بردن به این حقیقت که مشتریانی که آبمیوه می خرند ، چیپس هم خریداری میکنند. این مساله می تواند برای سوپرمارکت ها بسیار حائز اهمیت باشد. یا مثلا دانستن این که مشتریان در روزهای خاصی از هفته بعضی اجناس را با هم خریداری میکنند. مثلا پنج شنبه ها آبمیوه و قیچی با هم خریداری میشود. همان طور که ملاحظه می کنید این دو کالا بسیار نامربوط به نظر می رسند و کشف این ارتباط بدون استفاده از روش های دادهکاوی و فقط با استفاده از مشاهدات تجربی غیر ممکن است. داروخانه ها نیز مانند فروشگاه های بزرگ ، شامل حجم وسیعی از اقلام دارویی ، بهداشتی و آرایشی هستند که کشف ارتباط آنها در هنگام فروش (با استفاده از اطلاعات نسخه ها) در جوامع پیشرفته بسیار حائز اهمیت میباشد.
این اطلاعات استفاده ی بسیار زیادی دارند ، ازجمله برنامه ریزی و طراحی داخلی فروشگاه ، تعیین تخفیف برای خرید یک مجموعه از اجناس که با هم خریداری می شوند ، تعریف کالابرگ برای محصولاتی که بیشتر با هم خریداری می شوند و …
همچنین از بررسی اطلاعات خرید مشتریان ، می توان مشتریانی را که همیشه فقط یک قلم کالا خریداری میکنند تشخیص داد و برای آنها کارت تخفیف صادر کرد تا فروشگاه بتواند مشتریان تک خریدی خود را بشناسد. شاید در ابتدا به نظر برسد که صدور کارت تخفیف به ضرر فروشگاه است ، اما اطلاعات به دست آمده در مورد سابقه ی مشتریان در دراز مدت بسیار مفید خواهد بود و برای فروشگاه ارزشمند است. به کار بستن این پیشنهادات با وجودی که هزینه ی سنگینی دارند و سرعت پاسخگویی آنها پایین است اما به شدت سودمند و کارا هستند. امروزه بحث تحلیل سبد خرید به یکی از پرطرفدارترین مباحث روز دنیا تبدیل شده است و شرکت های بزرگ برای فروش محصولات خود و پیشی گرفتن از رقبا در بازارهای جهانی به شدت از این تکنیک ها استفاده میکنند. برای مثال با ارائه ی محصولات مرتبط در یک بسته ، فروش محصولات خود را بالا می برند.
همچنین امروزه پایگاه دادههای تجاری موجود ، شامل اطلاعات آماری هستند که وابسته به کد پستی است که با استفاده از آن گروه های مجاور وابسته را با اطلاعاتی که برای هر مشتری وجود دارد مشخص میکنند و به وسیله ی آن یک مدل اجتماعی تولید میکنند که رفتار واقعی مشتریان را در جامعه پیش بینی کند.
بازاریابی
در بازاریابی مشتری احتمالی شخصی است که از لحاظ منطقی احتمال دارد که مشتری شود به شرطی که به شیوه ی درست به او نزدیک شویم. هم اسم و هم فعل این کلمه با مفهوم استفاده از دادهکاوی برای دستیابی به اهداف شناسایی افرادی که مشتریان ارزشمندی در آینده خواهند بود ، اهمیت بیشتری پیدا میکنند. برای بیشتر شرکت های تجاری ، تعداد بسیار کمی از جمعیت شش میلیاردی کرهی زمین جزء مشتریان احتمالی هستند. بسیاری از این افراد به دلایلی مانند جغرافیا ، سن ، توانایی پرداخت هزینه و نیاز به محصول یا خدمات از فهرست مشتریان احتمالی حذف میشوند. برای مثال بانکی که اعتباراتی با ارزش ویژه برای خانه میدهد ، به طور طبیعی این نوع وام را به خانوارهایی محدود میکند که در حوزه ی اختیاراتی که بانک مجوز دارد در آن عمل کند ، واقع هستند. شرکتی که تاب های قابل نصب در حیاط می فروشد ، می خواهد کاتالوگ خود را به خانواده های بچه دار با آدرس هایی که احتمالا حیاط دارند ، بفرستد. مجلهها افرادی را هدف میگیرند که همان زبان را میخوانند و مورد توجه تبلیغکنندگان مجله هستند. دادهکاوی می تواند نقش های زیادی در جذب مشتری داشته باشد. مهمترین این نقش ها عبارتند از : شناسایی مشتریان احتمالی خوب ؛ انتخاب کانال ارتباطی برای گروه های مختلف مشتریان احتمالی ؛ انتخاب پیام های مناسب برای گروههای مختلف مشتریان احتمالی. البته امروزه دادهکاوی بیشتر در مورد اول به کار برده میشود.
مدیریت ارتباط با مشتری
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
مدیریت ارتباط با مشتری به طور طبیعی بر مشتریان فعلی تمرکز میکند. خوشبختانه ، مشتریان دائم منبعی غنی از دادهها برای دادهکاوی هستند. بهتر از همه اینکه دادههای فراهم آمده توسط مشتریان دائم منعکس کننده ی رفتار واقعی شخصی آنها است. آیا مشتری صورت حساب های خود را به موقع می پردازد؟ از طریق چک می پردازد یا کارت اعتباری؟ آخرین خرید او چه زمانی بوده است؟ چه محصولی خریده است؟ قیمت آن چقدر بوده است؟ این مشتری چند بار با واحد خدمات مشتریان تماس گرفته است؟ ما چند بار با مشتری تماس گرفتیم؟ این مشتری معمولا از چه شیوه ای برای تحویل کالا استفاده میکند؟ این مشتری چند بار خرید خود را پس داده است؟ این نوع دادههای رفتاری می تواند برای ارزیابی ارزش بالقوه ی مشتری ، ارزیابی خطر قطع ارتباط مشتری ، ریسک عدم پرداخت صورت حساب های این مشتریان و پیش بینی نیازهای آینده ی او ، استفاده شوند.
خوشهبندی بخش اصلی مشتریان
خوشهبندی مشتریان ، کاربردی متداول از دادهکاوی در مورد مشتریان ثابت است. هدف خوشهبندی منطبق کردن محصولات ، خدمات و پیام های بازاریابی با هر خوشه از مشتریان است. خوشه های مشتریان به طور سنتی بر اساس تحقیقات بازاریابی و جمعیت شناسی مشخص می شوند. ممکن است خوشه هایی مانند جوان و مجرد وجود داشته باشد. مشکل خوشه هایی که بر اساس تحقیقات بازاریابی ایجاد می شوند این است که چگونه آنها را در مورد تمام مشتریانی که بخشی از تحقیق نبوده اند به کار بگیریم. مشکل خوشه های که بر اساس جمعیت شناسی هستند این است که تمام افراد جوان و مجرد یا تمام افرادی که بچه هایشان ازدواج کرده و از آنها جدا شده اند در واقع همان سلایق وابستگی هایی را که در خوشه شان توصیف شده ندارند. رویکرد دادهکاوی تعیین مجموعه های رفتاری است.
محدودیتهای دادهکاوی
* در حالی که محصولات دادهکاوی ابزارهای قدرتمندی میباشند ، اما برای کسب موفقیت ، دادهکاوی نیازمند تحلیلگران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیتهای دادهکاوی مربوط به داده ی اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
* اگرچه دادهکاوی به الگوهای مشخص و روابط آنها کمک میکند ، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند.تصمیماتی از این قبیل بر عهدهی خود کاربر است.
* تشخیص رابطه ی بین رفتارها و یا متغیرها یکی دیگر از محدودیت های دادهکاوی میباشد که لزوما روابط اتفاقی را تشخیص نمیدهد. برای مثال برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند ، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد ، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.
مشکلات دادهکاوی
۱) وجود عدم قطعیت در اطلاعات : به طور کلی عدم قطعیت در سیستمهای پایگاه داده به دو دسته تقسیم می شوند :
اطلاعات ناکامل (مقادیر نامشخص) : منظور خصیصه هایی است که مقداری برای آنها ثبت نشده است.
اطلاعات ناسازگار : اطلاعاتی که در اثر اندازهگیری نادرست یا به وجود آمدن نویز در دادهها ایجاد شده باشد و مقادیر ثبت شده با مقادیر واقعی برابر نباشند. (راه حل این مشکلات قبلا عنوان شده است.)
۲) حجم بالای دادهها : تعداد رکوردهای برخی از پایگاه دادهها به چند صد میلیارد می رسد. برای رفع مشکلاتی که این سیستم ها در برخورد با دادههای حجیم دارند ، معمولا روش های زیر استفاده میگردند :
طراحی الگوریتم های سریع : کاهش پیچیدگی ها ، بهینه سازی ، موازی سازی و …
کاهش حجم دادهها : نمونه گیری ، گسسته سازی ، کاهش ابعاد و …
به کارگیری یک مدل رابطه ای : استفاده از قابلیت های ذخیره و بازیابی اطلاعات در پایگاههای داده
برخی از مشکلات دادهکاوی از اینجا ناشی میشود که نمونه های بسیار زیادی با انواع مختلف صفات وجود دارند. علاوه بر این ، این نمونه ها در بسیاری اوقات دارای بعد بالایی هستند ؛ به این معنی که دارای تعداد فوقالعاده زیاد از صفات اندازه پذیر میباشند. این بعد اضافی مجموعه ی دادههای حجیم باعث به وجود آمدن مشکلی میشود که در اصطلاحِ دادهکاوی به نام «آفت بُعدیت» مشهور است. این آفت بُعدی به دلیل هندسه ی فضاهای با بعد بالا ایجاد میشود و این نوع فضاهای دادهها مخصوص مسائل دادهکاوی است. ویژگیهای فضاهای با بعد بالا اغلب بر خلاف درک شهودی ظاهر میشوند ، زیرا تجربه از دنیای واقعی در یک فضای با بعد پایین از قبیل فضای با ابعاد دو یا سه است.
نمونههای اجرا شده دادهکاوی
در صنعت
شرکت فولادسازی پوهانگ کره برای صرفهجویی در مصرف انرژی در کورههای بلند خود از الگوریتمهای دادهکاوی استفاده و در حدود ۱۵% از مصرف انرژی خود را کاهش داد ، که باعث ۳/۱ میلیون دلار صرفهجویی در هزینههای شرکت شد و از طرف دیگر باعث کاهش قیمت محصولات آن شرکت و افزایش تعداد مشتریان و سود بیشتر آن شرکت نیز شد.
در هتلداری
یکی از هتل های مشهور در لاسوگاس آمریکا ، برای بالا بردن رضایت مسافران از الگوریتمهای دادهکاوی استفاده کرد ، به این صورت که با استفاده از اطلاعات جمعآوری شده از مسافران به وسیلهی پرسشنامه و آنالیز آن دادهها توانست عواملی که باعث میشد مسافران دوباره به این هتل باز گردند را پیدا کرده و با طبقهبندی مسافران ، مسافران وفادار به هتل را پیدا کنند.
در مدیریت ریسک
در یکی از بانکهای بزرگ کانادا با استفاده از الگوریتمهای دادهکاوی ، مدلی را برای دادهها ارائه داده و به وسیله ی نتایج آنالیز آن ، مساله مهم تقلب در حسابها و چگونگی و میزان برگشت وامهای داده شده توسط بانک را حل نمودند و تصمیمی صحیح را برای مشتریان جدید بانک گرفتند.
دادهکاوی در ایران
در کشور ما نیز با رشد روزافزون دادهها در کارخانجات ، شرکتها ، فروشگاههای زنجیرهای و مراکز مختلف دولتی و خصوصی نیاز به استفاده از دانش نهفته در آنها یعنی انجام دادهکاوی روی دادهها ضروری به نظر میرسد. دادههای مرکز آمار ایران ، داروخانه ها ، بیمارستانها ، دادههای مرکز پلیس ، مراکز قضایی ، کارت سوخت ، سازمان هواشناسی کشور ، بانک ها ، بیمه و … از جمله دادههای انبوه و بسیار ارزشمندی هستند که شایستگی دادهکاوی و تحلیل قوانین پنهان را دارند. دادهکاوی می تواند با کشف الگوهای پنهان در اصلاح روند تصمیمگیری مدیران بسیار موثر باشد اما کشور ما به دلیل عدم وجود فرهنگ به اشتراک گذاری اطلاعات از دستاوردهای این فناوری محروم بوده است.
متنکاوی[۵۸]
اکنون بیش از ۸۰ درصد دانش ما به صورت متن ، مستندات و دیگر صورت های رسانه ای نظیر ویدیو و صدا نگهداری میشوند. یک فرد برای دریافت دانش از اطلاعات یک متن ، باید ابتدا آن را درک کند و سپس آن را پردازش کند تا بفهمد چه معانی و مفاهیمی در آن موجود است ، چه ارتباطی میان مفاهیم وجود دارد و از میان این مفاهیم کدام جدید است و کدام قدیمی. با این حال در این عصر تکنولوژی ما معتقدیم که هر چیزی باید بتواند اتوماتیک انجام شود حتی اگر این کار «درک معنی متن» باشد. این تنها یکی از نام هایی است که برای این نوع از پردازش مطرح میشود. «متنکاوی» ، «کاوش دادههای متنی»[۵۹] و نام معروف «کشف دانش در متن»[۶۰] از نام های مورد قبول در این زمینه هستند.
در دنیای کنونی این کمبود اطلاعات نیست که مساله است ، بلکه کمبود دانشی است که از این اطلاعات می توان حاصل کرد. میلیون ها صفحه ی وب ، میلیون ها کلمه در کتابخانه های دیجیتال و هزاران صفحه اطلاعات در هر شرکت ، تنها چند مورد از این منابع اطلاعاتی هستند. اما نمی توان به طور مشخص منبعی از دانش را در این بین معرفی کرد. دانش خلاصه ی اطلاعات است و نیز نتیجه گیری و حاصل فکر و تحلیل بر روی اطلاعات. دادهکاوی برای کشف دانش از پایگاه دادههای حجیم استفاده میشود. البته استفاده از دادهکاوی عمومیت ندارد. دادهکاوی را بر منابع دادهای ساخت یافتهای اعمال میکنیم که به اندازهی کافی بزرگ باشند. کتابخانههای دیجیتال ، اخبار ، کتابهای الکترونیکی ، بسیاری از مدارک مالی ، مقالات علمی و تقریبا هر چیزی که شما میتوانید در داخل وب بیابید ، ساختیافته نیستند. در نتیجه ما نمیتوانیم دادهکاوی را در مورد آنها به طور مستقیم استفاده کنیم.
با این حال سه روش اساسی در مواجهه با این حجم وسیع از اطلاعات غیرساختیافته گسترده شده در جهان وجود دارد :
۱) بازیابی اطلاعات[۶۱] : بازیابی اطلاعات اصولا مرتبط است با بازیابی مستندات و مدارک. کار معمول در بازیابی اطلاعات این است که بسته به نیاز مطرح شده از سوی کاربر ، مرتبطترین متون و مستندات را از میان دیگر مستندات یک مجموعه بیرون بکشد. این یافتن دانش نیست بلکه تنها مجموعه ای از کلمات را که به نظرش مرتبط تر به نیاز جستجوگر است ، به او تحویل می دهد. این روش به واقع هیچ دانشی و حتی هیچ اطلاعاتی را برایمان به ارمغان نمیآورد.
۲) استخراج اطلاعات[۶۲] : استخراج اطلاعات ، دادههای اولیه را که دادههایی غیرساختیافته اند مورد بررسی قرار می دهد و با بیرون کشیدن اطلاعات از تک تک این دادهها ، یک پایگاه داده را پر میکند. پیش نیاز این کار تعریف یا کشف یک قالب از دادههای مورد بررسی است. هر چند یافتن این قالب در دادههای غیرساختیافته ممکن است به سادگی صورت نگیرد. اما زمانی که این کار به پایان برسد ، با دادههایی کاملا ساختیافته مواجه خواهیم بود. اما از سوی دیگر ، این فقط اطلاعات است که ما داریم نه دانش! به این معنی که هیچ چیز جدیدی از آنچه داریم کشف نشده است.
۳) کشف دانش در متن : در کشف دانش از متن ، ابتدا به دنبال استحصال مفاهیم اولیه از متون هستیم و سپس ارتباطی را میان این مفاهیم می یابیم. به عنوان مثال «مناطق بارانی» و «کشت برنج» دارای رابطه ای به این صورت هستند که کشت برنج به مناطق بارانی نیاز دارد. همچنین رابطه ای بین «مناطق بارانی» و «مناطق شمال کشور» به این صورت وجود دارد که مناطق شمال کشور مناطق بارانی هستند. آنچه که تا کنون داریم تنها اطلاعات استخراج شده از متون است. اما سیستم می تواند کمی باهوش تر باشد و با درک این دو گزاره نتیجه دهد که گزاره سومی نیز قابل طرح است که «مناطق شمال کشور قابل کشت برنج است.» همان طور که مشاهده میشود این اطلاعات جدید را می توان دانش نامید. برخی معتقدند تفاوت بسیار اندکی بین استخراج اطلاعات و کشف دانش از متون وجود دارد. البته بسیاری نیز معتقدند که استخراج اطلاعات میتواند به عنوان یک فاز پیش پردازش برای فرایند متنکاوی در نظر گرفته شود.
کاربردهای متنکاوی
جستجو و بازیابی : روشهای جدیدی در رابطه با جستجو و بازیابی اطلاعات با در نظر گرفتن متنکاوی ، قابل تصور است. همان طور که قبلا گفته شد بازیابی اطلاعات دارای این هدف است که از میان مجموعه ای از مدارک و متون ، آنهایی را که به نیاز اطلاعاتی کاربر مرتبط ترند جدا کنند و به کاربر نشان دهند. بنابراین همیشه شرایطی هست که کاربر نتواند به نیاز اطلاعاتی خود ، حتی از میان نتایج دریافت شده برسد. در بسیاری از شرایط داشتن سیستمی که بتواند جواب دقیق را برگرداند ترجیح بیشتری دارد. این نوع از سیستم های بازیابی اطلاعات به «سیستم پاسخگو به پرسش»[۶۳] معروفند. اگر چه این نوع از سیستم های بازیابی اطلاعات بر اساس استفاده ی گسترده ای از تکنولوژی ها مانند پردازش زبان طبیعی[۶۴] و یادگیری ماشین استوار است ، اما در نهایت آنچه در این سیستم ها ، نقش اصلی را دارا است یک پایگاه دانش است که از طریق روش های مبتنی بر NLP و یا روش های آماری بر روی مدارک موجود در مجموعه ساخته شده است. در استخراج این روابط می توان از متنکاوی استفاده کرد. استخراج چنین روابطی در واقع یکی از کاربردهای متنکاوی است.
خوشهبندی و رده بندی دادهها : یکی از مواردی که میتواند به کاربر در یافتن سریعتر اطلاعات مورد نظرش کمک کند ، دستهبندی اطلاعاتِ موجود است. این دستهبندی به کاربر یک نگاه کلی از آنچه در مجموعه متون وجود دارد می دهد. در ساختن این دستهبندی دو روش کلی وجود دارد ؛ ردهبندی و خوشهبندی. در رده بندی دسته های از پیش تعریف شدهای از مفاهیم وجود دارد و تلاش میشود که سیستمی طراحی شود که هر کدام از مستندات و مدارک جدید را به یکی از این دستهها نسبت دهد. این کار در واقع به رده بندی دادهها معروف است. در سوی دیگر ، خوشهبندی دادهها ، ساختن این دستهها به طور اتوماتیک است. در واقع با خوشهبندی مدارک قصد بر این است که مشخص شود تمرکز مفاهیم در مجموعه ی متون حول چه چیزهایی است. در واقع در اینجا دسته ی از پیش تعریف شده ای وجود ندارد. این دو مفاهیمی هستند که از آمار و دادهکاوی رایج در پایگاه دادهها به قرض گرفته شدهاند. (دادهکاوی هدایت شده و هدایت نشده)
خلاصه سازی : منظور از خلاصه سازی روند ساختن مجموعه ای از مفاهیم پایه ای در متن ، تنها در چند خط است. در این نوع از متنکاوی به نظر میرسد که اطلاعات جدیدی از متن به دست ندهد به این دلیل که خود نویسنده احتمالا میدانسته است که چه چیزی میخواسته بگوید و خلاصه ی نوشتههای او اطلاعات جدیدی را اضافه نمیکند. اگرچه این کار میتواند بررسی محتویات را برای کاربران سادهتر کند و آنها را در مسیر رسیدن به آنچه نیاز دارند ، سرعت دهد.
استخراج روابط : از جمله واقعیت هایی که می توان از یک مجموعه ی متون دریافت ، ارتباط و وابستگی برخی مفاهیم با مفاهیم دیگر است. این واقعیات به طور مثال می تواند بیانگر این باشد که ممکن است پدیدار شدن بعضی کلمات به ظاهر شدن بعضی دیگر از کلمات وابسته باشد. منظور این است که هرگاه مجموعه ی اول کلمات مشاهده شود ، می توان انتظار داشت که مجموعه ی دوم لغات نیز مشاهده شود. این مفهوم نیز از دادهکاوی در پایگاه دادهها به امانت گرفته شده است. (قوانین وابستگی)
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
یافتن و تحلیل روند ها : فرض کنید که شما مدیر یک شرکت تجاری هستید. مشخصا شما باید همواره چشمی بر فعالیت های رقیبتان داشته باشید. این امر می تواند هر نوع اطلاعاتی باشد که شما از اخبار ، معاملات بورس و یا از مستندات تولید شده توسط همان شرکت رقیب گرفته اید.
با توجه به اینکه در حال حاضر که اطلاعات به طور فزاینده ای در حال افزایش است ، مدیریت تمام این منابع داده ای قطعا تنها به کمک چشمانتان ممکن نیست. متنکاوی به شما این اجازه را می دهد که به طور اتوماتیک روندها و تغییرات جدید را بیابید. در واقع آنچه اصولا باید از متنکاوی انتظار برود این است که به شما بگوید چه اخباری در میان گستره ای از اخبار به آنچه میخواهید مرتبط است و در این میان کدام خبر جدید است ، چه پیشرفت هایی در زمینه ی کاری شما صورت می گیرد و علایق و روندهای فعلی چگونه است و با چه روندی تغییر میکند. با استفاده از این اطلاعات ، مدیر تنها از اطلاعات کشف شده برای بررسی وضعیت رقیب می تواند سود جوید.
برچسب زدن نحوی[۶۵] : اگرچه تعداد زیادی معتقد به این نیستند که این کار جزئی از متنکاوی است ، ولی برای مثال سیستمی به نام GATE [66] در دانشگاه شفیلد در یک کتابخانه ی دیجیتال به این قصد نصب شده است. GATE شامل ابزارهایی برای برچسب زدن جملات است. برای مثال این سیستم میتواند در داخل یک متن ، نام موقعیت جغرافیایی ، نام اشخاص و چیزهایی شبیه این را بیابد. به این خاطر این سیستم بیشتر شامل استخراج اطلاعات است تا استخراج دانش. در عین حال POS اغلب نقش بزرگی را در پردازش زبانهای طبیعی بازی میکند. در حقیقت این اولین قدم در پردازش زبان طبیعی است و پردازش زبان طبیعی یکی از پایه های متنکاوی است.
فرایند متنکاوی
متنکاوی فرایندی است که شامل فیلدهای تکنولوژیکی فراوانی است. بازیابی اطلاعات ، دادهکاوی ، هوش مصنوعی ، آمار و زبان شناسی محاسباتی همه فیلدهایی هستند که در این زمینه نقشی را دارا هستند. اما به طور کلی دو فاز اصلی در فرایند متنکاوی وجود دارد که در شکل زیر نشان داده شده است.
اولین فاز ، پیش پردازش مستندات است. خروجی نخستین فاز می تواند دو قالب مختلف داشه باشد ، مبتنی بر سند و مبتنی بر مفهوم. در اولین شکل نمایش ، آن چه برای ما مهم است نحوه ی نمایش بهتر برای مستندات است. این امر می تواند تبدیل آنها به یک فرمت میانی و نیمهساختیافته باشد یا به کار بردن یک علامت بر روی آن یا هر نوع نمایش دیگری که کار کردن با مستند را کاراتر میکند. در این حال هر موجودیت در این نمایش در نهایت باز هم یک مستند خواهد بود. در نوع دوم بهبودبخشی به نمایش مستند ، مفاهیم و معانی موجود در سند و نیز ارتباط میان آنها و هر نوع اطلاعات مفهومی دیگری که قابل استخراج است ، از متن استخراج میشود. در این نوع نمایش دیگر با مستندات به عنوان یک موجودیت مواجه نیستیم ، بلکه با مفاهیمی روبرو هستیم که از این مستندات استخراج شده اند. قدم بعدی استخراج دانش از این فرم های میانی نمایش مستندات است. بسته به نحوهی نمایش یک مستند ، روال استخراج دانش برای یک مستند متفاوت است. نمایش مبتنی بر مستند برای خوشهبندی ، رده بندی ، تصویرگری و نظایر آن استفاده میشود ، در حالی که نمایش مبتنی بر مفهوم برای یافتن روابط میان مفاهیم ، ساختن اتوماتیک تزاروس[۶۷] و آنتولوژی[۶۸] و نظایر آن به کار می رود.
روش های متنکاوی
تعداد زیادی روش در فاز استخراج دانش وجود دارد. در عین حال تمام این روش ها را شاید بتوان به دو دسته ی اصلی تقسیم کرد. این دو دسته ی اصلی ، روش های مبتنی بر کارایی و روش های مبتنی بر دانش هستند. در روش اول ، طراحان نگران کارایی سیستم هستند و طوری سیستم را طراحی میکنند که بهترین کارایی و سرعت را داشته باشد. روشهای رایجتر در این نوع نگرش ، روشهای آماری و شبکههای عصبی هستند. روش های آماری بر پایه ی هر نوع اطلاعات آماری است که از متون قابل استخراج است ، مواردی چون تکرار لغات به تنهایی ، تکرار لغات با هم و چیزهایی شبیه آن. در سوی دیگر روش های مبتنی بر دانش قرار دارند که از زاویه ی دید دیگری به این مساله نگاه میکنند. آنها سعی میکنند اولا تا حد ممکن مفاهیم موجود را از داخل مجموعهی متون استخراج کنند و ثانیا بین این مفاهیم روابطی برقرار کنند. استفاده از این روش بسیار وابسته به NLP است. در حقیقت این هدفی است که NLP نیز آن را دنبال میکند و آن درک متن است. سیستمهایی که از این روش ها در حال حاضر استفاده میکنند زیاد نیستند.
وب کاوی
وب کاوی عبارت است از کاوش در دادههای مربوط به وب. این کاوش ممکن است دادههای موجود در صفحات وب یا دادههای مربوط به کار و فعالیت وب باشد. دادههای وب را می توان این گونه طبقه بندی کرد : محتوای صفحات وب ، ساختار میان صفحه ای شامل کد HTML یا کد XML برای هر صفحه ، دادههای ساختار میان صفحه ای به عنوان یک بافت ارتباطی میان صفحات وب ، دادههای کاربردی که نحوه ی دستیابی بازدیدکنندگان به صفحات وب را تشریح میکند و دادههای مشخصات کاربران شامل اطلاعات آماری و ثبت نام که از آنها دریافت می گردد. وبکاوی فراتر از فناوری IR حرکت میکند. طبقه بندی وبکاوی در شکل زیر نشان داده شده است.
طبقهبندی وبکاوی
نتیجهگیری
اگرچه وجود میزان فوق العاده زیاد دادههای ذخیره شده در فایل های پایگاه های داده و دیگر مخازن اطلاعاتی ، توسعه ی وسایلی قدرتمند برای تجزیه و تحلیل و شاید تفسیر آنها و همچنین استخراج دانشی که بتواند به تصمیمگیری مدیران کمک کند را طلب میکند ، تا حد زیادی با به کارگیری دادهکاوی به نتیجه می رسد ، اما برای پوشش دادن محدودیت های آن باید روش های دیگر را نیز همراه آن به کار گرفت. و در نهایت
* دادهکاوی یک وسیله است نه یک عصای سحر آمیز
* دادهکاوی نمی تواند دادههای مورد نیاز ما را تولید کند.
* دادهکاوی نمی تواند الگوهای مهم موجود در دادهها را به طور خودکار مشخص کند.
* حل مسائل دادهکاوی نیاز به درک دادهها و معلومات در آن زمینه ی خاص دارد.
* تصمیمگیری فقط با توجه به نتیجه ی دادهکاوی عاقلانه نیست.
* روابط پیشگویی حاصل از دادهکاوی لزوما علت یک پدیده یا رفتار نیست.
منابع
مینایی ، بهروز ؛ «دادهکاوی ؛ نگاهی کوتاه به اصول و کاربردها ؛ آنچه در زیر پنهان است» ؛ ماهنامهی تحلیلگران عصر اطلاعات ؛ سال دوم ، شمارهی یازدهم ، خرداد ۱۳۸۷
قاضی طباطبایی ، محمود ؛ «اکتشاف دانش و دادهکاوی در پژوهشهای کمی و کیفی» ؛ فصلنامهی مطالعات اجتماعی ایران ؛ دورهی سوم ، شمارهی چهارم ، زمستان ۱۳۸۸
زین العابدین ، نرگس ؛ «دادهکاوی و اکتشاف دانش» ؛ ماهنامهی کارآفرین ناب ؛ سال سوم ، شمارهی نوزدهم ؛ مهر و آبان ۱۳۹۰
شهابی ، بهنام ؛ «دادهکاوی در بستر یادگیری الکترونیکی» ؛ مجلهی مدیریت ؛ شمارهی ۱۰۵ و ۱۰۶ ، سال ۱۳۸۴
مفاخری ، ندا ؛ «دادهکاوی و کاربردهای آن» ؛ مدیران ایران ؛ شهریور ماه ۱۳۹۰
بهرامی جم ، سحر ؛ «آشنایی با مفاهیم فناوری تحلیل دادهها (OLAP)» ؛ ۱۳۸۸
مشکانی ، علی ؛ ناظمی ، عبدالرضا ؛ «مقدمه ای بر دادهکاوی» ؛ انتشارات دانشگاه فردوسی ؛ ۱۳۸۸
شهرابی ، جمال ؛ «دادهکاوی» ؛ انتشارات جهاد دانشگاهی ؛ ۱۳۸۶
کارگاه تخصصی آموزش دادهکاوی و کاربردهای آن در Comex 2010
ششمین کنفرانس داده کاوی ایران
Ramakrishnan , Raghu ; Gehrke , Johannes ; “Database Management Systems” ; McGraw-Hill Science ; 2002
۱٫ DataMining
۲٫ Knowledge Discovery in Database (KDD)
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
۳٫ Machine Learning
۱٫ G.Piatetsky-Shapiro
۲٫ Usama Fayyad
۳٫ Database
۱٫ Data , Information , Knowledge
۲٫ Classic Statistics
۳٫ Artificial Intelligence
۱٫ Computer Science
۲٫ Secondary Data
۱٫ Knowledge Extraction
۲٫ Information Discovery
۳٫ Information Harvesting
۴٫ Data Archeology
۱٫ Data Cleaning
۲٫ Data Integration
۳٫ Data Selection
۴٫ Data Transformation
۵٫ Pattern Evaluation
۶٫ Knowledge Presentation
۱٫ Data Warehouse
۲٫ Server
۳٫ Knowledge Base
۴٫ DataMining Engine
۵٫ Graphical User Interface
۱٫ مجموعه ای از دادهها که عملیات کاوش روی آن صورت میگیرد.
۲٫ Simplicity
۳٫ Certainty
۴٫ Utility
۵٫ Directed and Undirected
۱٫ Classification
۲٫ Categorizition
۳٫ Ranking
۴٫ Nearest Neighbor
۵٫ Estimation
۶٫ Threshold
۱٫ Prediction
۲٫ Affinity Grouping , Association Rules
۳٫ Market Basket Analysis
۴٫ Clustering
۱٫ Profiling
۲٫ Online Transaction Processing
۱٫ Data Cube
۲٫ Snow Flake
۳٫ Dimension
۱٫ Views
۲٫ Decision Support Systems
۳٫ Bill Inmon
۴٫ Subject Oriented
۵٫ Integrated
۶٫ Time Variant
۷٫ Update
۱٫ Nonvolatile
۱٫ Neural Network
۲٫ Rumelhart and McClelland
۱٫ Decision Tree
۱٫ Text Mining
۲٫ Text Data Mining
۳٫ Knowledge Discovery in Text (KDT)
۱٫ Information Retrieval
۲٫ Information Extraction
۳٫ Question Answering System
۴٫ Natural Language Processing (NLP)
۱٫ Part of Speech Tagging (POS)
۲٫ General Architecture for Text Engineering
۱٫ (Thesaurus) مجموعه ای از لغات به اضافه ی تعاریفشان و رابطه ی میان آنها
انجام پروژه داده کاوی با وکا (weka)
ژوئن 29, 2019 , admin , پیغام بگذارید
انجام پروژه های داده کاوی (data mining) ومشاوره پروژه های داده کاوی و انجام پایانامه داده کاوی و طرح های تحقیقاتی با وکا (weka) با کارشناسان و متخصصان
ای زد سافت انجام پروژه های داده کاوی با weka خدمت شما خواهند بود .
سرویس ها ما در زمینه داده کاوی (data mining)
انجام پروژه های تجاری داده کاوی
مشاوره پروژه و پایانامه های داده کاوی وانچام پروژه های داده کاوی
انجام پروژه های داده کاوی کارهای تحقیقاتی وسیستم فروش و بازاریابی
پیاده سازی مقالات و پانامه های مربوط به سیستم های تشخص هک و نفوذ با استفاده از روش های داده کاوی
مشاور انجام پایان نامه و پروژه های سیستم های تشخیص نفوذ با استفاده از داده کاوی
مشاوره و انجام مقالات وپروژه ها و پایانامه در سگمنت (بخش بندی) داده
مشاره پایانامه های دانشجویی داده کاوی (دیتا ماینینگ)
مشاوره انجام پروژه های داده کاوی و مشاوره پایانامه داده کاوی امنیت داده ها و شبکه داده کاوی
مشاوره و تحلیل پروژه های مربوط به دارو سازی داده کاوی
مشاوره وپیاده سازی پروژه های دانشجویی داده کاوی
مشاوره و پیاده سازی پروژه های تجاری واداری داده کاوی
پیاده سازی ومشاوره پروژه های داده کاوی و یادگیری ماشین وتشخیص الگو
موضوعاع داده کاوی و پروژه های مربتط داده کاوی موضوعات پایانامه داده کاوی
موضوع پایان نامه داده کاوی
موضوعات داده کاوی مرتبط با شبکه های کامپیوتری
موضوعات داده کاوی مرتبط با شبکه های اجتماعی
معرفی محیط سافت ور (برنامه ) داده کاوی وکا (weka)
معرفی امکانات نرم افزار داده کاوی وکا (weka)
نرم افزار وکا از قسمت های مختلفی تشکیل شده شمال خواندن انواع داده ها با فرمت های مختلف -الگوریتمهای پیاده سازی شده -انترفیس (رابط کاربری قوی)-روش پیش پردازش داده ها-روشهای ارزیابی نتایج الگوریتم های مختلف-متدهای مصور سازی داده ها-امکان پیاده سازی انواع الگوریتم های داده کاوی با زبان برنامه نویسی جاوا با پلت فرم وکا وامکانات متعددی که نرم افزار وکا فراهم کرده است که در زیر بصورت کامل اشاره خواهیم کرد .
معرفی نرم افزار داده کاوی weka (وکا)
نرم افزار های مختلفی در زمینه داده کاوی و یادگیری ماشین تولید شده است .نرم افزاهای مختلف زمانی قابل مقایسه است که تنوع و ورود داده ها با فرمت های مختلف والگوریتم های مختلف پیاده سازی شده وانترفیس کاربری و روش های تحلیل ومقایسه نتایج الگوریتم ها و روش های پیش پردازش داده ها وبستر ه فراهم شده برای اجرای برنامه وقیمت آن در دسترس بودن انجام گرفته باشد.نرم افزار داده کاوی وکا (weka) با رابط کاربری آسان و تعداد زیاد الگوریتم های پیاده سازی شده وقابلیت مقایسه نتایج الگوریتم ها وراهنمای خوب کارایی بیشتری با
weka
در نرم افزار داده کاوی وکا محوعه از الگوریتم های داده کاوی بصورت آماده برای دسترسی بهتر در اختیار کاربران می گذارد.
نرم افزار وکا (weka ) مجموعه از ابزارهای پیش پردازش داده ها ومجوعه از روش های آماری ویادگیری ماشین وروش های ارزیابی انها ونمایش گرافیکی داده های ورودی را فراهم می کند.
نرم افزار وکا دانشگاه ویکاتو در نیوزلند ایجاد و پیشرفت داده شدو اسمه خودرا از جمله
“Waikato Environment for knowledge Analysis ” بر گرفته است .
همچنین وکا اسمه نوعی پرنده است که بی پرواز است و در نیوزلند زیست می کند.برنامه وکا داده کاوی به زبان برنامه نویسی جاوا نوشته شده است بر اساس لایسنس gnu منتشر یافته است .نرم افزار داده کاوی وکا بر روی سیستم عاملهای مختلف اجرا می گردد.
این نرم افزار رابط گرافیکی همسان را برای همه الگوریتم ها فراهم کرده است که از طریق این رابط گرافیکی همه اعمال پیش پردازش و پس پردازش وروش های ارزیابی رو انجام داد.
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
نرم افزار داده کاوی وکا الگوریتم های مختلف لرنینگ ماشین رو بصورت پیش فرض داردو به راحتی می توان به آن مجموعه از داده ها رو تست کرد.
این نرم افزار داده کاوی ابزار های متفاوتی را برای تبدیل داده با یکدیگر همانند گسسته سازی فراهم می آورد .
نرم افزار وکا روش های داده کاوی نظیر کلاسبندی – خوشه بندی-رگرسیون -شبکه های عصبی -درخت تصمیم -بردار پشتیبان وقواعد انجمنی را فرام می آورد .همه الگوریتم ها داده ها را در فرمت arff دریافت می کند .
برنامه داده کاوی دارای چهار واسط کاربری هست:
explorer :متدهای متفاوت پیش پردازش داده وآماده سازی ومبدل های انواع دیتا رو فراهم می کندوهمچنین دسترسی به تمام امکانات وکا را فراهم میکند.از تب های این قسمت بصورت زیر است :
preprocess:در این قسمت میتوان مجموعه از پیش پردازش داده ها مثله تعیین نوع داده ها و تبدیل داده ها و نحوه توزیغ داده هر ویژگی مشاهده کرد .
classify:در این قسمت مجوعه از الگوریتم های یادگیری که کلاسبندی و رگرسیون را انجام می دههند وجود دارد.
cluster :مجوعه از الگوریتم های که برای خوشه بندی استفاده می شود قرار دارد .
associate:الگوریتم های که برای ایجاد قوانین انجمی استفاده می شود قرار دارد.
select attribute: مجموعه از روشهایی که برای انتخاب وتبدیل داده ها وجود دارد استفاده می شود .
Experimenter:این قسمت برای اجرای الگوریتم های مختلف کلاسبندی بصورت موازی استفاده می شود .تمام معیار های مقایسه مورد نظر برای ارزیابی ومقایسه در در این قسمت قرار دارد از جمله می توان آزمون T اشاره کرد و با ساده تر کردن پارامترهای کلاسبندی وتبدیل داده ها می توان کارها بصورت اتوماتیک در این قسمت انجام داد.
Knowledge Flow:دراین قسمت یک انترفیس ساده گرافیکی است که می توان
دیتا رو کنترل کرد.ترتیبی را برای پردازش داده در حال جریان طراحی کرد .
workbench :
در این قسمت نیز ابزار های پیش پردازش داده هاوتبدیل انواع داده به یکدیگر وجود دارد .
weka soft ware
الگوریتم های که بصورت پیش فرض در محیط وکا پیاده سازی شده استالگوریتم های یادگیری ماشین :شبکه عصبی(neural network)-درخت تصمیم(descision tree) -بردار پشتیبان (svm)-
بصورت زیر میتوان الگوریتم های پیاده سازی شده در محیط وکا تقسیم بندی کرد
الگوریتم های تبدیل داده ها که در مراحل پیش پردازش داده ها استفاده می شود:
تبدیل داده های عددی (گسسته سازی)به داده های اسمی یا ترتیبی بصورت
تبدیل داده های عددی (گسسته سازی)به داده های ترتیبی بصورت هوشمند وغیر هوشمند
جایگزینی برای miss value (داده های از دست رفته) با الگوریتم های هوشمند
متدهای مختلف برای مرج داده ها
روشهای مختلف برای ادغام مقادیر مختلف متغیرهای گسسته
یافتن داده های پرت با استفاده از روش های مختلف
کاش تعداد ستون های (بعد) داده ها برای کاهش حجم محاسبات با تبدیل خطی و واولیت موجک)
خوشهبندی که در نرم افزار وکا وجود دارد:
انواع روش های خوشه بندی در نرم افزار داده کاوی وکا وجود دارد
روش خوشه بندی بالا به پایین (سلسله مراتبی-
(Hierarchical Clusterin)
روش های مبتی بر شبه دایره (خوشه بندی kmeans)
روشهای برپایه توزیع احتمالی مانند EM
روشهای بر پایه چگالی: DBSCAN و OPTICS
روش هایی که برای تولید قوانین انجمنی در نرم افزار داده کاوی وکا
(weka)وجود دارد :
روش ترتیبی قوانین انجمنی(Sequential Pattern Discover)
روشهای (FP-Growth Algorithm)
روش اپریوپوری (Apriori)
روش های هایی که در مورد الگوریتم های کلاسبندی وجود دارد
روش بر اساس احتمالا بیز:بیزین ساده (bayes net )و بیزین نوی (naive beyes)
شبکه های عصبی (neural network):شبکه عصبی بردار پشتیبان (som-svm)-شبکه عصبی چند لایه (multi player neural network)
رگرسیون (regression ) :رگرسیون خطی -رگرسیون لاجسیتگ (regresion logistic )-
درخت تصمیم :c.45-id3-randomforest-random tree
روشهای برپایه قانون:تیبل های تصمیم (ایجاد قانونها بر اساس یک ویژگی )
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
weka environs
مزایایه نرم افزار داده کاوی وکا (weka )
ابزارهای آماده زیاد برای آماده سازی داده ها ومتدهای انتخاب ویژگی به صورت متحد
پشتیبانی از الگوریتم های زیاد داده کاوی
پشتیبانی از روش های متفاوت ارزیابی و مقایسه نتایج الگوریتم های کلاسبندی
رابط گرافیکی آسان وقدرتمند در اجرای الگوریتم داده کاوی مورد نظر
عیب های نرم افزار داده کاوی وکا (weka)
زمان زیاد برای اجرای بعضی از الگوریتم ها
منابع محدود در راهنمای نرم افزار
کامل نبودن روش های خوشه بندی (clustering)وقوانین انجمنی (assocate rule)
نوشته شده درdatamining(داده کاوی ), سرویس ها. Tagged as WEKA, انجام پروژه weka, انجام پروژه داده کاوی, انجام پروژه داده کاوی وکا, انجام پروژه های داده کاوی, انجام پروژه وکا, پروژ های وکا, پروژه weka, پروژه آماده weka, پروژه آماده وکا, پروژه داده کاوی با weka, پروژه های وکا, پروژه وکا, داده کاوی, نرم افزار وکا, وکا
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com
azsoftir.com
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
۲٫ (Anthology) تزاروسی که در آن تمام ارتباطات میان لغات مشخص شده باش
پروژه داده کاوی، الگوریتم های داده کاوی،مقاله داده کاوی،داده کاوی در شبکه های اجتماعی،داده کاوی در بانکداری،پایان نامه داده کاوی،کاربردهای داده کاوی،کتاب داده کاوی،داده کاوی در مدیریت ارتباط با مشتری، داده کاوی در متلب، داده کاوی در تجارت الکترونیک، داده کاوی در وب، داده کاوی ،داده کاوی چیست، تز داده کاوی ، بیگ دیتا، داده کاوی ،بیگ دیتا، داده کاوی با سلمنتین،داده کاوی