loading...
انجام پروژه های وکا weka
صادقی بازدید : 45 چهارشنبه 09 بهمن 1398 نظرات (0)

انجام پروژه های داده کاوی و یادگیری ماشین(پروژه داده کاوی)

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


برای صحبت در خصوص هر یک از عناوین زیر و مشاوره رایگان از طریق تلگرام با آی دی @ ارتباط برقرار کنید

انجام پروژه های داده کاوی (Data Mining) با تمام ابزار های داده کاوی از جمله رپیدماینر، وکا و … در زمینه های زیر قابل انجام است

انجام پروژه های داده کاوی data mining با نرم افزار متلب ، R ، کلمنتاین ، وکا weka ، رپیدماینر ، spss

رده بندی (Classification)

الگوریتم های دسته بندیClassification

خوشه بندی (Clustering)

خوشه بندی : k-Means ، kohonen ، Twostep ، Anomaly

پیش بینی (Prediction)

درخت تصمیم :C5.0 ، CHAID ، C&R ،QUEST ، RandomForest ،REPTree ،ID3،NBTree

شبکه عصبی :Neural Net ،perceptron ،AutoMLP

شبکه بیزین : Bayes Net،NaiveBayes

ماشین بردار پشتیبان : SVM ،LibSVM ،Support Vector Machine (Linear)

رگرسیون : Regression ، Logeistic

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


الگوریتم های قواعد انجمنی : Apriori ، Carma ، Sequence ، FP-Growth

انتخاب ویژگی (Feature Selection)

نزدیکترین همسایه: KNN

الگوریتم های خوشه بندی Clustering

نرم افزار weka RapidMiner
انجام پروژه های داده کاوی با نرم افزار weka
آموزش نرم افزار کلمنتاین Clementine

آموزش نرم افزار IBM SPSS Modeler

انجام پروژه های داده کاوی با نرم افزارClementine

انجام پروژه های داده کاوی با نرم افزار IBM SPSS Modeler

فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler
فرآیند داده کاوی در SPSS Modeler
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
انجام پروژه های داده کاوی با نرم افزار RapidMiner

انجام پروژه های داده کاوی با نرم افزار weka

مشاوره در زمینه پروژه های داده کاوی
انجام پروژه های داده کاوی با نرم افزار weka RapidMiner
مشاوره در زمینه پروژه های داده کاوی

در مقاطع کارشناسی و کارشناسی ارشد

با نرم افزار Weka- Clementine

خوشه بندی : k-Means ، kohonen ، Twostep ، Anomaly

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


الگوریتم های قواعد انجمنی : Apriori ، Carma ، Sequence ، FP-Growth

پیش بینی عود مجدد سرطان پستان به کمک داده کاوی

کاربرد داده کاوی در پیدا کردن انواع خرابی در شبکه ایرانسل

ارائه چارچوبی برای شناسایی رابطه بین خصوصیات دستگیرشدگان با نوع مواد مخدرمکشوفه

تحلیل سبد سهام به منظور شناسایی الگوهای رایج در رفتار سهامداران

کاربرد داده کاوی در پیش بینی بیماری سرطان ریه

بررسی عوامل موثر بر بیماری افسردگی و ارائه راهکارهایی جهت کاهش آن

طراحی یک متدولوژی مبتنی بر RFMجهت سنجش وفاداری مشتریان

کاربرد داده کاوی در بیمه – قراردادهای سود اور و زیان آور

۱۳۹۳٫۱۲٫۱۰
آموزش نرم افزار کلمنتاین Clementine 12
آموزش نرم ۱۴٫۲ افزارIBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine 12
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler14.2
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
انجام پروژه های داده کاوی data mining با نرم افزار متلب ، R ، کلمنتاین ، وکا weka ، رپیدماینر ، spss
انجام پروژه های داده کاوی با نرم افزار رپید ماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکاweka
انجام پروژه های داده کاوی با نرم افزارSPSS Modeler14.2
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12

کاربرد داده کاوی در بیماری سرطان ، خوش خیم و بد خیم

کاربرد داده کاوی در پیش بینی وضعیت تحصیلی دانشجویان با تکنیک های داده کاوی

رگرسیون : Regression ، Logeistic

شبکه های عصبی مصنوعی چند لایه پرسپترون

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


شبکه های عصبی مصنوعی با تابع پایه شعاعی

درختان تصمیم گیری طبقه بندی و رگرسیونی

مدل های درختی

ماشین های بردار حامی طبقه بندی و رگرسیونی

سیستم های استنباط فازی

سیستم های استنباط فازی – عصبی

سیستم استنباط بیزین

قواعد انجمنی(Association Rules)

شبکه عصبی مصنوعی یا ANN

درخت تصمیم

عوامل موثر بر بروز بیماری دیابت و ارائه راهکار جهت کاهش آن

کاربرد داده کاوی در اعتیاد به مواد مخدر

کاربرد داده کاوی در مدیریت ارتباط با مشتری- کالاهای مرجوعی

کاربرد داده کاوی در شناسایی باکتری ها

نزدیکترین همسایه KNN

کاربرد داده کاوی بر تصادفات جاده ای و ارائه راهکار های برای کاهش آن

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


هرس درخت تصمیم

الگوریتم های خوشه بندی Clustering

کاربرد داده کاوی در روش های پیشگیری از بارداری

درخت تصمیم با شاخص جینی

آنتروپی

درخت تصمیم C5.0

درخت های تصمیم CHAID ، C&R ،QUEST ، RandomForest ،REPTree ،ID3،NBTree

بگینگ  و بوستینگ

ماشین بردار پشتیبان

کاربرد داده کاوی در تشخیص اختلالات در کبد

ماشین بردار پشتیبان با بهینه ساز ازدحام ذرات

سیستم استنباط بیزین

شبکه عصبی  Neural Net ، perceptron ،AutoMLP

الگوریتم ژنتیک

کاربرد داده کاوی در تشخیص بیماری هپاتیت

کاربرد داده کاوی در بازی شطرنج

داده کاوی (Data Mrining) در زمینه های قواعد انجمنی (Association Rules)

داده کاوی (Data Mrining) در زمینه های وب سرویس

کاربرد داده کاوی در بیماری تیروئید

داده کاوی (Data Mrining) در زمینه های متن کاوی

کاربرد داده کاوی در ثبت نام در مهد کودک

داده کاوی (Data Mrining) در زمینه های اینترنت اشیاء

داده کاوی (Data Mrining) در زمینه های  قواعد همسایگی با fp-growth,apriory

کاربرد داده کاوی در پیش بینی درآمد

داده کاوی در پیش بینی سرطان سینه با استفاده از ماموگرافی

کاربرد داده کاوی در پیش بینی بیماری مزمن کلیه

کاربرد داده کاوی در پزشکی : سوءتغذیه

شبکه بیزین : Bayes Net NaiveBayes

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


مشاوره و انجام پایان نامه و پروژه های کارشناسی ارشد داده کاوی

الگوریتم های دسته بندیClassification

انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12

انجام پروژه های داده کاوی با نرم افزار SPSS Modeler14.2

ازدحام ذرات

الگوریتم های دسته بندیClassification

الگوریتم های فراابتکاری

قواعد همسایگی

آموزش نرم افزار کلمنتاین Clementine 12
آموزش نرم ۱۴٫۲ افزارIBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزارClementine 12
انجام پروژه های داده کاوی با نرم افزار.۲ ۱۴ IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکا weka
فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler14.2
فرآیند داده کاوی در SPSS Modeler14.2
شناسایی و آماده سازی مقدماتی داده ها
فراخوانی داده ها در محیط SPSS Modeler14.2
بررسی مفاهیم Storage و Type و اهمیت آنها
یکپارچه سازی داده ها (Merge and Append)
بررسی شاخص های کیفی داده ها (Data Audit)
مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2
مدل های پیش بینی کننده
طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2
استفاده از درخت های رگرسیونی به منظور پیش بینی
ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
ارزیابی مقدماتی مدلهای پیش بینی کننده
انجام پروژه های داده کاوی رشته مهندسی کامپیوتر
انجام پروژه های داده کاوی هوش مصنوعی
انجام پروژه های داده کاوی رشته مهندسی برق
انجام پروژه های داده کاوی دانشجویی
انجام پروژه های داده کاوی سازمانی
انجام پروژه های داده کاوی data mining با نرم افزار متلب ، R ، کلمنتاین ، وکا weka ، رپیدماینر ، spss
انجام پروژه های داده کاوی با نرم افزار رپید ماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکاweka
انجام پروژه های داده کاوی با نرم افزارSPSS Modeler14.2
انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12

fp-growth

Apriory

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


ماشین بردار پشتیبان  SVM  مانند LibSVM ،Support Vector Machine (Linear)

تحلیل نتایج با رسم نمودار Roc

انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و …

کاربرد داده کاوی در مدیریت ارتباط با مشتری – تحلیل سبد بازار

انواع روش های نمونه برداری و بیش نمونه گیری

کاربرد داده کاوی در مخابرات ، سفارشی سازی در خدمات به مشتریان

تشخیص داده پرت با کانزدیکترین همسایه

تشخیص داده پرت محلی

رده بندی (Classification)

وب کاوی (Web Mining)

انتخاب ویژگی (Feature Selection)

قواعد انجمنی (Association Rules)

کاربرد داده کاوی در پیش بینی شرکتهای ورشکسته از نظر اقتصادی

کاربرد داده کاوی در بازاریابی بانکی

خوشه بندی (Clustering)

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


کاربرد داده کاوی بر روابط بین نمرات آزمون های ورودی با عملکرد شغلی و وضعیت ارتقاء آنان

پیش بینی (Prediction)

کاربرد داده کاوی در تشخیص شناسایی ایمیل های اسپم

متن کاوی(Text mining)

کاربرد داده کاوی در تشخیص قارچ های سمی از غیر سمی

شبکه عصبی :Neural Net ،perceptron ،AutoMLP

شبکه بیزین : Bayes Net،NaiveBayes

ماشین بردار پشتیبان : SVM ،LibSVM ،Support Vector Machine (Linear)

رگرسیون : Regression ، Logeistic

نزدیکترین همسایه: KNN

الگوریتم های خوشه بندی Clustering

خوشه بندی : k-Means ، kohonen ، Twostep ، Anomaly

الگوریتم های قواعد انجمنی : Apriori ، Carma ، Sequence ، FP-Growth

انجام پروژه های داده کاوی با نرم افزار وکا Weka

روش های حل مشکل رده نامتوازن

پیش بینی نرخ بیکاری با استفاده از سری زمانی

کاربرد داده کاوی در شناسایی تذکرات جعلی با استفاده از روش شباهت بین تذکرات

الگوریتم ژنتیک

انجام پروژه های داده کاوی رشته مهندسی کامپیوتر
انجام پروژه های داده کاوی هوش مصنوعی
انجام پروژه های داده کاوی رشته مهندسی برق
انجام پروژه های داده کاوی دانشجویی
انجام پروژه های داده کاوی سازمانی

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


داده کاوی پزشکی : کاربرد داده کاوی در پیش بینی سوختگی

الگوریتم ازدحام ذرات

الگوریتم های فراابتکاری

کاربرد داده کاوی در بیماری قلبی

شبکه عصبی مصنوعی(ANN)

شبکه های عصبی مصنوعی (RBF)

کاربرد داده کاوی در بیماری سرطان ریه

پیش بینی عودمجدد سرطان پستان به کمک داده کاوی

کاربرد داده کاوی در تشخیص بیماری اپاندیس

درخت تصمیم با شاخص جینی و آنتروپی

کاربرد داده کاوی در هدفمند کردن انتخاب رشته دانشگاهی کاربرد داده کاوی در پیش بینی تصادفات جاده ای

شبکه های عصبی PCNN

کاربرد داده کاوی در طبقه بندی حیوانان

بگینگ و بوستینگ

کاربرد داده کاوی در پیدا کردن انواع خرابی در شبکه ایرانسل

ماشین بردار پشتیبان

سیستم استنباط بیزین

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


بررسی الگوریتم های مختلف شبکه های گیرید

داده کاوی (Data Mrining) در زمینه های دسته بندی (Classification)

داده کاوی (Data Mrining) در زمینه های خوشه بندی (Clustering)

نرم‌افزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت”Waikato Environment for knowledge Analysis” استخراج گشته است. همچنین Weka ، نام پرندهای با طبیعت جستجوگر است که پرواز نمیکند و در نیوزلند، یافت میشود.

این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است.Weka تقریباً روی هر پلت فرمی اجرا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی، آزمایش شده است.

داده کاوی (Data Mrining) در زمینه های  پیش بینی

داده کاوی (Data Mrining) در زمینه های Prediction

داده کاوی (Data Mrining) در زمینه های انتخاب ویژگی (Feature Selection)

تحلیل نتایج با رسم نمودار Roc

انواع مختلف روش های انتخاب ویژگی:شاخص ریلیف، ازدحام ذرات،شاخص جینی و …

پیش بینی واستخراج الگوهای مرتبط با مصرف گاز با استفاده از تکنیک های داده کاوی

انواع روش های نمونه برداری و بیش نمونه گیری

کاربرد داده کاوی در شناسایی نوع خودرو

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


موزش نرم افزار کلمنتاین Clementine 12

آموزش  نرم افزار۱۴ IBM SPSS Modeler

انجام پروژه های داده کاوی با نرم افزارClementine 12

انجام پروژه های داده کاوی با نرم افزار ۱۴ IBM SPSS Modeler

فرآیند داده کاوی CRISP-DM

آشنایی با قابلیت های SPSS Modeler14.2

فرآیند داده کاوی در SPSS Modeler14.2

شناسایی و آماده سازی مقدماتی داده ها

فراخوانی داده ها در محیط SPSS Modeler14.2

بررسی مفاهیم Storage و Type و اهمیت آنها

یکپارچه سازی داده ها (Merge and Append)

بررسی شاخص های کیفی داده ها (Data Audit)

مطالعه توصیفی و استنباطی داده ها در SPSS Modeler14.2

مدل های پیش بینی کننده

طبقه بندی با انواع درخت های تصمیم در SPSS Modeler14.2

استفاده از درخت های رگرسیونی به منظور پیش بینی

ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی

ارزیابی مقدماتی مدلهای پیش بینی کننده

روش های حل مشکل رده نامتوازن

تشخیص داده پرت

الگوریتم ژنتیک

کاربرد داده کاوی در بانک ، مشتریان خوش حساب و بد حساب

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


شبکه عصبی

هوش مصنوعی

بهینه سازی

کمک در پروژه های سمینار

الگوریتم چندهدفه

تکاملی

سیمولینک

تشخیص داده پرت محلی

انجام پایان نامه و مقاله داده کاوی

انجام پایان نامه و پروژه دانشجویی
کاربرد داده کاوی در پیش بینی بیماری افسردگی
کاربرد داده کاوی در پیش بینی وضعیت تحصیلی دانش آموزان

انجام پروژه های داده کاوی با نرم افزار.۲ ۱۴ IBM SPSS Modeler
انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer
انجام پروژه های داده کاوی با نرم افزار وکا weka
فرآیند داده کاوی CRISP-DM
آشنایی با قابلیت های SPSS Modeler14.2
فرآیند داده کاوی در SPSS Modeler14.2
کاربرد داده کاوی در تشخیص پروتین ویروس انفولانزا
کاربرد داده کاوی در تشخیص بیماری کبد

انجام پایان نامه داده کاوی

مشاوره آنلاین رایگان

مشاوره رایگان

مشاوره دانشجویی

انجام پروژه پایان نامه های داده کاوی با WEKA

پایان نامه داده کاوی

دانلود پایان نامه داده کاوی در پایگاه داده های بزرگ

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی با متلب

انجام پروژه های داده کاوی رشته مهندسی کامپیوتر

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


انجام پروژه های داده کاوی هوش مصنوعی

انجام پروژه های داده کاوی رشته مهندسی برق

انجام پروژه های داده کاوی دانشجویی

سیستم پشتیبان تصمیم جهت کاهش تصادفات جاده ای

کاربرد داده کاوی در رای گیری در گنگره امریکا

کاربرد داده کاوی در پیش بینی شرایط مختلف پوست

چارچوب برای شناسایی رابطه بین خصوصیات دستگیر شدگان با نوع مواد مخدر

کاربرد داده کاوی در پیش بینی میزان مصرف برق مشترکین

انجام پروژه های داده کاوی سازمانی

انجام پروژه های داده کاوی با نرم افزار وکا Weka

کاربرد داده کاوی در اعتیاد به مواد مخدر
کاربرد داده کاوی در بیماری سرطان ریه
کاربرد داده کاوی در رضایت شهروندان از خدمات ودفاتر الکترونیک
کاربرد داده کاوی در مدیریت ارتباط با مشتری با رویکرد پرتال
کاربرد داده کاوی در پیش بینی مصرف گاز خانگی

درخت تصمیم :C5.0 ، CHAID ، C&R ،QUEST ، RandomForest ،REPTree ،ID3،NBTree

نرم افزار Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.

انجام پروژه های داده کاوی با نرم افزار رپید ماینر RapidMiner

بنابر تحقیقات انجام شده نرم افزار RapidMiner یکی از پرکاربرد ترین نرم افزارهای داده کاوی طی سال های اخیر بوده است.

طراحی متدلوژی RFM جهت سنجش وفاداری مشتریان بانک
تحلیل رفتار مشترکین تلفن ثابت شرکت مخابرات
کاربرد داده کاوی در تشخیص بیماری سرطان سینه
کاربرد داده کاوی در پیش بینی بیماری دیابت
کاربرد داده کاوی در مدیریت بانکداری – مشتریان خوش حساب و بد حساب
بهبود اعتبار سنجی مشتریان بانک با رویکرد رده بندی
کاربرد داده کاوی در پیش بینی بیماری قلبی

پیاده سازی با استفاده از نرم افزار های Clementine, SPSS, WEKA, Rapid Miner, Qnet, MATLAB

مشاوره و آموزش جهت انجام پروژه های دانشجویی (پروژه دانشجویی) برای دانشجویان ایرانی داخل و خارج ازکشور

انجام کلیه پروژه های تحقیقاتی درزمینه مختلف

مشاوره و آموزش جهت شبیه سازی و پیاده سازی پایان نامه و پروپوزال های دانشجویی کارشناسی ارشد ودکتری دانشگاه های داخل وخارج ازکشوررشته کامپیوتروفناوری اطلاعات و…….

مشاوره رایگان وآموزش  انتخاب موضوع پایان نامه

کاربرد داده کاوی در پیش بینی بیماری تیروئید
کاربرد داده کاوی در پیش بینی بیماری مزمن کلیه
کاربرد داده کاوی در پیش بینی مصرف برق خانگی
کاربرد داده کاوی در بازار یابی بانکی
کاربرد داده کاوی در بدافزار تروجان ها با تکنیک های داده کاوی
کاربرد داده کاوی در پیش بینی عملکرد اساتید
کاربرد داده کاوی در خوشه بندی رشته های تحصیلی براساس معدل و ترم گذرانده

انجام پروژه های داده کاوی با نرم افزار رپید ماینر RapidMiner

انجام پروژه های داده کاوی با نرم افزار کلمنتاین Clementine12

انجام پروژه های داده کاوی با نرم افزار SPSS Modeler14.2

تمامی خدمات مربوط به تهیه پیشنهادیه پایان نامه( proposal )

مشاوره و ویراستاری پایان نامه های مرتبط با فناوری اطلاعات و کامپیوتر

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


بینایی ماشین Image Processing & Machine vision

پایان نامه ارشد پردازش تصوبر

پایان نامه ارشد داده کاوی

پایان نامه کارشناسی ارشد بیگ دیتا

پایان نامه ارشد اینرتنت اشیا

داده های بزرگ

شهریور ۲۷, ۱۳۹۵
پیش بینی به کمک بیز(قضیه بیز به زبان ساده)

مقدمه

به طور ساده روش بیز روشی برای دسته بندی پدیده‌ها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده‌است.

قبل از شروع بحث باید بگم کد پیش بینی به کمک روش بیزین با سی شارپ و همچنین قابل کاستومایز شدن در رپیدماینر و کلمنتاین موجود است. در صورت تمایل با آدرس تلگرام ما Research_moghimi@ در تماس باشید یا با ما از طریق Research.moghimi@gmail.com مکاتبه کنید.

براساس ویژگی‌های ذاتی احتمال(به ویژه اشتراک احتمال) نایو بیز (به انگلیسی: Naive Bayes classifier) با دریافت تمرین اولیه نتایج خوبی ارایه خواهد کرد. شیوه یادگیری در روش نایو بیز از نوع یادگیری با ناظر (به انگلیسی: Supervised learning) است.

برای نمونه یک میوه ممکن است پرتغال باشد. اگر نارنجی و کروی با شعاع حدود ده سانتی متر باشد. اگر این احتمالات به درستی به همدیگر وابسته باشند نایو بیز در تخشیص اینکه این میوه پرتغال است یا نه بدرستی عمل خواهد کرد.

برنامه‌های کاربردی بسیاری هستند که پارامترهای نایو بیز را تخمین می‌زنند، بنابر این افراد بدون سروکار داشتن با تئوری بیز می‌توانند از این امکان به منظور حل مسایل مورد نظر بهره ببرند. با وجود مسایل طراحی و پیش فرض‌هایی که در خصوص روش بیز وجود دارد، این روش برایطبقه بندی کردن بیشتر مسایل در جهان واقعی، مناسب است.

این الگوریتم بر پایه‌ی قضیه بیز برای مدل سازی پیش‌گویانه ارائه شده است. قضیه بیز از روشی برای دسته‌بندی پدید‌ه‌ها بر پایه احتمال وقوع یا عدم وقوع یک پدیده استفاده می‌کند و احتمال رخ دادن یک پدیده محاسبه و دسته بندی می‌شود. به مثال زیر توجه کنید:

بخش بازاریابی شرکت قصد دارد به عنوان یک استراتژی تبلیغاتی برای مشتریان بالقوه نامه‌های تبلیغاتی ارسال کند. از طرفی برای کاهش هزینه‌ها قصد دارد فقط به مشتریانی که علاقه‌مند هستند و ممکن است واکنش مثبت نشان دهند نامه‌ها را ارسال کند. در پایگاه داده شرکت اطلاعاتی از افرادی که به نامه‌های قبلی واکنش نشان داده بودند ذخیره شده‌ است.

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


آن‌ها می‌خواهند ببینند که به وسیله اطلاعات آماری مانند سن، موقعیت مکانی و به وسیله مقایسه پتانسیل مشتریان بالقوه با مشتریانی که مشخصات مشترک دارند و اینکه چه اشخاصی در گذشته از شرکت خریداری کرده است می توانند به واکنش‌ها و پاسخ‌های دریافتی خود بی افزاییند.

به طور کلی می خواهند تفاوت مشتریانی که محصول خریداری کرده‌اند و مشتریانی که هیچ محصولی نخریده‌اند را پیدا کنند.

با استفاده از الگوریتم بیز سازمان‌ها برای بازاریابی می‌توانند نتیجه را برای یک مشتری خاص به سرعت پیش بینی کنند، بنابراین مشخص می شود که کدام مشتری علاقه بیشتری به پاسخ دادن نامه دارد.
قدمه

تاریخچه

سیر تحول داده‏کاوی

داده ، اطلاعات و دانش

جایگاه داده‏کاوی در سازمان

داده‏کاوی و دیگر رشته ها

آمار و داده‏کاوی

نام های دیگر داده‏کاوی

تعاریف داده‏کاوی

دو دیدگاه در مورد داده‏کاوی

آماده سازی و پیش پردازش داده‏ها

ساختار یک سیستم داده‏کاوی

معیارهای جذابیت الگو

ارزیابی و به تصویر کشیدن الگوهای کشف شده

انواع داده‏کاوی

وظایف داده‏کاوی

OLTP و OLAP

تعاریف انبار داده

چهار خصوصیت اصلی انبار داده‏ها

موارد تفاوت پایگاه داده و انبار داده

مزایا و معایب پایگاه داده

فنون داده‏کاوی

شبکه های عصبی

درخت تصمیم

قواعد پیوند

نرم افزارهای داده‏کاوی

کاربردهای داده‏کاوی

محدودیت‌های داده‏کاوی

مشکلات داده‏کاوی

نمونه‌های اجرا شده ی داده‌کاوی

داده‏کاوی در ایران

متن‏کاوی

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


کاربردهای متن‏کاوی

فرایند متن‏کاوی

روش های متن‏کاوی

وب‏کاوی

نتیجه‏گیری

مقدمه

دنیای مدرن در واقع دنیایی داده‏گرا است. ما با داده‏های عددی و غیرعددی در بخش های صنعتی ، بازرگانی ، مدیریتی ، مالی و علمی احاطه شده‏ایم. این داده‏ها باید تحلیل و پردازش شوند تا تبدیل به اطلاعاتی شوند که آگاهی بخش ، آموزش دهنده و پاسخگو باشند یا به شکل دیگری به درک و تصمیم‏گیری ما کمک کنند.

در سال‏های اخیر رشد انفجارآمیزی از روش ها برای اکتشاف دانش جدید از داده‏های خام به وقوع پیوسته است. در پاسخ به این امر ، رشته‏ی جدیدی از کاوش داده‏ها موسوم به داده‏کاوی[۱] به طور ویژه گسترش یافته است تا اطلاعات با ارزشی از مجموعه داده‏های عظیم استخراج نمایند.

امروزه فناوری داده‏کاوی به صورت موضوعی داغ برای تصمیم‏گیران در آمده است ، زیرا این فن ، اطلاعات نهفته ی با ارزش تجاری و علمی را از داده‏های حجیم ذخیره شده استخراج می‏کند. با این وجود ، ماهیت داده‏کاوی فناوری جدیدی محسوب نمی‏شود. استخراج اطلاعات و دانش از داده‏های ذخیره شده یک مفهوم کاملا دیرینه در مطالعات علمی و پزشکی می‏باشد. آنچه که جدید است همگرایی و اشتراک چندین رشته و فناوری‏های متناظر آن‏ها است که فرصت منحصر به فردی برای داده‏کاوی به دنیای علم ، تجارت و اقتصاد ایجاد کرده است. اما داده‏کاوی یا کشف دانش و معرفت از پایگاه داده‏ها[۲] با این تعریف یک شاخه‏ی نسبتا جدید علمی است که از انجام تحقیقات در رشته های آمار ، یادگیری ماشین[۳] ، علوم رایانه (به ویژه پایگاه داده‏ها) شکل گرفته است. در حالی که مرزهای این رشته‏ها در داده‏کاوی مبهم است ، ولی می‏توان گفت که مهمترین این رشته ها آمار می‏باشد به طوری که بدون آمار داده‏کاوی مفهومی نخواهد داشت. با وجود اینکه داده‏کاوی یک رشته‏ی نسبتا جدید علمی می‏باشد و کاربردهای متنوع و گسترده ای در رشته هایی مانند بازرگانی ، پزشکی ، مهندسی ، علوم رایانه ، صنعت ، کنترل کیفیت ، ارتباطات و کشاورزی پیدا کرده است. امروزه مرز و محدودیتی برای دانش داده‏کاوی متصور نیست و مرز آن را از اعماق اقیانوس ها تا بیکران فضا می‏دانند. به عبارت دیگر کاربرد دانش داده‏کاوی در تمامی حوزه های برخوردار از داده بوده و تنها محدودیت دانش داده‏کاوی نبود داده است.

تاریخچه

از سال ۱۹۵۰ رایانه ها در تحلیل و ذخیره سازی داده‏ها به کار گرفته شدند. پس از حدود ۲۰ سال حجم داده‏ها دو برابر شد و پس از آن تقریبا هر دو سال یک بار همزمان با پیشرفت فناوری اطلاعات ، حجم داده‏ها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه داده‏ها به چند صد میلیارد رسید. پدیده ی شبکه ی جهانی وب ، استفاده‏ی گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع آوری داده ، انفجاری را در مجموعه های اطلاعاتی سازمان‏ها و موسسات ایجاد کرده است. حجم زیاد اطلاعات ، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرده است.

پیشرفت شگفت‏انگیز فناوری رایانه‏ای و مجهز شدن بشر به این ابزار سبب پیشرفت فوق‏العاده در کسب و ذخیره‏سازی داده‏های عددی و همچنین به وجود آمدن پایگاه داده‏های بزرگ در زمینه‏های مختلف شده است. داده‏های تبادلات تجاری ، کشاورزی ، ترافیک ، اینترنت ، داده‏های نجومی ، جزئیات مکالمات تلفنی ، داده‏های پزشکی و درمانگاهی مثال‏هایی از چنین پایگاه داده‏هایی می‏باشند. در واقع تکنیک‏های تولید و جمع‏آوری پایگاه داده‏ها بسیار سریع‏تر از توانایی ما در درک و استفاده از آن‏ها رشد کرده است. از اواخر دهه‏ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این داده‏های حجیم افتاد و تلاش‏ها برای انجام این کار را شروع کرد که با سیستم‏های سنتی استفاده از پایگاه داده‏ها میسر نبود. شدت رقابت ها در عرصه‏های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت عامل سرعت یا زمان دسترسی به اطلاعات را دو چندان کرد. بنابراین نیاز به طراحی سیستم‏هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه ی کاربران با تاکید بر حداقل مداخله ی انسانی باشند از یک طرف و روی آوردن به روش های تحلیل متناسب با حجم داده‏های زیاد از سوی دیگر احساس شد.

در سال ۱۹۸۹ و ۱۹۹۱ کارگاه های کشف دانش و معرفت از پایگاه داده‏ها توسط پیاتتسکی[۴] و همکارانش برگزار شد. در واقع داده‏کاوی فرایندی است که در آغاز دهه ی ۹۰ پا به عرصه‏ی ظهور گذاشته و با نگرشی نو ، به  مساله‏ی استخراج اطلاعات از پایگاه داده‏ها پرداخت. در واقع پژوهش جدی روی موضوع داده‏کاوی از اوایل دهه ی ۹۰ شروع شد. پژوهش‏ها و مطالعه‏های زیادی در این زمینه صورت گرفته ؛ همچنین سمینارها ، دوره‏های آموزشی و کنفرانس‏هایی نیز برگزار شد و پایه‏های نظری داده‏کاوی در تعدادی از مقاله‏های پژوهشی آورده شد. در فواصل سال‏های ۱۹۹۱ تا ۱۹۹۴ کارگاه‏های کشف دانش و معرفت از پایگاه داده‏ها توسط فیاد[۵] و پیاتتسکی و دیگران برگزار شد. از سال ۱۹۹۵ داده‏کاوی به صورت جدی وارد مباحث آمار شد.

واژه ی «کشف دانش» به طور رسمی اولین بار توسط فیاد در اولین کنفرانس بین‏المللی داده‏کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود ، معرفی شد که به بیان ارتباط تکنیک های آنالیز در چندین مرحله با هدف استخراج دانش‏های ناشناخته‏ی قبلی از داده‏های در دسترس می پرداخت. داده‏هایی که ارتباط منظم و پراهمیت آنها قبلا به نظر نمی‏رسید.

گروهی از محققین سال ۱۹۹۵ با استفاده از داده‏کاوی ، انباره‏های داده‏ی بانک‏های آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم ها برای بانک‏های آمریکا قدرت رقابت بیشتری ایجاد می‏کنند. در این سال انجمن داده‏کاوی همزمان با اولین کنفرانس بین‏المللی «کشف دانش و داده‏کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. در سال ۱۹۹۶ اولین شماره ی مجله ی «کشف دانش از پایگاه داده‏ها» منتشر شد. در همان سال دیدگاهی از داده‏کاوی به عنوان «پرس و جو کننده از پایگاه‏های استنتاجی» پیشنهاد شد و فیاد و پیاتتسکی پیشرفت‏های کشف دانش و داده‏کاوی را اعلام کردند. همچنین دیدگاه اقتصادسنجی روی داده‏کاوی و عملکرد داده‏کاوی به عنوان یک مساله‏ی بهینه ، ارائه و کنفرانس‏های ناحیه ای و بین‏المللی در مورد داده‏کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره ی کشف دانش و داده‏کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و داده‏کاوی و نیز استفاده از وب در کاوش داده‏ها و کاربردهای آن ارائه شد و در نهایت در سال ۲۰۰۲ «داده‏کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد. در حال حاضر ، داده‏کاوی مهمترین فناوری جهت بهره برداری موثر از داده‏های حجیم است و اهمیت آن رو به افزایش است.

 

سیر تحول داده‏کاوی

از ۱۹۶۰

ایجاد سیستم های جمع آوری و مدیریت داده‏ها توسط CDC و IBM

ذخیره ی داده‏ها روی دیسک ها و کامپیوترها

بازیابی ایستا (محاسبه کل سود یک فروشگاه در ۵ سال گذشته)

۱۹۸۰

ایجاد زبان پرس و جو برای تهیه ی گزارشات از پایگاه داده[۶]

شاخص‏گذاری و سازماندهی داده‏ها با  DBMS های DB2 و Sybase و Oracle

بازیابی پویا در سطح رکورد (میزان فروش یک کالا در یک شعبه به صورت روزانه)

۱۹۹۰

ایجاد پایگاه داده‏های چند بعدی Data Warehouse و OLAP

بازیابی پویا در چند سطح (با امکان Drill Down )

در حال حاضر

ابزارهای پیشرفته مانند SAS و SGI و SPSS Clementine

کشف الگوهای جدید در پایگاه داده‏ها

بازیابی پویا با نگاه پیشرو به آینده (فروش یک کالا در ماه آینده در یک شعبه خاص و دلایل آن)

داده ، اطلاعات و دانش[۷]

داده‏ها نمایشی از واقعیت ها ، معلومات ، مفاهیم ، رویدادها یا پدیده ها برای برقراری ارتباط ، تفسیر یا پردازش ، توسط انسان یا ماشین می باشند. از طرف دیگر واژه ی اطلاعات به دانشی که از طریق خواندن ، مشاهده و آموزش به دست می آید اطلاق می‏شود و در حقیقت می توان گفت اطلاعات داده‏هایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی آن را دانش می نامند. بین داده‏ها و اطلاعات یک شکاف وجود دارد که اندازه ی این شکاف با حجم داده‏ها ارتباط مستقیم دارد. هرچه داده‏ها حجیم تر باشند ، این شکاف بیشتر خواهد بود و هرچه حجم داده‏ها کمتر و روش ها و ابزارهای پردازش داده‏ها کاراتر باشد ، فاصله ی بین داده‏ها و اطلاعات کمتر است. امروزه افزایش سریع حجم پایگاه داده‏ها به شکلی است که توانایی انسان برای درک این داده‏ها بدون ابزارهای پرقدرت میسر نمی‏باشد. در این وضعیت ، تصمیم‏گیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند ، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند.

جایگاه داده‏کاوی در سازمان

داده‏کاوی و دیگر رشته ها

داده‏کاوی یک رشته ی نسبتا جدید علمی می‏باشد که از انجام تحقیقات حداقل در رشته های آمار ، یادگیری ماشین ، علوم رایانه (خصوصا مدیریت پایگاه داده) شکل گرفته است. مهمترین این رشته ها ، آمار کلاسیک[۸] می‏باشد. بدون آمار داده‏کاوی وجود نخواهد داشت ، به طوری که آمار ، اساس اغلب تکنولوژی هایی می‏باشد که داده‏کاوی بر روی آن‏ها بنا می‏شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون ، توزیع استاندارد ، انحراف استاندارد ، واریانس ، تحلیل خوشه ای و فاصله های اطمینان را که همه ی این موارد برای مطالعه ی داده و ارتباط بین داده‏ها می‏باشد را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیک های داده‏کاوی ایفا می‏کند. دومین رشته ی مرتبط با داده‏کاوی ، یادگیری ماشین می‏باشد ، که به مفهوم دقیق تر اجتماع آمار و هوش مصنوعی[۹] است. در حالی که هوش مصنوعی نتوانست موفقیت تجاری کسب کند ، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شده است چون ترکیبی از روش های ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می‏باشد. یادگیری ماشین اجازه می دهد تا برنامه‏های رایانه‏ای در مورد داده‏ای که آن‏ها را مطالعه می‏کنند ، مانند برنامه‏هایی که تصمیمات متفاوتی بر مبنای کیفیت داده‏ی مطالعه شده می‏گیرند ، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده کنند و از الگوریتم ها و روش‏های ابتکاری هوش مصنوعی برای رسیدن به هدف بهره گیرند.

آمار و داده‏کاوی

در داده‏کاوی تلاش می‏شود بین آمار و علوم رایانه ای[۱۰] رابطه ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح ، دشوار بودن تبدیل مفاهیم نظری به الگوریتم های رایانه ای در مباحث آماری و به دلیل وجود الگوریتم های فراوان در متون رایانه ای ، دشوار است. لذا داشتن درکی درست از مدل سازی و الگوریتم های محاسباتی برای کارهای داده‏کاوی ضروری است.

اگرچه آمار و داده‏کاوی هر دو با روش های تحلیل و مدل بندی داده‏ها مرتبط می باشند و اشتراکات زیادی بین این دو رشته وجود دارد اما می توان تفاوت های آمار و داده‏کاوی را در جدول زیر نشان داد :
   

آمار
   

داده‏کاوی

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


حجم داده ها
   

کوچک و متوسط
   

بزرگ

نوع داده ها
   

داده های دست اول
   

داده های دست دوم[۱۱]

مطالعه های کنترل موردی
   

داده های تبادلات تجاری

طرح آزمایش ها
   

داده های ترافیک اینترنت

بررسی نظرخواهی
   

داده های مکالمات تلفن

مطالعه های مشاهده ای
   

داده های پزشکی

پردازش داده ها
   

روش های دستی
   

روش های کاملا خودکار

پردازش داده ها توسط انسان به کمک رایانه
   

پردازش داده ها توسط الگوریتم های رایانه ای به کمک انسان

وظایف معمول
   

برازش مدل
   

جستجو و شناخت الگوها

آزمون مدل
   

رده بندی

فواصل اطمینان و پیش بینی
   

دسته‏بندی

اهداف تحقیق
   

توسعه ی روش های آماری بهتر
   

توسعه ی الگوریتم های بهتر و سریع تر

مطالعه ی خواص آماری و ریاضی روش ها
   

مطالعه عملکردهای تجربی الگوریتم های داده‏کاوی

نام های دیگر داده‏کاوی

علاوه بر داده‏کاوی اصطلاحات دیگری از جمله «استخراج دانش[۱۲]» ، «اکتشاف اطلاعات[۱۳]» ، «تحصیل اطلاعات[۱۴]» ، «دیرینه‏شناسی یا تبارشناسی داده‏ها[۱۵]» معادل داده‏کاوی به کار برده می شوند. به علاوه گریگوری پیاتتسکی شاپیرو برای اولین بار در ۱۹۹۱ اصطلاح «کشف دانش از پایگاه داده‏ها» را به منظور تصریح بر این امر که دانش محصول نهایی این فرایند است ، به کار برد.

تعاریف داده‏کاوی

Data mining is the exploration and analysis of large quantities of data in order to discover valid , novel , potentially useful , and ultimately understandable patterns in data

Valid : The patterns hold in general.

Novel : We did not know the pattern beforehand.

Useful : We can devise actions from the patterns.

Understandable : We can interpret and comprehend the patterns

* داده‏کاوی تحلیل و کشف مقادیر بزرگی از داده است به منظور کشف الگوهای معتبر ، جدید ، به طور بالقوه مفید و نهایتا قابل فهم از داده‏ها می‏باشد. (Fayyad)

Data mining , or knowledge discovery in databases , refers to the “discovery of interesting , implicit , and previously unknown knowledge from large databases.”

* داده‏کاوی یا کشف دانش از پایگاه داده‏ها اشاره به کشف دانش جدید [از قبل آن را نمی دانیم] ، مطلق و جالب توجه از پایگاه داده‏های بزرگ دارد. (Frawley)

* داده‏کاوی یعنی فرایند کشف یا استنتاج الگوهای بالقوه سودمند ، اطلاعات معتبر و بدیع ، دانش پنهان و قابل فهم موجود در داده‏ها و یا پایگاه داده‏ها (Judson)

* داده‏کاوی به فرایند استخراج اطلاعات نهفته ، قابل فهم ، قابل پیگیری از پایگاه داده‏های بزرگ و استفاده از آن در تصمیم‏گیری های تجاری مهم ، اطلاق می‏شود. (Zekulin)

* داده‏کاوی مجموعه ای از روش ها در فرایند کشف دانش می‏باشد که برای تشخیص الگوها و روابط نامعلوم در داده‏ها مورد استفاده قرار می گیرد. (Ferruzza)

* فرایند کشف الگوهای مفید از داده‏ها را داده‏کاوی می گویند. (Elder)

* فرایند انتخاب ، کاوش و مدل بندی داده‏های حجیم ، جهت کشف روابط نهفته با هدف به دست آوردن نتایج واضح و مفید ، برای مالک پایگاه داده‏ها را داده‏کاوی گویند.

* داده‏کاوی یعنی جستجو در یک پایگاه داده‏ها برای یافتن الگوهایی میان  داده‏ها.

* داده‏کاوی فرایند تحلیل داده از چشم اندازها یا زوایای گوناگون و تلخیص و تبدیل آن به دانش یا اطلاعاتی سودمند است.

دو دیدگاه در مورد داده‏کاوی

با توجه به این تعاریف دو تعبیر مختلف از داده‏کاوی وجود دارد. برخی مولفین مانند چتفیلد (۱۹۹۵) ، داده‏کاوی را مترادف عبارت کشف دانش و معرفت از پایگاه داده‏ها می دانند. بقیه از جمله فیاد (۱۹۹۶) به داده‏کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر کشف دانش و معرفت از پایگاه داده‏ها که به اختصار KDD می‏گویند ، اشاره دارند.

در دیدگاه اول داده‏کاوی به عنوان مجموعه ای از فرایندها که از تعریف اهداف تا ارزیابی نتایج را در بر می‏گیرد ، معرفی می‏شود. مراحل مختلف داده‏کاوی در این دیدگاه عبارتند از :

الف) تعریف اهداف تحلیل

ب) انتخاب و سازماندهی داده‏ها

پ) تحلیل کاوشگرانه ی داده‏ها

ت) مشخص کردن روش های آماری مورد استفاده در مرحله ی تحلیل

ج) تحلیل داده‏ها بر اساس روش انتخابی

چ) ارزیابی و مقایسه روش های مورد استفاده و انتخاب مدل نهایی برای تحلیل

ح) تفسیر مدل حاصل و استفاده از آن در فرایند تصمیم‏گیری

اما در دیدگاه دوم ، KDD شامل مراحل زیر است :

۱) پاکسازی داده‏ها[۱۶] : حذف داده‏های ناپایدار و مزاحم

۲) یکپارچه سازی داده‏ها[۱۷] : ترکیب منابع متعدد ، پراکنده و احیانا ناهمگن داده‏ها

۳) انتخاب داده‏ها[۱۸] : بازیابی داده‏های مربوط به عمل کاوش از پایگاه داده‏ها

۴) تبدیل داده‏ها[۱۹] : تبدیل داده‏ها به اشکالی مناسب برای به کار بردن روش های مختلف

۵) داده‏کاوی : مرحله ای ضروری از فرایند KDD است که در آن از روش های مختلف آماری و یادگیری ماشین برای استخراج الگوها استفاده می‏شود ، که شامل مراحل زیر است :

الف) انتخاب عملیات داده‏کاوی (رده بندی ، خوشه‏بندی ، پیش بینی ، تعیین وابستگی و …)

ب) انتخاب روش داده‏کاوی (شبکه های عصبی ، درخت تصمیم‏گیری ، الگوریتم ژنتیک و …)

ج) داده‏کاوی و جستجو برای یافتن الگوی مناسب

۶) ارزیابی الگوها[۲۰] : شناسایی الگوهای جذاب ارائه دانش ، بر اساس معیارهای جذابیت.

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


۷) ارائه دانش[۲۱] : ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات

آماده سازی و پیش پردازش داده‏ها

آماده سازی داده‏ها گاهی در متون داده‏کاوی به عنوان موضوع کم اهمیت و به عنوان یک گام در فرایند داده‏کاوی ندیده گرفته می‏شود. در کاربردهای داده‏کاوی در دنیای واقعی ، وضعیت برعکس می‏شود. برای آماده سازی داده‏ها تلاشی بیشتر از کاربست روش های داده‏کاوی صرف می‏شود. دو وظیفه ی اصلی برای آماده سازی داده‏ها وجود دارد :

۱) سازماندهی داده‏ها به شکل استاندارد به طوری که برای پردازش با داده‏کاوی و دیگر ابزارهای مبتنی بر رایانه آماده باشد.

۲) مجموعه های داده‏ها طوری آماده شوند که به بهترین عملکرد روش های داده‏کاوی منتهی شوند.

داده‏کاوی به نوعی تحلیل داده‏های دست دوم است ، با این مفهوم که داده کاوها مستقیما در فرایند جمع‏آوری داده‏ها دخالت نداشته‏اند. گاهی این واقعیت می تواند کیفیت بد داده‏های خام را توجیه کند. کیفیت داده‏ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر است. پایگاه داده‏های حجیم شامل داده‏های مزاحم ، گمشده و ناپایدار هستند. از این رو برای ارتقای کیفیت داده‏ها لازم است در ابتدای کار به صورت زیر پردازش شوند :

۱) پاکسازی داده‏ها : برای انجام یک داده‏کاوی مطلوب لازم است مقادیر گمشده جایگزین شوند. داده‏های مزاحم شناسایی و به نحوی مناسب با آن‏ها برخورد و ناپایداری ها اصلاح شوند.

الف) مقادیر گمشده : داده‏هایی هستند که به هر دلیلی در هنگام تحلیل داده‏ها در اختیار تحلیل‏گر قرار ندارند. وجود چنین داده‏هایی می تواند تحلیل داده‏ها را بسیار دشوار سازد. در صورت وجود مقادیر گمشده در داده‏ها باید به گونه‏ای مناسب در مورد آن‏ها تصمیم‏گیری شود. به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت ، میانگین مقادیر خصیصه‏ی مورد نظر ، میانگین نمونه‏های مشابه یا محتمل‏ترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روش‏های مدل سازی انجام شود.

ب) داده‏های مزاحم : انحرافی تصادفی یا غیر تصادفی در یک متغیر اندازه‏گیری شده هستند که به عنوان مثال می‏توانند نتیجه‏ی خطای اندازه‏گیری یا یک اثر پنهان باشند. باید علت وجود یک داده‏ی مزاحم به خوبی بررسی و در مورد آن تصمیم‏گیری شود. خوشه‏بندی و برازش یک تابع رگرسیونی به داده‏ها از جمله راه های هموارسازی داده‏ها هستند. البته بسیاری از روش‏های هموارسازی داده‏ها ، روش‏هایی برای تخلیص داده‏ها محسوب می‏شوند.

ج) داده‏های ناپایدار : این گونه داده‏ها شامل تغییراتی بی‏قاعده هستند که تحلیل آن‏ها را دچار مشکل می‏سازد. برخی از انواع آن‏ها را می‏توان با تبدیل مناسب اصلاح کرد یا برای تحلیل آن‏ها روش‏های خاصی را به کار برد.

۲) یکپارچه‏سازی داده‏ها : از آن جا که داده‏ها از منابع مختلف جمع آوری می شوند ، ممکن است دارای ناسازگاری‏هایی مانند تفاوت در مقیاس باشند یا خصیصه های مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آن‏ها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده‏ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصایص مشابه یا تکراری در تحلیل داده‏ها پرهیز شود. برخی از خصایص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دو این خصیصه ها لزومی ندارد.

۳) تبدیل داده‏ها : گاهی برای خلاصه سازی یا به کارگیری روش های تحلیل داده‏ها لازم است به یکی از روش های زیر داده‏ها به شکلی مناسب تبدیل شوند.

الف) هموارسازی : برای حذف افت‏وخیز شدید داده‏ها از تکنیک‏های هموارسازی مانند خوشه‏بندی و رگرسیون استفاده می‏شود.

ب) انبوهش : نوعی خلاصه‏سازی است که با عملیات جبری روی برخی مقادیر و به دست آوردن مقادیر کلی‏تر اجرا می‏شود. به عنوان مثال مقادیر فروش روزانه می‏توانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.

ج) تعمیم داده‏ها : با استفاده از سلسله مراتب مفاهیم داده‏های ابتدایی یا سطح پایین مانند سن به وسیله ی مفاهیم سطح بالاتر مانند جوان ، میان سال و کهن سال جایگزین می شوند.

د) نرمال سازی داده‏ها : داده‏ها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده ی مشخص و کوچک قرار گیرند

۴) تخلیص داده‏ها : برای کاهش داده‏ها از تکنیک هایی مانند کاهش بعد ، فشرده سازی و مجزا سازی داده‏ها استفاده می‏شود. موضوع اصلی برای ساده کردن داده‏ها ، کاهش بعد است و سوال عمده این است که آیا برخی از این داده‏های آماده و پیش پردازش شده را می توان بدون فدا کردن کیفیت نتایج کنار گذاشت یا خیر.

ساختار یک سیستم داده‏کاوی

پس از پیش پردازش داده‏ها ، نتایج در پایگاه داده یا انبار داده ی جدیدی ذخیره می شوند. شکل زیر ساختار یک سیستم داده‏کاوی معمول را نشان می‏دهد که ورودی آن مخازن بزرگ داده‏ها و خروجی آن اطلاعات مورد نیاز کاربر است و پایان کار کشف دانش و معرفت از پایگاه داده‏ها تلقی می‏شود.

در حالت کلی یک سیستم داده‏کاوی می تواند شامل مولفه های زیر باشد :

الف) پایگاه داده و انبار داده[۲۲] : برای ذخیره سازی داده‏های حجیم به کار می روند.

ب) سرور[۲۳] : مسئول بازخوانی داده‏های مربوط به کار کاوش بر اساس اهداف داده‏کاوی است.

ج) پایگاه دانش[۲۴] : محدوده‏ای از دانش است که جهت هدایت فرایند کاوش یا ارزیابی جذابیت الگوهای حاصل به کار می‏رود. این اطلاعات می‏تواند شامل دانستنی‏هایی مانند عقاید کاربر یا مفاهیم طبقه‏بندی شده جهت سازماندهی خصیصه‏ها ، آستانه های تعیین جذابیت و … باشد.

د) موتور داده‏کاوی[۲۵] : به صورت گسترده از روش های  آماری و یادگیری ماشین برای توصیف ، پیوند دادن ، رده بندی ، تحلیل خوشه ای ، پیش بینی و … استفاده می‏کند و هسته ی اصلی سیستم داده‏کاوی را تشکیل می دهد.

هـ) واحد ارزیابی الگوها : با استفاده از معیارهای جذابیت الگو و آستانه های جذابیت و همچنین ارتباط متقابل با واحدهای دیگر داده‏کاوی ، کاوش را به سمت تمرکز بر استخراج الگوهای جذاب هدایت می‏کند.

و) رابط گرافیکی کاربر[۲۶] : بین کاربران و سیستم داده‏کاوی ارتباط برقرار می‏کند.

معیارهای جذابیت الگو

گرچه مشخص ساختن داده‏های کاری[۲۷] و نوع دانشی که باید استخراج شود ، می تواند تعداد الگوهای تولید شده را کاهش دهد اما یک فرایند داده‏کاوی ممکن است تعداد بسیار زیادی از الگوها را تولید کند که تنها تعداد کمی از آن‏ها مد نظر هستند. بنابراین کاربر نیاز به معیارهایی برای تشخیص الگوهای جذاب دارد.

به طور کلی هر معیار با یک آستانه در ارتباط است که به وسیله‏ی کاربر مشخص می‏شود و آن دسته از الگوهایی که این آستانه را کسب نکنند ، جذاب تشخیص داده نمی‏شوند و به عنوان الگو به کاربر ارائه نمی‏شوند. برخی معیارهای مورد نظر برای جذابیت الگو عبارتند از :

۱) سادگی[۲۸] : یکی از عوامل موثر بر جذابیت یک الگو ، سادگی کلی آن الگو است که با توجه به معیارهای عینی ، اندازه ی الگو ، تعداد خصیصه ها و یا عملگر ظاهر شده در الگو کنترل می‏شود.

۲) قطعیت[۲۹] : هر الگوی استخراج شده باید یک معیار حتمیت وابسته به آن داشته باشد که درجه ی اعتبار الگو و صحت آن را نشان می دهد.

۳) مطلوبیت[۳۰] : یکی دیگر از معیارهایی که می تواند جذابیت یک الگو را تعیین کند ، میزان سودمندی آن الگوست که توسط یک تابع سودمندی تقریب زده می‏شود.

ارزیابی و به تصویر کشیدن الگوهای کشف شده

برای آن که داده‏کاوی موثر باشد ، سیستم داده‏کاوی باید قادر به ارائه و نمایش الگوهای کشف شده در اشکال مختلف مانند قواعد ، جداول ، نمودارهای مختلف ، درخت های تصمیم و سایر نمایش های تصویری باشد. امکان به تصویر کشیدن الگوهای کشف شده می تواند به کاربران با پس زمینه های مختلف برای شناسایی الگوهای مورد علاقه و هدایت سیستم به اکتشاف بیشتر کمک کند. استفاده از سلسله مراتب مفاهیم نیز بسیار مفید است و امکان نمایش داده‏ها به صورت مفاهیم سطح بالاتر ممکن است برای کاربران بیش از قواعد ارائه شده به صورت مفاهیم سطح پایین قابل درک باشد.

انواع داده‏کاوی

داده‏کاوی در دو نوع هدایت شده و غیرهدایت[۳۱] شده ظاهر می‏شود. داده‏کاوی هدایت شده ، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص می گردد ؛ در حالی که هدف داده‏کاوی غیر هدایت شده ، یافتن الگوها یا تشابهات بین گروه هایی از اطلاعات ، بدون داشتن متغیر هدفی خاص و یا مجموعه ای از دسته ها و الگوهای از پیش تعیین شده می‏باشد.

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


وظایف داده‏کاوی

داده‏کاوی با همه ی عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که می توان بسیاری از مسائل محیط اطراف را در قالب یکی از این شش عمل و وظیفه ی زیر گنجاند :

۱) دسته‏بندی ۲) تخمین ۳) پیش بینی ۴) گروه بندی شباهت ۵) خوشه‏بندی ۶) توصیف و نمایه سازی

سه مورد اول همگی داده‏کاوی هدایت شده هستند که هدف آن‏ها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشه‏بندی جزو داده‏کاوی غیر هدایت شده هستند که در آن هدف ، یافتن ساختار پنهان درون داده‏ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی عملی توصیفی است که می تواند هم هدایت شده و هم غیر هدایت شده باشد.

۱) دسته‏بندی[۳۲] : به نظر می رسد دسته‏بندی که یکی از معمول ترین کارکردهای داده‏کاوی است ، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دسته‏بندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه درباره ی دنیا ، به طور مداوم دسته‏بندی ، طبقه بندی[۳۳] و درجه بندی[۳۴] می‏کنیم. ما موجودات زنده را به شاخه ها و گونه ها ، مواد را به عناصر و حیوانات و انسان‏ها را به نژادها تقسیم می‏کنیم.

دسته‏بندی شامل بررسی ویژگی های یک شئ جدید و تخصیص آن به یکی از مجموعه‏های از قبل تعیین شده می‏باشد. عمل دسته‏بندی با تعریف درستی از دسته ها و مجموعه ای از ویژگی‏ها که حاوی موارد از پیش دسته‏بندی شده هستند مشخص می‏گردد ؛ این عمل شامل ساختن مدلی است که بتوان از آن برای دسته‏بندی کردن داده‏های دسته‏بندی نشده ، استفاده نمود. اشیائی که باید دسته‏بندی شوند ، معمولاً به وسیله ی اطلاعاتی در جدول پایگاه داده‏ها یا یک فایل ارائه می شوند. عمل دسته‏بندی شامل افزودن ستون جدیدی با کد دسته‏بندی خاصی است. مثال هایی از دسته‏بندی در زیر ارائه شده است :

* دسته‏بندی متقاضیان وام و اعتبار به عنوان کم خطر ، متوسط و پرخطر

* انتخاب محتویات یک صفحه ی وب برای قرار دادن در شبکه ی اینترنت

* تعیین شماره تلفن های متصل به دستگاه های نمابر

* تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه

در همه‏ی این مثال‏ها تعداد محدود و از پیش تعیین شده‏ای از دسته‏ها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آن‏ها تخصیص دهیم. تکنیک‏های درخت تصمیم و نزدیک‏ترین همسایه[۳۵] از جمله تکنیک‏های دسته‏بندی می‎باشند. شبکه‏های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته‏بندی را انجام می دهند.

۲) تخمین[۳۶] : تخمین ، با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند ، سروکار دارد. در تخمین ، داده‏های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده می‏شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می‏باشد. در عمل ، تخمین اغلب برای انجام دسته‏بندی استفاده می‏شود. یک شرکت کارت های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت های صورت حساب به یک تولید کننده ی پوتین اسکی بفروشد ، باید مدل دسته‏بندی تهیه کند که همه ی دارندگان کارت ها را در یکی از دو دسته ی اسکی باز یا غیر اسکی باز قرار دهد. روش دیگر ایجاد مدل تخمین این است که به هر دارنده‏ی کارت ، یک امتیاز تمایل به اسکی تخصیص می دهد ؛ این ارقام می‏تواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن یا نبودن دارنده‏ی کارت است. عمل دسته‏بندی ، اکنون به ایجاد امتیازی آستانه‏ای[۳۷] منجر می‏گردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی باز قلمداد می‏شود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمی گردد. روش تخمین فواید زیادی دارد که مهم ترین آن‏ها این است که می توان اطلاعات را مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که شرکت تولید پوتین های اسکی ، برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته‏بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده‏اند. پس به راحتی می توان به صورت تصادفی ، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود ؛ در حالی که اگر مدل تخمین ، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتمل‏ترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری از ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات می‏باشد. برخی دیگر از مثال های تخمین در ادامه آمده است ؛ تخمین تعداد فرزندان در یک خانواده ، تخمین درآمد کل یک خانواده ، تخمین دوره عمر یک مشتری ، تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمه ی عمر

مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده‏کاوی برای تخمین می باشند.

۳) پیش بینی[۳۸] : پیش بینی مانند دسته‏بندی یا تخمین است با این تفاوت که اطلاعات ، مطابق برخی از رفتارهای پیش بینی شده‏ی آینده یا ارقام تخمین زده ی آینده دسته‏بندی می شوند. در عملِ پیش بینی ، تنها روش برای بررسی صحت دسته‏بندی ، انتظار و دیدن آینده است.

هر یک از تکنیک های استفاده شده در دسته‏بندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد. جایی که متغیری که باید پیش بینی شود از قبل معلوم است و داده‏های پیشین برای آن وجود دارد ؛ از داده‏های پیشین برای تهیه ی یک مدل که بیانگر رفتار مشاهده شده ی کنونی است استفاده می‏شود ؛ وقتی این مدل برای ورودی های کنونی به کار رفت ؛ نتیجه ی کار ، پیش بینی رفتار آینده خواهد بود. مثال هایی از پیش بینی از این قرارند :

* پیش بینی اینکه کدام مشتریان در طول ۶ ماه آینده ، بازار محصول ما را ترک خواهند کرد.

* پیش بینی اینکه کدام مشترکین تلفن ، متقاضی خدمات ویژه مانند مکالمه ی سه جانبه یا پیغام گیر خواهند شد.

بیشتر تکینک های داده‏کاوی در صورت وجود داده‏های مناسب ، برای استفاده در پیش بینی مناسبند. انتخاب تکنیک به ماهیت داده‏های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.

 ۴) گروه بندی شباهت یا قوانین وابستگی[۳۹] : عمل گروه‏بندی شباهت برای تعیین ویژگی‏های همزمانی هستند که در وقوع یک پدیده رخ می‏دهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‏ها را تعیین می‏نماید. به بیان ساده تر عمل گروه بندی شباهت تعیین می‏کند که چه چیزهایی با هم جورند ؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می گیرند ؛ چیزی که آن را تحلیل سبد بازار[۴۰] می‏نامیم. فروشگاه های زنجیره ای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه ، در یک کاتالوگ و یا صفحه ی وب فروش اینترنتی استفاده کنند ، تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروش های متقابل و همزمان و همچنین برای طراحی بسته بندی های جذاب و یا دسته‏بندی محصولات و خدمات استفاده کرد.

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


گروه بندی شباهت یک روش ساده برای ایجاد قوانین از داده‏هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند ، می توان دو قانون وابستگی ایجاد کرد :

افرادی که شیر خشک نوزاد می خرند ، با احتمال P1 پوشک نوزاد را هم می خرند.

افرادی که پوشک نوزاد می خرند ، با احتمال P2 شیر خشک نوزاد را هم می خرند.

۵) خوشه‏بندی[۴۱] : خوشه‏بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها یا خوشه های همگن گفته می‏شود. وجه تمایز خوشه‏بندی از دسته‏بندی این است که خوشه‏بندی به دسته های از پیش تعیین شده تکیه ندارد. در دسته‏بندی بر اساس یک مدل هر کدام از داده‏ها به دسته ای از پیش تعیین شده اختصاص می یابد ؛ این دسته ها یا از ابتدا در طبیعت وجود داشته اند (مثل جنسیت ، رنگ پوست و مثال هایی از این قبیل) یا از طریق یافته های پژوهش های پیشین تعیین گردیده اند. اما در خوشه‏بندی هیچ دسته ی از پیش تعیین شده ای وجود ندارد و داده‏ها صرفا براساس تشابه گروه بندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین می گردد. به طور مثال خوشه های علائم بیماری ها ممکن است بیماری های مختلفی را نشان دهند و خوشه‏های ویژگی های مشتریان ممکن است حاکی از بخش های مختلف بازار باشد.

خوشه‏بندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیل های داده‏کاوی یا مدل سازی به کار می رود. به عنوان مثال ، خوشه‏بندی ممکن است اولین گام در تلاش برای تقسیم بندی بازار باشد ؛ برای ایجاد یک قانون که در همه ی موارد کاربرد داشته باشد و به این سؤال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می دهند ، اول باید مشتریان را به خوشه هایی متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می‏کند.

۶) نمایه سازی[۴۲] : گاهی اوقات هدف داده‏کاوی ، تنها توصیف آن چیزی است که در یک پایگاه داده‏ای پیچیده درجریان است. نتایج نمایه‏سازی درک ما را از مردم ، محصولات یا فرایندهایی که داده‏ها را در مرحله‏ی اول تولید کرده‏اند افزایش می‏دهد. توصیف خوب رفتار ، اغلب توضیح خوبی هم به همراه دارد ؛ یک توصیف خوب حداقل نشان می دهد چه زمانی می توان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا ، مثالی از این دست است که چگونه این توصیف ساده که «تعداد زنان حامی حزب دموکرات بیش از مردان است» می‏تواند توجه بیشتر و مطالعات تکمیلی را برای روزنامه‏نگاران ، جامعه‏شناسان ، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند. درخت های تصمیم ابزار مفیدی برای نمایه سازی می‏باشد ؛ قوانین وابستگی و خوشه‏بندی را نیز می توان برای نمایه سازی ها استفاده نمود.

OLTP و OLAP

وظیفه اصلی سیستم های پایگاه داده کاربردی آنلاین ، پشتیبانی از تراکنش های متصل و پردازش پرس و جو است. این سیستم ها سیستم پردازش تراکنش آنلاین[۴۳] (OLTP) نامیده می شوند و بیشتر عملیات روزمره ی یک سازمان را پوشش می دهند. از سوی دیگر انبار داده به کاربران و کارکنان دانشی خدماتی در نقش تحلیل‏گر داده و تصمیم گیرنده ارائه می‏کند. چنین سیستم هایی می‏توانند داده‏ها را در قالب های مختلف برای هماهنگ کردن نیازهای مختلف کاربران مختلف ، سازماندهی و ارائه دهند. این سیستم ها با نام سیستم های پردازش تحلیلی آنلاین (OLAP) شناخته می‏شوند.

 

OLAP چیست؟

سیستم های OLAP نام خود را از عبارت (Online Analytical Process) با معنی تحت اللفظی «سیستم های پردازش تحلیلی برخط» گرفته‏اند. می‌ توان به جای OLAP از واژه ی «پردازش سریع اطلاعات چند بعدی» و یا به عبارت بهتر از «فناوری تحلیل داده‏ها» استفاده کرد. این سیستم ها بر اساس تکامل سیستم های OLTP ایجاد شده اند. سیستم های OLAP برای ارائه‏ی پاسخ های سریع به سوالات و جستجوهای تحلیلی روی داده‏های «چند بعدی» طراحی شده اند. به طور معمول اگر بخواهیم مشابه همین پرس و جوهای تحلیلی را روی سیستم‏های اطلاعاتی عادی OLTP اجرا کنیم ممکن است نتایج در زمانی طولانی و غیرکاربردی بازگردانده شود در حالی که استفاده از OLAP تضمین می‏کند که اطلاعات و گزارشات تحلیلی با زمان پاسخی مناسب به کاربر تحویل داده شود. کاربردهای معمول OLAP عبارتند از : گزارشات تجاری فروش ، بازاریابی ، گزارشات مالی و مواردی از این قبیل. این سیستم ها داده‏های خود را به نحوی خاص نگهداری می‏کنند که از نظر سرعت در برخورد با داده‏های چند بعدی بهتر از سیستم های OLTP عمل می‏کنند و از این رو به آن‏ها بانکهای اطلاعاتی سلسله مراتبی هم گفته می‏شود. OLAP و پایگاه داده‏های مربوطه با استفاده از یک ساختار سلسله مراتبی و یک Data Model چند بعدی قدرتمند جهت سازماندهی اطلاعات به ساده‏سازی محاسبات پرداخته و گزارشاتی بسیار سریع‌تر نسبت به روش های قبلی ارائه می‏دهند.

نحوه عملکرد سیستم های OLAP

سیستم OLAP به صورت مرتب از داده‏های منابع اطلاعاتی مختلف کپی های خلاصه شده برداشته و آن‏ها را در مکعب‏های داده‏ای[۴۴] مرتب می‏کند. پرس و جوهای کاربران می تواند روی این مکعب اجرا شود . روش های مختلف طراحی انبار داده‏ها امکان پردازش های بهینه را بر روی مقادیر زیادی ازداده‏ها فراهم می‏آورند. پرس و جوهای پیچیده روی سیستم‏های OLAP به زمانی حدود تنها ۰٫۱ درصد از زمان اجرای جستجوهای مشابه روی سیستم‌های OLTP احتیاج دارند. انواع ویژه ای از الگوهای پایگاه داده‏ها به نام ستاره ای یا دانه برفی[۴۵] نیز برای طراحی انبار داده‏ی چند بعدی وجود دارد. در این حالت ، پایگاه داده‏ها از یک جدول مرکزی و جداول چند بعدی تشکیل شده است و روابط بین آنها کاملا مشخص است. برای دستیابی به سرعت بالا و زمان کوتاه ، سیستم‏های OLAP جداول اطلاعاتی خود را در آرایش‏های ستاره‏ای یا دانه‏برفی مرتب می‏کنند. ساختار OLAP مثل یک مکعب روبیک است که می‏توان آن را در جهات مختلف چرخاند تا بتوان تحلیل‏هایی از دیدگاه های مختلف را بررسی کرد. نحوه ی عملکرد این سیستم ها به این صورت است که معیارهای اساسی تحلیل به عنوان ابعاد مختلف یک مکعب در نظر گرفته شده و این مکعب در انبار داده‏ها ساخته می‏شود. این ابعاد می‏توانند در سطوح مختلف و به صورت سلسله‏مراتبی نیز وجود داشته باشند. مثلا میزان فروش کل می‏تواند از سه بعد زمان ، نوع محصول و مشتری ساخته شود. زمان می‏تواند در سلسله مراتبی متشکل از سال ، ماه ، هفته ، روز و … قرار گیرد. یک بار که جداول حقیقی به OLAP  معرفی شده و مکعب‏های متعدد با ابعاد[۴۶] متنوع ساخته شدند ، ابزارهای گزارش‏گیری مبتنی بر OLAP محیطی ساده را جهت استفاده‏ی کاربران از این اجزا فراهم می‏کند. به این ترتیب هر کاربری قادر است به بررسی نتایج از دیدگاه خاص خود و بر مبنای سلسله مراتب و سطوح مختلف اطلاعاتی بپردازد.

انواع مختلف سیستم های OLAP :

۱) سیستم های OLAP چند بعدی (MOLAP)(Multi dimensional OLAP) : این سیستم‏ها به دلیل ساختار خاص نگهداری اطلاعات از سرعت بالاتری نسبت به سایر مدل‏ها برخوردارند و به جای ذخیره کردن اطلاعات در رکوردهای کلیددار ، بانک‏های اطلاعاتی خاصی را برای خود طراحی کرده‏اند به طوری که داده‏ها را به شکل آرایه‏های مرتب شده بر اساس ابعاد داده ذخیره می‏کنند. این سیستم‏ها جداول داده‏های حقیقی و جداول چند بعدی را با ایندکس‏های فشرده نگهداری کرده و جستجوهای تحلیلی پیچیده را در حداقل زمان اجرا می‏کنند. سرعت این ابزار بالا و سایز بانک اطلاعاتی آن نسبتا کوچک است.

۲) سیستم های OLAP رابطه‏ای (ROLAP)(Relational OLAP) : این ابزارها با ایجاد یک بستر روی بانک های رابطه ای اطلاعات را ذخیره و بازیابی می‏کنند. به طوری که اساس بهینه سازی برخی بانک های اطلاعاتی رابطه ای بر همین اساس استوار است. سیستم های ROLAP عملیات OLAP را در قالب استفاده از مدل سنتی Relational سازماندهی می‏کنند و لذا از سیستم های MOLAP کندتر عمل می‏کنند و به فضای بیشتری نیز نیاز دارند.

۳) سیستم های OLAP از نوع (HOLAP)(Hybrid OLAP) : منظور از Hybrid ترکیبی از ROLAP و MOLAP است که دارای بانک اطلاعاتی بزرگ و راندمان بالاتر نسبت به ROLAP می‏باشد. سیستمهای HOLAP به شکلی بینابین پیاده‏سازی شده اند. یعنی داده‏های Fact را در جداول فشرده و داده‏های Dimension را در فضای رابطه ای نگهداری می‏کنند ؛ لذا مزایای هردو مدل را دارند.

تعاریف انبار داده

* مجموعه‏ای از داده‏های موضوع‏گرا ، مجتمع ، غیرفرار و وابسته به زمان که برای پشتیبانی از تصمیم‏گیری‏های مدیریتی مورد استفاده قرار می‏گیرد. (بیل اینمون)

* نسخه ای از داده‏های چند پایگاه داده که به منظور تسهیل پردازش و پرس و جوهای کاربران طراحی شده است.

* یک انبار داده ، داده ای دلخواه را از یک یا چند منبع جمع آوری کرده و آن‏ها را به موضوعاتی اطلاعاتی تبدیل می‏کند ، سپس آن‏ها را به همراه اطلاعات زمان و تاریخ برای پشتیبانی بهتر از تصمیم‏گیری ها ذخیره می‏کند. این سیستم ها نماهای[۴۷] متعددی از اطلاعات برای طیف های مختلف کاربران فراهم می‏کند. قدرت این مفهوم در آن است که به کاربران اجازه ی تحلیل و پرس و جوهای گوناگون بر روی داده‏هایی را می دهد که قبل از آن هیچ ارتباطی با هم نداشتند.

* جمع آوری ، پاکسازی انتقال داده از سیستم های عملیاتی متعدد و آماده کردن اطلاعات حاصل برای تحلیل و گزارش گیری کاربران نهایی ، انبارداری داده‏ها نامیده می‏شود.

* انبار داده پایگاه داده ی بزرگی است که برای پاسخگویی به سوالات ایجاد شده است. متناسب با انبار ، سوالات مذکور هم با هم فرق می‏کنند. انبار می تواند در اندازه های بزرگ یا کوچک باشد. کاربران انبار ممکن است کارکنان داخلی ، افراد ناشناس شبکه ها و یا هردو باشند.

* انبار داده‏ها اساس هر DSS[48]  است و برای اخذ داده‏های DSS و کارایی بهتر پرس و جو ها طراحی شده است.

* انبار داده یک پایگاه داده موضوع گرا است که به منظور دسترسی های گسترده طراحی شده است و ابزارهایی برای برآوردن نیازهای اطلاعاتی مدیران در همه ی سطوح سازمان آماده می‏کند. به بیان دیگر یک انبار داده به صورتی طراحی می‏شود که کاربران اطلاعات مورد نیاز خود را شناسایی کنند و بتوانند با استفاده از ابزارهای ساده ای به آن‏ها دسترسی داشته باشند.

* یک انبار داده مخزنی از اطلاعات مجتمع شده است که برای انجام پرس و جو و تحلیل ها آماده می‏شود.

چهار خصوصیت اصلی انبار داده‏ها

بر اساس تعریف بیل اینمون[۴۹] (پدر سیستم های انبار داده) که معمول ترین و شناخته شده ترین تعریف انبار داده است ، چهار خصوصیت اصلی انبار داده را مورد بررسی قرار می دهیم :

۱) موضوع‏گرا[۵۰] : هر انبار داده ، داده‏های مرتبط با یک موضوع خاص را در خود نگاه می دارد و این داده‏ها را به منظور استخراج مفاهیم و نتایج خاصی به شکلی ویژه سازماندهی می‏کند. به این ترتیب سرعت جستجوها در انبار بسیار بالا خواهد بود. انبار داده برای پاسخ گویی به پرسش های مختلف در مورد یک موضوع خاص بهینه سازی می‏شود.

۲) مجتمع[۵۱] : در سیستم های مختلف ، داده‏ها ممکن است از جنبه های مختلفی با هم نامتناسب باشند. مثلا منابع داده در کشورهای مختلف با زمان و تاریخ های مختلف ذخیره شده اند و یا منابعی که از ماشین های مختلف هستند در اعداد ، حروف و دیگر فیلدها متناسب با محدودیت های ماشین ، سیستم عامل و تطابق با استانداردهای مختلف ، متفاوت هستند. با توجه به مختلف بودن منابع انبار داده ، قبل از ذخیره سازی آن‏ها در انبار داده برای تامین یکپارچگی ، تکنیک های پاکسازی داده‏ها و مجتمع‏سازی به کار می‏رود. با توجه به این موضوع که داده‏ها زیر نظر مدیریت واحدی ذخیره سازی می شوند ، داده‏های کاملا سازگاری خواهیم داشت که داشتن چنین سازگاری در سایر سیستم ها مثل سیستم های شبکه ای و توزیعی ناممکن است.

۳) وابسته به زمان[۵۲] : داده‏ها در انبار داده برای تهیه اطلاعات تاریخی (مثلا برای ۵ تا ۱۰ سال پیش) به کار می روند. هر ساختار کلیدی در انبار داده شامل عنصر زمان است. در سیستم انبار داده ، داده‏ها هرگز به روزآوری[۵۳]  نمی‏شوند ، بلکه داده‏های جدید و یا تغییر یافته با زمان‏های جدید به انبار اضافه می‏شوند.

۴) غیر فرار[۵۴] : داده‏های انبار داده همیشه از لحاظ فیزیکی مجزا هستند و هیچ گاه نیازی به تغییر و به روزرسانی نخواهند داشت. با توجه به این موضوع انبار داده مثل پایگاه داده‏های معمولی احتیاجی به پردازش تراکنش ، بازگرداندن فرایند و مکانیزم کنترل تصادم ندارند. علاوه بر این نیازی به ایجاد و دسترسی انحصاری به داده‏ها نخواهیم داشت. فقط به دو فعالیت کلیدی احتیاج داریم : بارکردن داده‏ها ، دسترسی به داده‏ها

موارد تفاوت پایگاه داده و انبار داده

از لحاظ مدل های داده ای : پایگاه های داده برای مدل OLTP بهینه سازی شده است که بر اساس مدل داده رابطه‏ای امکان پردازش تعداد زیادی تراکنش هم روند که اغلب حاوی رکوردهای اندکی هستند را دارد. اما در انبارهای داده که برای OLAP طراحی شده‏اند ، امکان پردازش تعداد کمی پرس‏وجوی پیچیده بر روی تعداد بسیار زیادی رکورد داده فراهم می‏شود.

از لحاظ کاربران : کاربران پایگاه‏داده کارمندان و مسئولان هستند و کاربران انبار داده مدیران و تصمیم‏گیرندگان هستند.

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


از لحاظ عملیات قابل اجرا بر روی آن‏ها : عملیاتی که بر روی پایگاه داده‏ها صورت می‏گیرد ، عموما شامل عملیات به‏هنگام‏سازی است در حالی که عمل خواندن از انبار ، عمده عملیات قابل اجرا بر روی انبار داده‏ها را تشکیل می‏دهد.

از لحاظ مقدار داده‏ها : مقدار داده‏های یک پایگاه داده در حدود چند مگابایت تا چند گیگابایت است در حالی که این مقدار در انبار داده در حدود چند گیگابایت تا چند ترابایت است.

از لحاظ زمان پرس و جو : انبار داده با استفاده از دو تکنیک خلاصه سازی و سلسله مراتبی کردن ، سرعت انجام پرس و جو را بهبود بخشیده است.

مزایای پایگاه داده

۱) تجمع ، وحدت ذخیره سازی و کنترل متمرکز داده‏ها

۲) کاهش افزونگی : تجمع داده و وحدت ذخیره سازی باعث کاهش افزونگی می‏شود. مثلا آدرس های مختلف برای یک مشتری در قسمت های مختلف سازمان ثبت نمی‏شود.

۳) به اشتراک گذاشتن داده‏ها : چند کاربر می توانند هم زمان به پایگاه داده دسترسی داشته باشند. برنامه های کاربردی موجود توانایی به اشتراک گذاردن داده‏ها در پایگاه داده‏ها را دارند و برنامه های کاربردی جدید نیز می توانند از این داده‏ها استفاده کنند.

۴) پرهیز از ناسازگاری : با کاهش افزونگی ، کنترل متمرکز و جامعیت ، سازگاری و یکپارچگی داده‏ها تضمین می‏شود.

۵) اعمال محدودیت های امنیتی : سیستم های امنیتی در پایگاه داده امکان اعمال کنترل های مختلف را برای هر نوع دسترسی (‌بازیابی ، اصلاح ، حذف و …) بر روی پایگاه داده فراهم می‏کند.

۶) صحت بیشتر داده و استقلال از برنامه های کاربردی

۷) راحتی پیاده سازی برنامه های کاربردی جدید

معایب سیستم پایگاه داده نسبت به سیستم فایلی

۱) طراحی سیستم های پایگاه داده پیچیده تر، دشوارتر و زمان‏برتر از سیستم فایلی است.

۲) هزینه ی قابل توجهی صرف سخت افزار و نصب نرم افزار می‏شود.

۳) آسیب دیدن پایگاه داده روی کلیه برنامه های کاربردی تاثیر می‏گذارد.

۴) هزینه ی زیادی برای تبدیل از سیستم فایلی به سیستم پایگاه داده نیاز است.

۵) نیازمند تعلیم اولیه ی برنامه نویسان و کاربران و استخدام کارمندان خاص پایگاه داده است.

۶) نیاز به تهیه چندین کپی پشتیبان از پایگاه داده می‏باشد.

۷) خطاهای برنامه می توانند فاجعه برانگیز باشند.

۸) زمان اجرای هر برنامه طولانی تر می‏شود.

۹) بسیار وابسته به عملیات سیستم مدیریت پایگاه داده است.

فنون داده‏کاوی

۱) روش های آماری که عبارتند از استنباط بیزی ، رگرسیون لجستیک ، تحلیل ANOVA و مدل های لگ خطی

۲) تحلیل خوشه‏ای که عبارتند از الگوریتم‏های قابل تقسیم ، الگوریتم‏های تراکمی ، خوشه‏بندی افرازی و خوشه‏بندی افزایشی

۳) درختان تصمیم و قواعد تصمیم که عبارتند از مجموعه روش های یادگیری استقرایی که عمدتا در هوش مصنوعی ایجاد و توسعه یافته اند. فنونی مثل روش CLS ، الگوریتم ID3 ، الگوریتم C4.5 و الگوریتم های هرس کردن متناظر.

۴) قواعد پیوند مجموعه‏ای از متدولوژی‏های نسبتا جدید را معرفی می‏کند که شامل الگوریتم‏هایی مثل تحلیل سبد خرید ، الگوریتم پیشین و الگوهای پیمایش مسیر هستند.

۵) شبکه های عصبی مصنوعی که در آن تاکید بر پرسپترون چند لایه با یادگیری پس انتشار و شبکه های Kohonen است.

۶) الگوریتم های ژنتیکی که به عنوان یک متدولوژی برای حل مسائل سخت بهینه سازی بسیار مفیدند.

۷) سیستم های استنباط فازی که بر اساس نظریه ی مجموعه های فازی و منطق فازی قرار دارند. مدل بندی فازی و تصمیم‏گیری فازی گام هایی هستند که غالبا در فرایند داده‏کاوی قرار می گیرند.

۸) روش های تجسم Nبعدی که با وجود این که در صورت استفاده از این فنون و ابزارها می توان اطلاعات مفیدی کشف کرد ، از آن در ادبیات استاندارد داده‏کاوی سخنی به میان نمی‏آید. فنونی مثل تجسم هندسی ، نشانه ای و فنون سلسله مراتبی

شبکه های عصبی[۵۵]

شبکه های عصبی یکی از موضوعاتی است که در مدل سازی ، پیش بینی ، رده بندی و … با حجم داده ی بسیار زیاد و داده‏کاوی استفاده می‏شود. اساس این روش بر پایه ی ساختار مغز انسان می‏باشد که با توجه به نوع کارکرد مغز ، دریافت اطلاعات ، پردازش آن‏ها و در نهایت تولید یک خروجی پایه ریزی شده است. شبکه های عصبی قدمت زیادی مانند برخی رشته ها از جمله ریاضی ، فیزیک ، شیمی و … ندارد و می توان آن را شاخه ای از علم نامید که زاییده ی قرن بیستم است و یکی از نشانه های نبوغ بشری برای ایده گرفتن از جهان پیرامون خود می‏باشد. پس از آن که ایده ی شبکه های عصبی به ذهن انسان ، قبل از ۱۹۵۰ خطور کرد و بعد از آن مبانی ریاضی آن پایه ریزی شد ، این موضوع با مشکلی روبرو شد که تا سال ها به صورت حل نشده باقی ماند که همین باعث رکود آن شد. ولی در نهایت در سال ۱۹۸۶ رومل هارت و مک کللند[۵۶] با ارائه ی یک راه حل جدید توانستند مشکل شبکه‏های عصبی را حل نموده و بار دیگر این شاخه از علم را به جریان و پیشرفت بازگردانند. پس از این بود که شبکه‏های عصبی به سرعت پیشرفت کرده و در علوم مختلف به کار گرفته شد. بر مبنای کارکرد آماری ، شبکه‏های عصبی در رگرسیون و سری‏های زمانی برای مدل سازی و پیش بینی به کار می رود.

شبکه های عصبی در ۱۹۸۰ فراگیر شد که از چند عامل نشات می گرفت. نخست ، توان محاسبه کردن به راحتی در دسترس قرار گرفت. دوم ، با درک این که این شبکه ها رابطه ی نزدیکی با روش های آماری مشخص دارند ، تحلیلگران با شبکه های عصبی ارتباط برقرار کردند و با آن راحت تر شدند. سوم ، داده‏های مناسب وجود داشت چون سیستم های عملیاتی در اکثر شرکت‏ها قبلا خودکار شده بودند. چهارم ، کاربردهای سودمند شبکه های عصبی بر اهداف نهایی آن که مربوط به هوش مصنوعی بود پیشی گرفت. شبکه های عصبی امروزه در مهندسی برق ، مکانیک ، کامپیوتر ، اقتصاد ، ژئوفیزیک ، مدیریت ، آمار و خیلی رشته‏های دیگر مورد استفاده است.

شبکه ی عصبی چیست؟

این اولین سوالی است که ممکن است به ذهن برسد. برای پاسخ به این سوال آن را به دو بخش تقسیم می‏کنیم :

۱) چرا آن را شبکه ی عصبی می نامند؟

چون شبکه ای از اجزای به هم مرتبط است آن را شبکه ی عصبی می نامند. این اجزاء از مطالعات سیستم های عصبی زیستی الهام گرفته شده است. به عبارت دیگر شبکه های عصبی کوششی است تا با استفاده از اجزایی که شبیه سلول های عصبی زیستی رفتار می‏کنند ، ماشین هایی ایجاد شوند که مانند مغز انسان کار می‏کنند.

۲) یک شبکه ی عصبی چه کار می‏کند؟

وقتی یک الگوی ورودی به یک شبکه ی عصبی ارائه می‏شود ، یک الگوی خروجی تولید می‏کند. بنابراین طبقه بندی ، رگرسیون و سری های زمانی در حیطه ی آمار ؛ تشخیص چهره یا اثر انگشت ، تشخیص صدا و سیستم های حفاظتی برای پیشامدهای غیر عادی ، که بنا به تعریف نمی توان آن را پیش بینی کرد ، در حیطه ی مهندسی و … از جمله مواردی است که از شبکه ی عصبی می توان برای انجام آن‏ها استفاده نمود. به طور خلاصه می‏توان گفت که شبکه‏های عصبی در حل سه گروه از مسائل بیشترین کاربرد را یافته‏اند. مسائلی که دارای راه حل الگوریتمی نیستند ، مسائلی که راه حل الگوریتمی بسیار پیچیده‏ای دارند و مسائلی که انسان در حل آن‏ها موفق‏تر از ماشین عمل می‏کند.

قابلیت های شبکه ی عصبی

شبکه های عصبی دارای قابلیت های زیر می‏باشد :

* الگوها را طبقه بندی می‏کند.

* به قدر کافی کوچک است تا به لحاظ فیزیکی قابل پیاده سازی باشد.

* با آموزش برنامه ریزی می‏شود ، لذا می تواند قابلیت یادگیری داشته باشد.

* با استفاده از مثال های نشان داده شده در طی آموزش تعمیم می یابد.

درخت تصمیم[۵۷]

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


درخت تصمیم یکی از مفیدترین روش ها در مسائل رده بندی است. با این روش یک درخت در فرایند رده بندی ساخته می‏شود. درخت تصمیم در رده بندی ، فضای جستجو را به نواحی مستطیل تقسیم می‏کند. یک نمونه ، بر اساس ناحیه ای که در آن قرار دارد رده بندی می‏شود. استفاده از درخت تصمیم به دلیل دقت و سرعت الگوریتم ها و سادگی در استفاده و فهم یک تکنیک معمول برای حل مسائل داده‏کاوی می‏باشد.

قواعد پیوند

قواعد پیوند یکی از تکنیک های اصلی داده‏کاوی است و شاید بتوان آن را مهم ترین شکل از کشف و استخراج الگوهای موضعی در سیستم های یادگیری هدایت نشده دانست. این روش از داده‏کاوی شباهت خیلی زیادی به فرایند هایی دارد که اغلب مردم ، وقتی سعی می‏کنند فرایند داده‏کاوی را بفهمند ، درباره ی آن فکر می‏کنند. برای مثال می توان به کاوش طلا در یک پایگاه داده‏های وسیع اشاره نمود. در این حالت طلا یک قاعده است که مطالبی در مورد بعضی مسائل پایگاه داده به شما می‎گوید که تا به حال از آن بی خبر بوده اید و شاید به طور صریح نمی توانسته‏اید آن را مطرح کنید. این روش تمام الگوهای ممکن جالب در پایگاه داده‏ها را بازیابی می‏کند. این امر یک نقطه ی قوت است با این مفهوم که این روش همه ی داده‏ها را زیر و رو می‏کند ، اما می توان آن را یک نقطه ضعف نیز شمار آورد. زیرا به سهولت می تواند کاربر را در انبوهی از اطلاعات جدید غرق کند که تحلیل قابل استفاده بودن آن‏ها دشوار و وقت گیر باشد.

مثال هایی از قواعد پیوند

* بررسی ویژگی های مشترکین یک شرکت تلفن که به یک سرویس جدید ارائه شده پاسخ مثبت می دهند.

* بررسی اینکه اگر والدین اهل مطالعه باشند ، به چه نسبتی کودک به مطالعه علاقه مند می‏شود.

* کشف اینکه چه کالاهایی در سوپرمارکت با هم خریداری می شوند و چه کالاهایی هرگز با هم خریداری نمی‏شوند.

* تعیین اثرات جانبی مصرف داروها با بررسی مصرف کنندگان و اثرات جانبی مختلف و میزان ارتباط آن‏ها

* کشف ارتباط بین داروهای مختلف در یک داروخانه و به تبع آن چیدمان مناسب و بسته بندی سودمند

* کشف سایت های مرتبط در شبکه ی جهانی اینترنت و ترتیب مشاهده ی آن‏ها توسط کاربر و بررسی رفتار کاربر

نرم افزارهای داده‏کاوی

یک پـروژه‏ی داده‏کـاوی جهت انجام تحـلیل‏ها به یک نرم‏افزار مناسـب نیاز دارد. امروزه نرم‏افزارهای مختـلفی در این زمیـنه وجود دارد. مانند :

AI Trilogy , Alice , Answer Tree , BrainMaker , CART , SPSS Clementine , Darwin , DataEngine , Datamite , DBMiner , Decider , DecisionTime , SAS Enterprise Miner , GainSmarts , Intelligent Miner , JDBCMiner , MarketMiner , MARS , Insightful , STATISTICA Data Miner , WebMiner ASP , WEKA , XLMiner

بیشتر سیستم های نرم افزاری فقط جهت انجام روش های خاصی مناسب هستند و قابلیت انجام روش های دیگر را ندارند. یکی از نرم افزارهای مناسب بنا بر تحقیقات انجام شده SAS Enterprise Miner می‏باشد.

کاربردهای داده‏کاوی

امروزه عملیات داده‌کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آن‏ها قرار دارند ، استفاده می‌شود ، از جمله : فروشگاه‌ها ، شرکتهای مالی ، ارتباطاتی ، بازاریابی و غیره. استفاده از داده‌کاوی به این شرکت ها کمک می‌کند تا ارتباط عوامل داخلی از جمله : قیمت ، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی مثل وضعیت اقتصادی ، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. همچنین داده‌کاوی پیش‌بینی وضع آینده ی بازار ، گرایش مشتریان و شناخت سلیقه‌های عمومی آنها را برای شرکت ها ممکن می‌سازد. به عنوان مثال : بازار هدف ، پیدا کردن الگوی خرید مشتری ، برنامه‌ریزی برای معرفی محصول جدید ، Customer profiling ، دسته‌بندی مشتریان براساس نوع خرید ، آنالیز نیازهای مشتریان ، تشخیص محصولات مناسب برای دسته‌های مختلف مشتریان ، تشخیص فاکتورهایی برای جذب مشتریان جدید ، تعیین الگوهای خرید مشتریان ، تجزیه و تحلیل سبد خرید بازار ، پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی) ، پیش‌بینی الگوهای کلاهبرداری از طریق کارت‏های اعتباری و شناسایی جرایم مالی ، تشخیص مشتریان ثابت و دسته‌بندی و خوشه‌بندی مشتریان با توجه به رفتار مشابه آن‏ها در زمینه ی بانکداری و بازپرداخت وام ، تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی ، تحلیل اعتبار مشتریان ، شناسایی فاکتورهای اصلی در ریسک بازپرداخت وام ، تحلیل پاسخگویی مشتریان به ارائه ی خدمات جدید بانکی ، پیشگویی میزان خرید بیمه‌نامه‌های جدید توسط مشتریان ، تحلیل ریسک و برآورد حق بیمه مشتریان بر اساس میزان ریسک هر مشتری ، پیش‌بینی میزان خسارت بر اساس گروه‏های مشتریان ، مدیریت ارتباط با بیمه‌گذاران و تدوین استراتژی بر اساس مشتریان هدف ، تعیین عوامل وفاداری و یا روی‌گردانی مشتریان ، شناخت نیازها و الگوهای خرید سرویس های بیمه‌ای توسط مشتریان ، شناخت تخلفات بیمه‌ای ، تعیین نوع رفتار با بیماران و تعیین روش درمان بیماری ها ، پیشگویی میزان موفقیت عمل جراحی و تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های سخت ، بررسی میزان تاثیر دارو بر بیماری و اثرات جانبی آن ، تشخیص و پیش‌بینی انواع بیماری ها مانند تشخیص و یا پیش‌بینی انواع سرطان ، تجزیه و تحلیل داده‌های موجود در سیستم های اطلاعات سلامت ، تحلیل عکس های پزشکی

همچنین بعضی از کاربردهای داده‏کاوی را می توان در کاربردهای معمول تجاری (مثل تحلیل و مدیریت بازار ، تحلیل سبد بازار ، پیش بینی قیمت نفت ، بازاریابی هدف ، فهم رفتار مشتری و تحلیل و مدیریت ریسک) ، مدیریت و کشف فریب (کشف فریب تلفنی ، کشف فریب های بیمه ای اتومبیل ، کشف حقه های کارت اعتباری ، کشف تراکنش های مشکوک مالی و پول شویی) ، متن‏کاوی (خلاصه سازی ، یافتن متون مشابه و کلمات کلیدی ، پالایش نامه های الکترونیکی ، گروه های خبری و …) ، پزشکی (کشف ارتباط علامت و بیماری ، تحلیل آرایه های DNA ، تصاویر پزشکی) ، وب کاوی (پیشنهاد صفحات مرتبط ، بهبود ماشین های جستجوگر یا شخصی سازی حرکت در وب سایت) و یافتن روندهای فرهنگی سیاسی در وب ، تحلیل شبکه‏های اجتماعی وب۲ (وبلاگ‏ها ، ویکی ها) ، آنالیز ترافیک وب ، تشخیص نفوذی به شبکه ، بیوانفورماتیک ، سیستم پیشنهاد دهنده برای آموزش مجازی و کاربردهای بسیار دیگری در شاخه های مختلف مهندسی دانست.

فروش

یکی از کاربردهای بسیار مهم داده‏کاوی فعالیت های مربوط به فروش کالا است. شرکت هایی که دارای حجم عظیمی از داده‏های حجیم ذخیره شده و داده‏های بسیار بسیار با ارزش هستند ، از این ویژگی داده‏کاوی به خوبی استفاده می‏کنند. دلیل مهم علاقه ی این شرکت ها به این خاصیت داده‏کاوی ، اهمیت زیاد تصمیم‏گیری و پیشگویی برای آن‏ها است.

تحلیل سبد خرید یکی از کاربردهای مفید تکنیک های کشف پیوند است که برای پیدا کردن گروه هایی از کالاها که در تبادلات در کنار هم قرار می گیرند به کار می رود و عموما در سوپرمارکت ها استفاده می‏شود. در بسیاری از فروشگاه ها این تبادلات تنها منبع اطلاعات فروش هستند که داده‏کاوی می تواند از آن استفاده کند. به طور مثال ، یک تحلیل خودکار از اطلاعات فروش یک سوپر مارکت ، ممکن است برخی حقایق را در مورد مشتریان آشکار کند. مثلا پی بردن به این حقیقت که مشتریانی که آبمیوه می خرند ، چیپس هم خریداری می‏کنند. این مساله می تواند برای سوپرمارکت ها بسیار حائز اهمیت باشد. یا مثلا دانستن این که مشتریان در روزهای خاصی از هفته بعضی اجناس را با هم خریداری می‏کنند. مثلا پنج شنبه ها آبمیوه و قیچی با هم خریداری می‏شود. همان طور که ملاحظه می کنید این دو کالا بسیار نامربوط به نظر می رسند و کشف این ارتباط بدون استفاده از روش های داده‏کاوی و فقط با استفاده از مشاهدات تجربی غیر ممکن است. داروخانه ها نیز مانند فروشگاه های بزرگ ، شامل حجم وسیعی از اقلام دارویی ، بهداشتی و آرایشی هستند که کشف ارتباط آن‏ها در هنگام فروش (با استفاده از اطلاعات نسخه ها) در جوامع پیشرفته بسیار حائز اهمیت می‏باشد.

این اطلاعات استفاده ی بسیار زیادی دارند ، ازجمله برنامه ریزی و طراحی داخلی فروشگاه ، تعیین تخفیف برای خرید یک مجموعه از اجناس که با هم خریداری می شوند ، تعریف کالابرگ برای محصولاتی که بیشتر با هم خریداری می شوند و …

همچنین از بررسی اطلاعات خرید مشتریان ، می توان مشتریانی را که همیشه فقط یک قلم کالا خریداری می‏کنند تشخیص داد و برای آن‏ها کارت تخفیف صادر کرد تا فروشگاه بتواند مشتریان تک خریدی خود را بشناسد. شاید در ابتدا به نظر برسد که صدور کارت تخفیف به ضرر فروشگاه است ، اما اطلاعات به دست آمده در مورد سابقه ی مشتریان در دراز مدت بسیار مفید خواهد بود و برای فروشگاه ارزشمند است. به کار بستن این پیشنهادات با وجودی که هزینه ی سنگینی دارند و سرعت پاسخگویی آن‏ها پایین است اما به شدت سودمند و کارا هستند. امروزه بحث تحلیل سبد خرید به یکی از پرطرفدارترین مباحث روز دنیا تبدیل شده است و شرکت های بزرگ برای فروش محصولات خود و پیشی گرفتن از رقبا در بازارهای جهانی به شدت از این تکنیک ها استفاده می‏کنند. برای مثال با ارائه ی محصولات مرتبط در یک بسته ، فروش محصولات خود را بالا می برند.

همچنین امروزه پایگاه داده‏های تجاری موجود ، شامل اطلاعات آماری هستند که وابسته به کد پستی است که با استفاده از آن گروه های مجاور وابسته را با اطلاعاتی که برای هر مشتری وجود دارد مشخص می‏کنند و به وسیله ی آن یک مدل اجتماعی تولید می‏کنند که رفتار واقعی مشتریان را در جامعه پیش بینی کند.

بازاریابی

در بازاریابی مشتری احتمالی شخصی است که از لحاظ منطقی احتمال دارد که مشتری شود به شرطی که به شیوه ی درست به او نزدیک شویم. هم اسم و هم فعل این کلمه با مفهوم استفاده از داده‏کاوی برای دستیابی به اهداف شناسایی افرادی که مشتریان ارزشمندی در آینده خواهند بود ، اهمیت بیشتری پیدا می‏کنند. برای بیشتر شرکت های تجاری ، تعداد بسیار کمی از جمعیت شش میلیاردی کره‏ی زمین جزء مشتریان احتمالی هستند. بسیاری از این افراد به دلایلی مانند جغرافیا ، سن ، توانایی پرداخت هزینه و نیاز به محصول یا خدمات از فهرست مشتریان احتمالی حذف می‏شوند. برای مثال بانکی که اعتباراتی با ارزش ویژه برای خانه می‏دهد ، به طور طبیعی این نوع وام را به خانوارهایی محدود می‏کند که در حوزه ی اختیاراتی که بانک مجوز دارد در آن عمل کند ، واقع هستند. شرکتی که تاب های قابل نصب در حیاط می فروشد ، می خواهد کاتالوگ خود را به خانواده های بچه دار با آدرس هایی که احتمالا حیاط دارند ، بفرستد. مجله‏ها افرادی را هدف می‏گیرند که همان زبان را می‏خوانند و مورد توجه تبلیغ‏کنندگان مجله هستند. داده‏کاوی می تواند نقش های زیادی در جذب مشتری داشته باشد. مهمترین این نقش ها عبارتند از : شناسایی مشتریان احتمالی خوب ؛ انتخاب کانال ارتباطی برای گروه های مختلف مشتریان احتمالی ؛ انتخاب پیام های مناسب برای گروه‏های مختلف مشتریان احتمالی. البته امروزه داده‏کاوی بیشتر در مورد اول به کار برده می‏شود.

مدیریت ارتباط با مشتری

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


مدیریت ارتباط با مشتری به طور طبیعی بر مشتریان فعلی تمرکز می‏کند. خوشبختانه ، مشتریان دائم منبعی غنی از داده‏ها برای داده‏کاوی هستند. بهتر از همه اینکه داده‏های فراهم آمده توسط مشتریان دائم منعکس کننده ی رفتار واقعی شخصی آن‏ها است. آیا مشتری صورت حساب های خود را به موقع می پردازد؟ از طریق چک می پردازد یا کارت اعتباری؟ آخرین خرید او چه زمانی بوده است؟ چه محصولی خریده است؟ قیمت آن چقدر بوده است؟ این مشتری چند بار با واحد خدمات مشتریان تماس گرفته است؟ ما چند بار با مشتری تماس گرفتیم؟ این مشتری معمولا از چه شیوه ای برای تحویل کالا استفاده می‏کند؟ این مشتری چند بار خرید خود را پس داده است؟ این نوع داده‏های رفتاری می تواند برای ارزیابی ارزش بالقوه ی مشتری ، ارزیابی خطر قطع ارتباط مشتری ، ریسک عدم پرداخت صورت حساب های این مشتریان و پیش بینی نیازهای آینده ی او ، استفاده شوند.

خوشه‏بندی بخش اصلی مشتریان

خوشه‏بندی مشتریان ، کاربردی متداول از داده‏کاوی در مورد مشتریان ثابت است. هدف خوشه‏بندی منطبق کردن محصولات ، خدمات و پیام های بازاریابی با هر خوشه از مشتریان است. خوشه های مشتریان به طور سنتی بر اساس تحقیقات بازاریابی و جمعیت شناسی مشخص می شوند. ممکن است خوشه هایی مانند جوان و مجرد وجود داشته باشد. مشکل خوشه هایی که بر اساس تحقیقات بازاریابی ایجاد می شوند این است که چگونه آن‏ها را در مورد تمام مشتریانی که بخشی از تحقیق نبوده اند به کار بگیریم. مشکل خوشه های که بر اساس جمعیت شناسی هستند این است که تمام افراد جوان و مجرد یا تمام افرادی که بچه هایشان ازدواج کرده و از آن‏ها جدا شده اند در واقع همان سلایق وابستگی هایی را که در خوشه شان توصیف شده ندارند. رویکرد داده‏کاوی تعیین مجموعه های رفتاری است.

محدودیت‌های داده‏کاوی

* در حالی که محصولات داده‏کاوی ابزارهای قدرتمندی می‌باشند ، اما برای کسب موفقیت ، داده‏کاوی نیازمند تحلیلگران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیت‏های داده‏کاوی مربوط به داده ی اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.

* اگرچه داده‏کاوی به الگوهای مشخص و روابط آنها کمک می‌کند ، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند.تصمیماتی از این قبیل بر عهده‏ی خود کاربر است.

* تشخیص رابطه ی بین رفتارها و یا متغیرها یکی دیگر از محدودیت های داده‏کاوی می‌باشد که لزوما روابط اتفاقی را تشخیص نمی‌دهد. برای مثال برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند ، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد ، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.

مشکلات داده‏کاوی

۱) وجود عدم قطعیت در اطلاعات : به طور کلی عدم قطعیت در سیستم‏های پایگاه داده به دو دسته تقسیم می شوند :

اطلاعات ناکامل (مقادیر نامشخص)  : منظور خصیصه هایی است که مقداری برای آن‏ها ثبت نشده است.

اطلاعات ناسازگار : اطلاعاتی که در اثر اندازه‏گیری نادرست یا به وجود آمدن نویز در داده‏ها ایجاد شده باشد و مقادیر ثبت شده با مقادیر واقعی برابر نباشند. (راه حل این مشکلات قبلا عنوان شده است.)

۲) حجم بالای داده‏ها : تعداد رکوردهای برخی از پایگاه داده‏ها به چند صد میلیارد می رسد. برای رفع مشکلاتی که این سیستم ها در برخورد با داده‏های حجیم دارند ، معمولا روش های زیر استفاده می‏گردند :

طراحی الگوریتم های سریع : کاهش پیچیدگی ها ، بهینه سازی ، موازی سازی و …

کاهش حجم داده‏ها : نمونه گیری ، گسسته سازی ، کاهش ابعاد و …

به کارگیری یک مدل رابطه ای : استفاده از قابلیت های ذخیره و بازیابی اطلاعات در پایگاه‏های داده

برخی از مشکلات داده‏کاوی از اینجا ناشی می‏شود که نمونه های بسیار زیادی با انواع مختلف صفات وجود دارند. علاوه بر این ، این نمونه ها در بسیاری اوقات دارای بعد بالایی هستند ؛ به این معنی که دارای تعداد فوق‏العاده زیاد از صفات اندازه پذیر می‏باشند. این بعد اضافی مجموعه ی داده‏های حجیم باعث به وجود آمدن مشکلی می‏شود که در اصطلاحِ داده‏کاوی به نام «آفت بُعدیت» مشهور است. این آفت بُعدی به دلیل هندسه ی فضاهای با بعد بالا ایجاد می‏شود و این نوع فضاهای داده‏ها مخصوص مسائل داده‏کاوی است. ویژگی‏های فضاهای با بعد بالا اغلب بر خلاف درک شهودی ظاهر می‏شوند ، زیرا تجربه از دنیای واقعی در یک فضای با بعد پایین از قبیل فضای با ابعاد دو یا سه است.

نمونه‌های اجرا شده داده‌کاوی

در صنعت

شرکت فولادسازی پوهانگ کره برای صرفه‌جویی در مصرف انرژی در کوره‌های بلند خود از الگوریتم‏های داده‌کاوی استفاده و در حدود ۱۵% از مصرف انرژی خود را کاهش داد ، که باعث ۳/۱ میلیون دلار صرفه‌جویی در هزینه‌های شرکت شد و از طرف دیگر باعث کاهش قیمت محصولات آن شرکت و افزایش تعداد مشتریان و سود بیشتر آن شرکت نیز شد.

در هتل‌داری

یکی از هتل های مشهور در لاس‌وگاس آمریکا ، برای بالا بردن رضایت مسافران از الگوریتم‏های داده‌کاوی استفاده کرد ، به این صورت که با استفاده از اطلاعات جمع‌آوری شده از مسافران به وسیله‏ی پرسشنامه و آنالیز آن داده‌ها توانست عواملی که باعث می‌شد مسافران دوباره به این هتل باز گردند را پیدا کرده و با طبقه‌بندی مسافران ، مسافران وفادار به هتل را پیدا کنند.

در مدیریت ریسک

در یکی از بانک‏های بزرگ کانادا با استفاده از الگوریتم‏های داده‌کاوی ، مدلی را برای داده‌ها ارائه داده و به وسیله ی نتایج آنالیز آن ،  مساله مهم تقلب در حساب‏ها و چگونگی و میزان برگشت وام‏های داده شده توسط بانک را حل نمودند و تصمیمی صحیح را برای مشتریان جدید بانک گرفتند.

داده‏کاوی در ایران

در کشور ما نیز با رشد روزافزون داده‏ها در کارخانجات ، شرکت‏ها ، فروشگاه‏های زنجیره‏ای و مراکز مختلف دولتی و خصوصی نیاز به استفاده از دانش نهفته در آن‏ها یعنی انجام داده‏کاوی روی داده‏ها ضروری به نظر می‏رسد. داده‏های مرکز آمار ایران ، داروخانه ها ، بیمارستان‏ها ، داده‏های مرکز پلیس ، مراکز قضایی ، کارت سوخت ، سازمان هواشناسی کشور ، بانک ها ، بیمه و … از جمله داده‏های انبوه و بسیار ارزشمندی هستند که شایستگی داده‏کاوی و تحلیل قوانین پنهان را دارند. داده‏کاوی می تواند با کشف الگوهای پنهان در اصلاح روند تصمیم‏گیری مدیران بسیار موثر باشد اما کشور ما به دلیل عدم وجود فرهنگ به اشتراک گذاری اطلاعات از دستاوردهای این فناوری محروم بوده است.

متن‏کاوی[۵۸]

اکنون بیش از ۸۰ درصد دانش ما به صورت متن ، مستندات و دیگر صورت های رسانه ای نظیر ویدیو و صدا نگهداری می‏شوند. یک فرد برای دریافت دانش از اطلاعات یک متن ، باید ابتدا آن را درک کند و سپس آن را پردازش کند تا بفهمد چه معانی و مفاهیمی در آن موجود است ، چه ارتباطی میان مفاهیم وجود دارد و از میان این مفاهیم کدام جدید است و کدام قدیمی. با این حال در این عصر تکنولوژی ما معتقدیم که هر چیزی باید بتواند اتوماتیک انجام شود حتی اگر این کار «درک معنی متن» باشد. این تنها یکی از نام هایی است که برای این نوع از پردازش مطرح می‏شود. «متن‏کاوی» ، «کاوش داده‏های متنی»[۵۹] و نام معروف «کشف دانش در متن»[۶۰] از نام های مورد قبول در این زمینه هستند.

در دنیای کنونی این کمبود اطلاعات نیست که مساله است ، بلکه کمبود دانشی است که از این اطلاعات می توان حاصل کرد. میلیون ها صفحه ی وب ، میلیون ها کلمه در کتابخانه های دیجیتال و هزاران صفحه اطلاعات در هر شرکت ، تنها چند مورد از این منابع اطلاعاتی هستند. اما نمی توان به طور مشخص منبعی از دانش را در این بین معرفی کرد. دانش خلاصه ی اطلاعات است و نیز نتیجه گیری و حاصل فکر و تحلیل بر روی اطلاعات. داده‏کاوی برای کشف دانش از پایگاه داده‏های حجیم استفاده می‏شود. البته استفاده از داده‏کاوی عمومیت ندارد. داده‏کاوی را بر منابع داده‏ای ساخت یافته‏ای اعمال می‏کنیم که به اندازه‏ی کافی بزرگ باشند. کتابخانه‏های دیجیتال ، اخبار ، کتاب‏های الکترونیکی ، بسیاری از مدارک مالی ، مقالات علمی و تقریبا هر چیزی که شما می‏توانید در داخل وب بیابید ، ساخت‏یافته نیستند. در نتیجه ما نمی‏توانیم داده‏کاوی را در مورد آن‏ها به طور مستقیم استفاده کنیم.

با این حال سه روش اساسی در مواجهه با این حجم وسیع از اطلاعات غیرساخت‏یافته گسترده شده در جهان وجود دارد :

۱) بازیابی اطلاعات[۶۱] : بازیابی اطلاعات اصولا مرتبط است با بازیابی مستندات و مدارک. کار معمول در بازیابی اطلاعات این است که بسته به نیاز مطرح شده از سوی کاربر ، مرتبط‏ترین متون و مستندات را از میان دیگر مستندات یک مجموعه بیرون بکشد. این یافتن دانش نیست بلکه تنها مجموعه ای از کلمات را که به نظرش مرتبط تر به نیاز جستجوگر است ، به او تحویل می دهد. این روش به واقع هیچ دانشی و حتی هیچ اطلاعاتی را برایمان به ارمغان نمی‏آورد.

۲) استخراج اطلاعات[۶۲] : استخراج اطلاعات ، داده‏های اولیه را که داده‏هایی غیرساخت‏یافته اند مورد بررسی قرار می دهد و با بیرون کشیدن اطلاعات از تک تک این داده‏ها ، یک پایگاه داده را پر می‏کند. پیش نیاز این کار تعریف یا کشف یک قالب از داده‏های مورد بررسی است. هر چند یافتن این قالب در داده‏های غیرساخت‏یافته ممکن است به سادگی صورت نگیرد. اما زمانی که این کار به پایان برسد ، با داده‏هایی کاملا ساخت‏یافته مواجه خواهیم بود. اما از سوی دیگر ، این فقط اطلاعات است که ما داریم نه دانش! به این معنی که هیچ چیز جدیدی از آنچه داریم کشف نشده است.

۳) کشف دانش در متن : در کشف دانش از متن ، ابتدا به دنبال استحصال مفاهیم اولیه از متون هستیم و سپس ارتباطی را میان این مفاهیم می یابیم. به عنوان مثال «مناطق بارانی» و «کشت برنج» دارای رابطه ای به این صورت هستند که کشت برنج به مناطق بارانی نیاز دارد. همچنین رابطه ای بین «مناطق بارانی» و «مناطق شمال کشور» به این صورت وجود دارد که مناطق شمال کشور مناطق بارانی هستند. آنچه که تا کنون داریم تنها اطلاعات استخراج شده از متون است. اما سیستم می تواند کمی باهوش تر باشد و با درک این دو گزاره نتیجه دهد که گزاره سومی نیز قابل طرح است که «مناطق شمال کشور قابل کشت برنج است.» همان طور که مشاهده می‏شود این اطلاعات جدید را می توان دانش نامید. برخی معتقدند تفاوت بسیار اندکی بین استخراج اطلاعات و کشف دانش از متون وجود دارد. البته بسیاری نیز معتقدند که استخراج اطلاعات می‏تواند به عنوان یک فاز پیش پردازش برای فرایند متن‏کاوی در نظر گرفته شود.

کاربردهای متن‏کاوی

جستجو و بازیابی : روش‏های جدیدی در رابطه با جستجو و بازیابی اطلاعات با در نظر گرفتن متن‏کاوی ، قابل تصور است. همان طور که قبلا گفته شد بازیابی اطلاعات دارای این هدف است که از میان مجموعه ای از مدارک و متون ، آن‏هایی را که به نیاز اطلاعاتی کاربر مرتبط ترند جدا کنند و به کاربر نشان دهند. بنابراین همیشه شرایطی هست که کاربر نتواند به نیاز اطلاعاتی خود ، حتی از میان نتایج دریافت شده برسد. در بسیاری از شرایط داشتن سیستمی که بتواند جواب دقیق را برگرداند ترجیح بیشتری دارد. این نوع از سیستم های بازیابی اطلاعات به «سیستم پاسخگو به پرسش»[۶۳] معروفند. اگر چه این نوع از سیستم های بازیابی اطلاعات بر اساس استفاده ی گسترده ای از تکنولوژی ها مانند پردازش زبان طبیعی[۶۴] و یادگیری ماشین استوار است ، اما در نهایت آنچه در این سیستم ها ، نقش اصلی را دارا است یک پایگاه دانش است که از طریق روش های مبتنی بر NLP و یا روش های آماری بر روی مدارک موجود در مجموعه ساخته شده است. در استخراج این روابط می توان از متن‏کاوی استفاده کرد. استخراج چنین روابطی در واقع یکی از کاربردهای متن‏کاوی است.

خوشه‏بندی و رده بندی داده‏ها : یکی از مواردی که می‏تواند به کاربر در یافتن سریع‏تر اطلاعات مورد نظرش کمک کند ، دسته‏بندی اطلاعاتِ موجود است. این دسته‏بندی به کاربر یک نگاه کلی از آنچه در مجموعه متون وجود دارد می دهد. در ساختن این دسته‏بندی دو روش کلی وجود دارد ؛ رده‏بندی و خوشه‏بندی. در رده بندی دسته های از پیش تعریف شده‏ای از مفاهیم وجود دارد و تلاش می‏شود که سیستمی طراحی شود که هر کدام از مستندات و مدارک جدید را به یکی از این دسته‏ها نسبت دهد. این کار در واقع به رده بندی داده‏ها معروف است. در سوی دیگر ، خوشه‏بندی داده‏ها ، ساختن این دسته‏ها به طور اتوماتیک است. در واقع با خوشه‏بندی مدارک قصد بر این است که مشخص شود تمرکز مفاهیم در مجموعه ی متون حول چه چیزهایی است. در واقع در اینجا دسته ی از پیش تعریف شده ای وجود ندارد. این دو مفاهیمی هستند که از آمار و داده‏کاوی رایج در پایگاه داده‏ها به قرض گرفته شده‏اند. (داده‏کاوی هدایت شده و هدایت نشده)

خلاصه سازی : منظور از خلاصه سازی روند ساختن مجموعه ای از مفاهیم پایه ای در متن ، تنها در چند خط است. در این نوع از متن‏کاوی به نظر می‏رسد که اطلاعات جدیدی از متن به دست ندهد به این دلیل که خود نویسنده احتمالا می‏دانسته است که چه چیزی می‏خواسته بگوید و خلاصه ی نوشته‏های او اطلاعات جدیدی را اضافه نمی‏کند. اگرچه این کار می‏تواند بررسی محتویات را برای کاربران ساده‏تر کند و آن‏ها را در مسیر رسیدن به آنچه نیاز دارند ، سرعت دهد.

استخراج روابط : از جمله واقعیت هایی که می توان از یک مجموعه ی متون دریافت ، ارتباط و وابستگی برخی مفاهیم با مفاهیم دیگر است. این واقعیات به طور مثال می تواند بیانگر این باشد که ممکن است پدیدار شدن بعضی کلمات به ظاهر شدن بعضی دیگر از کلمات وابسته باشد. منظور این است که هرگاه مجموعه ی اول کلمات مشاهده شود ، می توان انتظار داشت که مجموعه ی دوم لغات نیز مشاهده شود. این مفهوم نیز از داده‏کاوی در پایگاه داده‏ها به امانت گرفته شده است. (قوانین وابستگی)

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


یافتن و تحلیل روند ها : فرض کنید که شما مدیر یک شرکت تجاری هستید. مشخصا شما باید همواره چشمی بر فعالیت های رقیبتان داشته باشید. این امر می تواند هر نوع اطلاعاتی باشد که شما از اخبار ، معاملات بورس و یا از مستندات تولید شده توسط همان شرکت رقیب گرفته اید.

با توجه به اینکه در حال حاضر که اطلاعات به طور فزاینده ای در حال افزایش است ، مدیریت تمام این منابع داده ای قطعا تنها به کمک چشمانتان ممکن نیست. متن‏کاوی به شما این اجازه را می دهد که به طور اتوماتیک روندها و تغییرات جدید را بیابید. در واقع آنچه اصولا باید از متن‏کاوی انتظار برود این است که به شما بگوید چه اخباری در میان گستره ای از اخبار به آنچه می‏خواهید مرتبط است و در این میان کدام خبر جدید است ، چه پیشرفت هایی در زمینه ی کاری شما صورت می گیرد و علایق و روندهای فعلی چگونه است و با چه روندی تغییر می‏کند. با استفاده از این اطلاعات ، مدیر تنها از اطلاعات کشف شده برای بررسی وضعیت رقیب می تواند سود جوید.

برچسب زدن نحوی[۶۵] : اگرچه تعداد زیادی معتقد به این نیستند که این کار جزئی از متن‏کاوی است ، ولی برای مثال سیستمی به نام GATE [66] در دانشگاه شفیلد در یک کتابخانه ی دیجیتال به این قصد نصب شده است. GATE شامل ابزارهایی برای برچسب زدن جملات است. برای مثال این سیستم می‏تواند در داخل یک متن ، نام موقعیت جغرافیایی ، نام اشخاص و چیزهایی شبیه این را بیابد. به این خاطر این سیستم بیشتر شامل استخراج اطلاعات است تا استخراج دانش. در عین حال POS  اغلب نقش بزرگی را در پردازش زبان‏های طبیعی بازی می‏کند. در حقیقت این اولین قدم در پردازش زبان طبیعی است و پردازش زبان طبیعی یکی از پایه های متن‏کاوی است.

فرایند متن‏کاوی

متن‏کاوی فرایندی است که شامل فیلدهای تکنولوژیکی فراوانی است. بازیابی اطلاعات ، داده‏کاوی ، هوش مصنوعی ، آمار و زبان شناسی محاسباتی همه فیلدهایی هستند که در این زمینه نقشی را دارا هستند. اما به طور کلی دو فاز اصلی در فرایند متن‏کاوی وجود دارد که در شکل زیر نشان داده شده است.

اولین فاز ، پیش پردازش مستندات است. خروجی نخستین فاز می تواند دو قالب مختلف داشه باشد ، مبتنی بر سند و مبتنی بر مفهوم. در اولین شکل نمایش ، آن چه برای ما مهم است نحوه ی نمایش بهتر برای مستندات است. این امر می تواند تبدیل آن‏ها به یک فرمت میانی و نیمه‏ساخت‏یافته باشد یا به کار بردن یک علامت بر روی آن یا هر نوع نمایش دیگری که کار کردن با مستند را کاراتر می‏کند. در این حال هر موجودیت در این نمایش در نهایت باز هم یک مستند خواهد بود. در نوع دوم بهبودبخشی به نمایش مستند ، مفاهیم و معانی موجود در سند و نیز ارتباط میان آن‏ها و هر نوع اطلاعات مفهومی دیگری که قابل استخراج است ، از متن استخراج می‏شود. در این نوع نمایش دیگر با مستندات به عنوان یک موجودیت مواجه نیستیم ، بلکه با مفاهیمی روبرو هستیم که از این مستندات استخراج شده اند. قدم بعدی استخراج دانش از این فرم های میانی نمایش مستندات است. بسته به نحوه‏ی نمایش یک مستند ، روال استخراج دانش برای یک مستند متفاوت است. نمایش مبتنی بر مستند برای خوشه‏بندی ، رده بندی ، تصویرگری و نظایر آن استفاده می‏شود ، در حالی که نمایش مبتنی بر مفهوم برای یافتن روابط میان مفاهیم ، ساختن اتوماتیک تزاروس[۶۷] و آنتولوژی[۶۸] و نظایر آن به کار می رود.

روش های متن‏کاوی

تعداد زیادی روش در فاز استخراج دانش وجود دارد. در عین حال تمام این روش ها را شاید بتوان به دو دسته ی اصلی تقسیم کرد. این دو دسته ی اصلی ، روش های مبتنی بر کارایی و روش های مبتنی بر دانش هستند. در روش اول ، طراحان نگران کارایی سیستم هستند و طوری سیستم را طراحی می‏کنند که بهترین کارایی و سرعت را داشته باشد. روش‏های رایج‏تر در این نوع نگرش ، روش‏های آماری و شبکه‏های عصبی هستند. روش های آماری بر پایه ی هر نوع اطلاعات آماری است که از متون قابل استخراج است ، مواردی چون تکرار لغات به تنهایی ، تکرار لغات با هم و چیزهایی شبیه آن. در سوی دیگر روش های مبتنی بر دانش قرار دارند که از زاویه ی دید دیگری به این مساله نگاه می‏کنند. آن‏ها سعی می‏کنند اولا تا حد ممکن مفاهیم موجود را از داخل مجموعه‏ی متون استخراج کنند و ثانیا بین این مفاهیم روابطی برقرار کنند. استفاده از این روش بسیار وابسته به NLP است. در حقیقت این هدفی است که NLP نیز آن را دنبال می‏کند و آن درک متن است. سیستم‏هایی که از این روش ها در حال حاضر استفاده می‏کنند زیاد نیستند.

وب کاوی

وب کاوی عبارت است از کاوش در داده‏های مربوط  به وب. این کاوش ممکن است داده‏های موجود در صفحات وب یا داده‏های مربوط به کار و فعالیت وب باشد. داده‏های وب را می توان این گونه طبقه بندی کرد : محتوای صفحات وب ، ساختار میان صفحه ای شامل کد HTML یا کد XML برای هر صفحه ، داده‏های ساختار میان صفحه ای به عنوان یک بافت ارتباطی میان صفحات وب ، داده‏های کاربردی که نحوه ی دستیابی بازدیدکنندگان به صفحات وب را تشریح می‏کند و داده‏های مشخصات کاربران شامل اطلاعات آماری و ثبت نام که از آن‏ها دریافت می گردد. وب‏کاوی فراتر از فناوری IR حرکت می‏کند. طبقه بندی وب‏کاوی در شکل زیر نشان داده شده است.

طبقه‏بندی وب‏کاوی

نتیجه‏گیری

اگرچه وجود میزان فوق العاده زیاد داده‏های ذخیره شده در فایل های پایگاه های داده و دیگر مخازن اطلاعاتی ، توسعه ی وسایلی قدرتمند برای تجزیه و تحلیل و شاید تفسیر آن‏ها و همچنین استخراج دانشی که بتواند به تصمیم‏گیری مدیران کمک کند را طلب می‏کند ، تا حد زیادی با به کارگیری داده‏کاوی به نتیجه می رسد ، اما برای پوشش دادن محدودیت های آن باید روش های دیگر را نیز همراه آن به کار گرفت. و در نهایت

* داده‏کاوی یک وسیله است نه یک عصای سحر آمیز

* داده‏کاوی نمی تواند داده‏های مورد نیاز ما را تولید کند.

* داده‏کاوی نمی تواند الگوهای مهم موجود در داده‏ها را به طور خودکار مشخص کند.

* حل مسائل داده‏کاوی نیاز به درک داده‏ها و معلومات در آن زمینه ی خاص دارد.

* تصمیم‏گیری فقط با توجه به نتیجه ی داده‏کاوی عاقلانه نیست.

* روابط پیشگویی حاصل از داده‏کاوی لزوما علت یک پدیده یا رفتار نیست.

منابع

مینایی ، بهروز ؛ «داده‏کاوی ؛ نگاهی کوتاه به اصول و کاربردها ؛ آنچه در زیر پنهان است» ؛ ماهنامه‏ی تحلیلگران عصر اطلاعات ؛ سال دوم ، شماره‏ی یازدهم ، خرداد ۱۳۸۷

قاضی طباطبایی ، محمود ؛ «اکتشاف دانش و داده‏کاوی در پژوهش‏های کمی و کیفی» ؛ فصلنامه‏ی مطالعات اجتماعی ایران ؛ دوره‏ی سوم ، شماره‏ی چهارم ، زمستان ۱۳۸۸

زین العابدین ، نرگس ؛ «داده‏کاوی و اکتشاف دانش» ؛ ماهنامه‏ی کارآفرین ناب ؛ سال سوم ، شماره‏ی نوزدهم ؛ مهر و آبان ۱۳۹۰

شهابی ، بهنام ؛ «داده‏کاوی در بستر یادگیری الکترونیکی» ؛ مجله‏ی مدیریت ؛ شماره‏ی ۱۰۵ و ۱۰۶ ، سال ۱۳۸۴

مفاخری ، ندا ؛ «داده‏کاوی و کاربردهای آن» ؛ مدیران ایران ؛ شهریور ماه ۱۳۹۰

بهرامی جم ، سحر ؛ «آشنایی با مفاهیم فناوری تحلیل داده‏ها (OLAP)» ؛ ۱۳۸۸

مشکانی ، علی ؛ ناظمی ، عبدالرضا ؛ «مقدمه ای بر داده‏کاوی» ؛ انتشارات دانشگاه فردوسی ؛ ۱۳۸۸

شهرابی ، جمال ؛ «داده‏کاوی» ؛ انتشارات جهاد دانشگاهی ؛ ۱۳۸۶

کارگاه تخصصی آموزش داده‏کاوی و کاربردهای آن در Comex 2010

ششمین کنفرانس داده کاوی ایران

Ramakrishnan , Raghu ; Gehrke , Johannes ; “Database Management Systems” ; McGraw-Hill Science ; 2002

۱٫ DataMining

۲٫ Knowledge Discovery in Database (KDD)

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


۳٫ Machine Learning

۱٫ G.Piatetsky-Shapiro

۲٫ Usama Fayyad

۳٫ Database

۱٫ Data , Information , Knowledge

۲٫ Classic Statistics

۳٫ Artificial Intelligence

۱٫ Computer Science

۲٫ Secondary Data

۱٫ Knowledge Extraction

۲٫ Information Discovery

۳٫ Information Harvesting

۴٫ Data Archeology

۱٫ Data Cleaning

۲٫ Data Integration

۳٫ Data Selection

۴٫ Data Transformation

۵٫ Pattern Evaluation

۶٫ Knowledge Presentation

۱٫ Data Warehouse

۲٫ Server

۳٫ Knowledge Base

۴٫ DataMining Engine

۵٫ Graphical User Interface

۱٫ مجموعه ای از داده‏ها که عملیات کاوش روی آن صورت می‏گیرد.

۲٫ Simplicity

۳٫ Certainty

۴٫ Utility

۵٫ Directed and Undirected

۱٫ Classification

۲٫ Categorizition

۳٫ Ranking

۴٫ Nearest Neighbor

۵٫ Estimation

۶٫ Threshold

۱٫ Prediction

۲٫ Affinity Grouping , Association Rules

۳٫ Market Basket Analysis

۴٫ Clustering

۱٫ Profiling

۲٫ Online Transaction Processing

۱٫ Data Cube

۲٫ Snow Flake

۳٫ Dimension

۱٫ Views

۲٫ Decision Support Systems

۳٫ Bill Inmon

۴٫ Subject Oriented

۵٫ Integrated

۶٫ Time Variant

۷٫ Update

۱٫ Nonvolatile

۱٫ Neural Network

۲٫ Rumelhart and McClelland

۱٫ Decision Tree

۱٫ Text Mining

۲٫ Text Data Mining

۳٫ Knowledge Discovery in Text (KDT)

۱٫ Information Retrieval

۲٫ Information Extraction

۳٫ Question Answering System

۴٫ Natural Language Processing (NLP)

۱٫ Part of Speech Tagging (POS)

۲٫ General Architecture for Text Engineering

۱٫ (Thesaurus) مجموعه ای از لغات به اضافه ی تعاریفشان و رابطه ی میان آن‏ها

انجام پروژه داده کاوی با وکا (weka)

ژوئن 29, 2019 , admin    , پیغام بگذارید   
انجام پروژه های داده کاوی (data mining) ومشاوره پروژه های داده کاوی و انجام پایانامه داده کاوی و طرح های تحقیقاتی با وکا (weka) با کارشناسان و متخصصان
ای زد سافت انجام پروژه های داده کاوی با weka خدمت شما خواهند بود .
سرویس ها ما در زمینه داده کاوی (data mining)

    انجام پروژه های تجاری داده کاوی
    مشاوره پروژه و پایانامه های داده کاوی وانچام پروژه های داده کاوی
    انجام پروژه های  داده کاوی کارهای تحقیقاتی وسیستم فروش و بازاریابی
    پیاده سازی مقالات و پانامه های مربوط به سیستم های تشخص هک و نفوذ با استفاده از روش های داده کاوی
    مشاور انجام پایان نامه و پروژه های سیستم های تشخیص نفوذ با استفاده از داده کاوی
    مشاوره و انجام مقالات وپروژه ها و پایانامه در سگمنت (بخش بندی) داده
    مشاره پایانامه های دانشجویی داده کاوی (دیتا ماینینگ)
    مشاوره انجام پروژه های داده کاوی و مشاوره پایانامه داده کاوی امنیت داده ها و شبکه داده کاوی
    مشاوره و تحلیل پروژه های مربوط به دارو سازی داده کاوی
    مشاوره وپیاده سازی پروژه های دانشجویی داده کاوی
    مشاوره و پیاده سازی پروژه های تجاری واداری داده کاوی
    پیاده سازی ومشاوره پروژه های داده کاوی و یادگیری ماشین وتشخیص الگو
    موضوعاع داده کاوی و پروژه های مربتط داده کاوی موضوعات پایانامه داده کاوی
    موضوع پایان نامه داده کاوی
    موضوعات داده کاوی مرتبط با شبکه های کامپیوتری
    موضوعات داده کاوی مرتبط با شبکه های اجتماعی

معرفی محیط سافت ور (برنامه ) داده کاوی وکا (weka)

معرفی امکانات نرم افزار داده کاوی وکا (weka)

نرم افزار وکا از قسمت های مختلفی تشکیل شده شمال خواندن انواع داده ها با فرمت های مختلف -الگوریتمهای پیاده سازی شده -انترفیس (رابط کاربری قوی)-روش پیش پردازش داده ها-روشهای ارزیابی نتایج الگوریتم های مختلف-متدهای مصور سازی داده ها-امکان پیاده سازی انواع الگوریتم های داده کاوی با زبان برنامه نویسی جاوا با پلت فرم وکا وامکانات متعددی که نرم افزار وکا فراهم کرده است که در زیر بصورت کامل اشاره خواهیم کرد .
معرفی نرم افزار داده کاوی weka (وکا)

نرم افزار های مختلفی در زمینه داده کاوی و یادگیری ماشین تولید شده است .نرم افزاهای مختلف زمانی قابل مقایسه است که تنوع و ورود داده ها با فرمت های مختلف والگوریتم های مختلف پیاده سازی شده وانترفیس کاربری و روش های تحلیل ومقایسه نتایج الگوریتم ها و روش های پیش پردازش داده ها وبستر ه فراهم شده برای اجرای برنامه وقیمت آن در دسترس بودن انجام گرفته باشد.نرم افزار داده کاوی وکا (weka) با رابط کاربری آسان و تعداد زیاد الگوریتم های پیاده سازی شده وقابلیت مقایسه نتایج الگوریتم ها وراهنمای خوب کارایی بیشتری با

weka

در نرم افزار داده کاوی وکا محوعه از الگوریتم های داده کاوی بصورت آماده برای دسترسی بهتر در اختیار کاربران می گذارد.

نرم افزار وکا (weka ) مجموعه از ابزارهای پیش پردازش داده ها ومجوعه از روش های آماری ویادگیری ماشین وروش های ارزیابی انها ونمایش گرافیکی داده های ورودی را فراهم می کند.

نرم افزار وکا دانشگاه ویکاتو در نیوزلند ایجاد و پیشرفت داده شدو اسمه خودرا از جمله

“Waikato Environment for knowledge Analysis ” بر گرفته است .

همچنین وکا اسمه نوعی پرنده است که بی پرواز است و در نیوزلند زیست می کند.برنامه وکا داده کاوی به زبان برنامه نویسی جاوا نوشته شده است بر اساس لایسنس gnu منتشر یافته است .نرم افزار داده کاوی وکا بر روی سیستم عاملهای مختلف اجرا می گردد.

این نرم افزار رابط گرافیکی  همسان را برای همه الگوریتم ها فراهم کرده است که از طریق این رابط گرافیکی  همه اعمال پیش پردازش و پس پردازش وروش های ارزیابی رو انجام داد.

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


نرم افزار داده کاوی وکا الگوریتم های مختلف لرنینگ ماشین رو بصورت پیش فرض داردو به راحتی می توان به آن مجموعه از داده ها رو تست کرد.

این نرم افزار داده کاوی ابزار های متفاوتی را برای تبدیل داده با یکدیگر همانند گسسته سازی فراهم می آورد .

نرم افزار وکا روش های داده کاوی نظیر کلاسبندی – خوشه بندی-رگرسیون -شبکه های عصبی -درخت تصمیم -بردار پشتیبان وقواعد انجمنی را فرام می آورد .همه الگوریتم ها داده ها را در فرمت arff  دریافت می کند .
برنامه داده کاوی  دارای چهار واسط کاربری هست:

explorer :متدهای متفاوت پیش پردازش داده وآماده سازی ومبدل های انواع دیتا رو فراهم می کندوهمچنین دسترسی به تمام امکانات وکا را فراهم میکند.از تب های این قسمت بصورت زیر است :

preprocess:در این قسمت میتوان مجموعه از پیش پردازش داده ها مثله تعیین نوع داده ها و تبدیل داده ها و نحوه توزیغ داده هر ویژگی مشاهده کرد .

classify:در این قسمت مجوعه از الگوریتم های یادگیری  که کلاسبندی و رگرسیون را انجام می دههند وجود دارد.

cluster :مجوعه از الگوریتم های که برای خوشه بندی استفاده می شود قرار دارد .

associate:الگوریتم های که برای ایجاد قوانین انجمی استفاده می شود قرار دارد.

select attribute: مجموعه از روشهایی که برای انتخاب وتبدیل داده ها وجود دارد استفاده می شود .

Experimenter:این قسمت برای اجرای الگوریتم های مختلف کلاسبندی بصورت موازی استفاده می شود .تمام معیار های مقایسه مورد نظر برای ارزیابی ومقایسه در در این قسمت قرار دارد از جمله می توان آزمون T اشاره کرد و با ساده تر کردن پارامترهای کلاسبندی وتبدیل داده ها می توان کارها بصورت اتوماتیک در این قسمت انجام داد.

Knowledge Flow:دراین قسمت یک انترفیس ساده گرافیکی است که می توان

دیتا رو کنترل کرد.ترتیبی را برای پردازش داده در حال جریان طراحی کرد .

workbench :

در این قسمت نیز  ابزار های پیش پردازش داده هاوتبدیل انواع داده به یکدیگر وجود دارد .

weka soft ware

الگوریتم های که بصورت پیش فرض در محیط وکا پیاده سازی شده استالگوریتم های یادگیری ماشین :شبکه عصبی(neural network)-درخت تصمیم(descision tree) -بردار پشتیبان (svm)-
بصورت زیر میتوان الگوریتم های پیاده سازی شده در محیط وکا تقسیم بندی کرد

الگوریتم های تبدیل داده ها که در  مراحل پیش پردازش داده ها استفاده می شود:

    تبدیل داده های عددی (گسسته سازی)به داده های اسمی یا ترتیبی بصورت
    تبدیل داده های عددی (گسسته سازی)به داده های ترتیبی بصورت هوشمند وغیر هوشمند
    جایگزینی برای miss value (داده های از دست رفته) با الگوریتم های هوشمند
    متدهای مختلف برای مرج داده ها
    روش‌های مختلف برای ادغام مقادیر مختلف متغیرهای گسسته
    یافتن داده های پرت با استفاده از روش های مختلف
    کاش تعداد ستون های (بعد) داده ها برای کاهش حجم محاسبات با تبدیل خطی و واولیت موجک)

خوشه‌بندی که در نرم افزار وکا وجود دارد:

انواع روش های خوشه بندی در نرم افزار داده کاوی وکا وجود دارد

    روش خوشه بندی  بالا به پایین (سلسله مراتبی-

(Hierarchical Clusterin)

    روش های مبتی بر شبه دایره (خوشه بندی kmeans)
    روش‌های برپایه توزیع احتمالی مانند EM
    روش‌های بر پایه چگالی: DBSCAN و OPTICS

روش هایی که برای تولید قوانین انجمنی در نرم افزار داده کاوی وکا

(weka)وجود دارد :

    روش ترتیبی قوانین انجمنی(Sequential Pattern Discover)
    روش‌های (FP-Growth Algorithm)
    روش اپریوپوری (Apriori)

روش های هایی که در مورد الگوریتم های کلاسبندی وجود دارد

روش بر اساس احتمالا بیز:بیزین ساده (bayes net )و بیزین نوی (naive beyes)

شبکه های عصبی (neural network):شبکه عصبی بردار پشتیبان (som-svm)-شبکه عصبی چند لایه (multi player neural network)

رگرسیون (regression ) :رگرسیون خطی -رگرسیون لاجسیتگ (regresion logistic )-

درخت تصمیم :c.45-id3-randomforest-random tree

روش‌های برپایه قانون:تیبل های تصمیم (ایجاد قانونها بر اساس یک ویژگی )

 

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


weka environs
مزایایه نرم افزار داده کاوی وکا (weka )

    ابزارهای آماده زیاد برای آماده سازی داده ها ومتدهای انتخاب ویژگی به صورت متحد
    پشتیبانی از الگوریتم های زیاد داده کاوی
    پشتیبانی از روش های متفاوت ارزیابی و مقایسه نتایج الگوریتم های کلاسبندی
    رابط گرافیکی آسان  وقدرتمند در اجرای الگوریتم داده کاوی مورد نظر

عیب های نرم افزار داده کاوی وکا (weka)

    زمان زیاد برای اجرای بعضی از الگوریتم ها
    منابع محدود در راهنمای نرم افزار
    کامل نبودن روش های خوشه بندی (clustering)وقوانین انجمنی (assocate rule)

 

نوشته شده درdatamining(داده کاوی ), سرویس ها. Tagged as WEKA, انجام پروژه weka, انجام پروژه داده کاوی, انجام پروژه داده کاوی وکا, انجام پروژه های داده کاوی, انجام پروژه وکا, پروژ های وکا, پروژه weka, پروژه آماده weka, پروژه آماده وکا, پروژه داده کاوی با weka, پروژه های وکا, پروژه وکا, داده کاوی, نرم افزار وکا, وکا

09367292276
azsoftir@gmail.com
azsoftir.com
09367292276azsoftir@gmail.com

azsoftir.com

09367292276
azsoftir@gmail.com

azsoftir.com

09367292276


۲٫ (Anthology) تزاروسی که در آن تمام ارتباطات میان لغات مشخص شده باش
پروژه داده کاوی، الگوریتم های داده کاوی،مقاله داده کاوی،داده کاوی در شبکه های اجتماعی،داده کاوی در بانکداری،پایان نامه داده کاوی،کاربردهای داده کاوی،کتاب داده کاوی،داده کاوی در مدیریت ارتباط با مشتری، داده کاوی در متلب، داده کاوی در تجارت الکترونیک، داده کاوی در وب، داده کاوی ،داده کاوی چیست، تز داده کاوی ، بیگ دیتا، داده کاوی ،بیگ دیتا، داده کاوی با سلمنتین،داده کاوی

مطالب مرتبط
ارسال نظر برای این مطلب

کد امنیتی رفرش
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • آمار سایت
  • کل مطالب : 20
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 0
  • آی پی امروز : 12
  • آی پی دیروز : 6
  • بازدید امروز : 26
  • باردید دیروز : 8
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 56
  • بازدید ماه : 154
  • بازدید سال : 908
  • بازدید کلی : 3,762