استادیار گروه مدیریت فناوری اطلاعات، دانشکده مدیریت دانشگاه خوارزمی، تهران، ایران
دانشجوی کارشناسی ارشد مهندسی دانش و علوم تصمیم، دانشکده مدیریت، دانشگاه خوارزمی، تهران، ایران
استادیار گروه مدیریت فناوری اطلاعات، دانشکده مدیریت دانشگاه خوارزمی، تهران، ایران

تاریخ دریافت مقاله: 25/03/1395
تاریخ پذیرش نهایی مقاله: 07/12/1395 نویسنده مسئول مقاله: سید امیر رضا ابطحی E-mail: [email protected]
مقدمه
بحث فریبکاری به منظور منافع فردی در بازارهای سرمایه، همواره مطرح است و شـدت و ضـعفآن در بازارهای مختلف با توجه به بهره مند ی آنها از قوانین مناسـب ضـد دسـتکاری و ابزارهـاینظارتی، تفاوت دارد (مدیریت مطالعات اقتصادی و برنامه ریزی و آموزش شـرکت بـورس کـالایایران، 1391 )؛ این موضوع در بازار قراردادهای آتی نیز مشاهده می شود. اگر بازار بـورس کـاراییلازم در انجام کارکردهای خود را نداشته نباشد، اخـتلالات عمـده ای در سـطوح اقتصـاد ملـی وفراملی ایجاد خواهد کرد. در این میان، افرادی بدون رعایت اخلاق در معـاملات، جریـان واقعـیعرضه و تقاضا را منحرف می کنند و با فریب دیگران زمینه کسب سود خود را فـراهم مـی آورنـد .
مقابله با این اعمال، به شناسایی و پیشگیری کارشناسان نظارت بر بازار بورس نیاز دارد.

آمار معاملات قراردادهای آتی در ایران، نشان می دهد حجم و ارزش این معاملات هـر سـال نسبت به سال قبل افزایش بسیار چشمگیری را تجربه کرده اسـت . نـاظران نیـز بـرای بررسـی ، افزون بر روش هایی چون بایگانی و کنترل اسناد مربوط به قراردادها، نظارت بر اخبار منتشر شـده و سیستم نظارت، از برنامه های نرم افزاری نیز استفاده می کننـد (مـدیریت مطالعـات اقتصـادی وبرنامه ریزی و آموزش شرکت بورس کالای ایـران، 1391). نـاظران پـس از آگـاهی از معـاملاتمشکوک، برای اطمینان، سابقه داد و ستدها را بررسی می کنند. در حال حاضر نرم افزارهـایی کـه برای این کار استفاده می شوند، با ضعف هایی مانند نادیده انگاشتن وابستگی بین متغیر ها و روابـط علیّ بین ویژگی های تراکنش های روزانه و استدلال های احتمالی مواجـه انـد . البتـه بـا توجـه بـه سـرعت رو بـه رشـد بـازار بـورس، فریبکـاری در رفتـار معـاملاتی متنـوع اسـت و بـا توجـه بـه تخصصی بودن بحث، در این پژوهش صرفاً به حرکت القایی در معاملات قراردادهای آتـی سـکهدر بورس کالای ایران پرداخته می شود. از آنجا که پراکندگی دادههای بورس متنـوع و همچنـین
توزیع دادههای مثبت و منفی بین مجموعه دادهها نامتوازن است، باید به دنبال آن بود تا راهکـار مناسبی برای کشف الگوهای پنهان و ضمنی پیدا کرد. انجام این کـار در بسـتر کشـف دانـش ازروی داده ها امکان پذیر است. پس از مطالعه در زمینه رفتار القایی، مدلی ارائه شد که شرایط زیـررا محقق ساخته است:
روابط بین متغیرها و میزان تأثیر هر یک از آنها را بر یکدیگر مشخص میکند؛
توانایی استدلال ها و استنباط های احتمالی را دارد؛
می تواند پس از آموزش و یادگیری، به عنوان تصمیم گیرنده ای مطمئن افراد مشکوک را از سالم تفکیک کند.
بنابراین، پژوهش حاضر در پی پاسخ به این سؤال است که چگونه می توان سیستمی طراحـیکرد که به کمک آن از وقوع تقلب در رفتارهای القاییِ معاملات بورس کالا جلوگیری کرد؟ پیشینه نظری پژوهش
طبقه بندی عبارت است از تخصیص رکوردها یا هر مجموعه ای از اشیا به مجموعـ ه مشخصـی ازطبقهها (دسته ها) (میتشل، 1997: 198). همان گونه که گفته شد، در این مقاله به دنبـال طراحـیسیستمی برای شناسایی احتمال وقوع رفتارهای القایی و طبقه بندی مشتریان روزانه بورس به دو دسته افراد سالم و متخلفّ هستیم. قبل از پرداختن بـه روش اجـرای پـژوهش ، ابتـدا لازم اسـتدرباره مفاهیم کلیدی تحقیق همچـون، شـبکه هـای بیـزی، خوشـه بنـدی و قـرارداد آتـی شـرحمختصری بیان شود.
شبکه های بیزی
شبکه بیزی، نوعی ساختار گرافیکی (GMs)1 است که امکان بیان و استدلال درباره حوزه ای غیر قطعی را میسر میکند. اساس روش یادشده بر این اصل استوار است که برای هر کمیت، یک توزیع احتمال وجود دارد و با مشاهده داده جدید و استدلال درباره توزیع احتمال آن، می توان تصمیمات بهینه ای اتخاذ کرد (میتشل، 1997). از نظر گرافیکی، این شبکه ها گراف های جهت دار بدون دور هستند، مجموعه متناهی (, … , X 1 ) نشان دهنده رأسهای گراف است و در واقع همان متغیرهای فضای مس ئلهاند. ساختار شبکه بیزی باید رابطه کیفی بین متغیرها را به درستی نشان دهد. به دلیل برقراری حالت مارکوف در شبکه های بیزی، توزیع احتمال توأم این شبکهها به صورت زیر محاسبه میشود:
رابطه 1) (|Π)= (,…,)
در رابطه 1، Π نشـان دهنـده گـرههـای والـدگره در شـبکه اسـت (هکـرمن، گیگـر وچیکرینگ، 1995).
در شبکه های بیزی مفهومی با عنوان یادگیری وجود دارد. یادگیری، فرایند ها و تکنیک هـاییرا دربرمی گیرد که یک شبکه با استفاده از آنها، به صورت خودکار میتواند ایجاد شـود و عملکـرد
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Graphical Models
خود را بهبود بخشد. در شبکه های بیزی یادگیری به دو صورت کلی ساختاری و پارامتری انجـاممی پذیرد:
یادگیری ساختاری: این شیوه یادگیری به دنبال پیدا کردن ساختار بهینه برای شبکه بیزی مد نظر، از نظر موقعیت گره ها و روابط کیفی آنها با یکدیگر توسط یال های جهت دار است. ایـنکار در دو مرحله کلی جست وجو در فضای نمونه مدل های علّی و جست وجـو بـرای یـاف تن معیارهای قابل قبول برای ارزشیابی شبکه ها انجام می پذیرد.
یادگیری پارامتری: در این شیوه، از نمونهها برای برآورد پارامترها (توزیع احتمـال شـرطی)1 استفاده می شود (نیلسن و جنسن، 2009: 57). به طور کلی، دادهها را می تـوان بـه دو دسـته داده های کامل2 و دادهه ای ناکامل3 دسته بندی کرد و بـرای هر یـک بـه بـرآورد پـارامتر هـاپرداخت (جدول 1)
جدول 1. انواع داده ها و ساختار های شبکه
ساختار نا معلوم ساختار معلوم مدل
بهینه سازی روی ساختار4 برآورد پارامترهای آماری داده های کامل
روش های ترکیبی5 بهینه سازی پارامتر ها داده های ناکامل
با توجه به مسئله بررسی شده، بـرای یـادگیری پـارامتری شـبکه بـا حالـت سـاختار معلـوم وداده های کامل مواجهایم.
استنتاج در شبکههای بیزی

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

در اغلب سیستمهای هوشمند نیاز است که براساس تعدادی از مشاهدات، احتمـال وقـوع رویـدادبرآورد شود. در سیستم های دستهبندی، احتمال عضویت یک شیء در هر یک از دستهها، براساس ویژگیهای شیء مد نظر مشخص می شود. به فرایند پاسخ به این درخواستهـا، اسـتنتاج6 گفتـه میشود، هر فرایند استنتاج به داده های قلمرویی7 نیاز دارد که قصـد کنتـرل عـدم قطعیـت آن را
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Conditional Probabilities Distribution (CPD)
Complete Data
Incomplete Data
Optimization over structure
Combined
Inference
Domain
داریم. استنتاج در شبکه هـای بیـزی بـه دو نـوع اسـتنتاج در سـاختار و اسـتنتاج در پارامترهـای احتمالاتی دسته بندی میشود (نیلسن و جنسن، 2009: 120).
الگوی طبقه بندی بیزی ساده
یکی از روش های بسیار کاربردی در یادگیری بیزی، روش یادگیرنده ساده بیزی است که عمومـاً روش طبقه بندی ساده بیزی نامیده میشود.
طبقه بندی ساده بیزی برای مسائلی کاربرد دارد که هر نمونه x در آن توسـط مجموعـه ای از مقادیر صفات و تابع هدف () از مجموعهای ماننـد انتخـاب مـی شـود. روش بیـزی بـرایطبقه بندی نمونه جدید، محتمل ترین طبقه یا مقدار هدف را بـا داشـتن مقـادیر صـفات >,…,2,1< که توصیف کننده نمونه جدید اسـت ، شناسـایی مـی کنـد (بـاربر، 2010:
.(102
= arg|,, … , (2 رابطه
خوشه بندی کا – میانگین1
در سال 1975 هارتیگان برای اولین بـار الگـوریتم کـا ــ میـانگین را ارائـه داد و در سـال 1979 به کمک ونگ تغییراتی در آن ایجاد کرد و اکنون متداول ترین ابزار خوشه بنـدی اسـتفاده شـده در کاربردهای صنعتی و علمی است. در این روش، خوشه ها با مراکزشان که معمولاً میـانگین نقـاط درون یک خوشه است، بیان می شوند. در این روش فاصله هر نقطه تا مرکز آن خوشه، به عنـوان تابع هدف در نظر گرفته می شود. فاصله می تواند تعاریف مختلف و گسترده ای را شامل شود. هـر نقطه به خوشه ای تعلق دارد که به مرکز جرم آن نزدیک تر است. در این روش تعداد خوشه ها (K) باید مشخص باشد. کلیت الگوریتم به صورت زیر است:
انتخاب K نقطه به عنوان مراکز اولی ه خوشه ها؛
تخصیص هر نقطه به خوشه ای که به مرکز آن خوشه نزدیک تر است؛
محاسبه مجدد مراکز خوشه ها تا جایی که تکرار مراحل یادشده، تغییری در خوشه هـا و مراکز آنها ایجاد نکند.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. K-Means
قرارداد آتی
قراردادی است که می توان به عنوان شرط ضمن عقـد لازم معاملـه سـ لف آورد و بـه موجـب آن، عرضه کننده کالا (فروشنده) هنگام معامله سلف به مقدار وجه دریافتی، تعهد می کنـد کـه مقـدارمعینی از همان کالا با مشخصات منطبق بر استاندارد بورس را در زمان معین و با قیمت مشخص به طرف قرارداد تحویل دهد و خریدار نیز تعهد خرید می دهد. هر طرفی که از انجام تعهد تخلـفکند، باید مبلغ معینی به طرف دیگر بپردازد (شرکت بورس کالای ایران، 1386).
پیشینه تجربی
مطالعات مختلفی در زمینه پیش بینی دستکاری قیمت، معاملات کلاه برداری1 و لایه بندی2 انجـامشده است. برخی از این مطالعات به شرح زیر است:
مادا و فردوسی (2006) برای تشخیص رفتار نامعمول معـاملاتی، الگـوریتم تشـخیص تقلـب بدون ناظر برای دادههای سری زمانی را ارائه کردند و با اعمال روش بـدون نـاظر تحلیـل گـروههمسان، عملکرد زیادی را از روش پیشنهادی خود گزارش کردند .
فرانک، هوزر و اسکرودر (2008) با هدف تحلیل رفتار معاملاتی نامنظم در بازار سهام، روشی را طراحی و اجرا کردند که در آن سه گـام اصـلی تشـکیل گـراف نمـایش دهنـده تجـارت بـین سرمایه گذاران و تاجران، تشکیل ماتریس همجواری هرمیتـی و تحلیـل نهـایی بـر اسـاس روش تحلیل سیستم ویژه3 وجود داشت. مزیت مهم این پـژوهش ، تشـخیص نـوع خاصـی از تقلـب در معاملات با دقت زیاد است.
چن و همکارانش در مقاله ای با عنـوان »تشـخیص داده هـای پـرت مجـاور«، الگـوریتمی رابر مبنای ترکیب روش های محاسبات گرانول و الگوریتم تشخیص داده های پرت، پیشنهاد کردنـد . این الگوریتم عملکرد بهتری نسبت به روشهای نزدیک ترین همسایه کا ـ ام4، الگوریتم تشخیص دادههای پرت مبتنی بر فاصله5 و شبکه های عصبی تکرار شونده،6 برای مجموعه داده های مختلط داشت (چن، میائو و ژانگ، 2010).
فلاح شمس و کردلوئی (1390) پژوهشی با عنوان »آزمون مدل های لاجیت و شبکه عصـبی مصنوعی برای پیش بینی دستکاری قیمت در بورس اوراق بهادار تهران« انجام دادند. آنها در این
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Spoof Trading
Layering
Eigen System
K- Nearest Neighbor
Distance Based Outlier Detection
Replicator Neural Network
پژوهش به بسط و توسعه روش های مبتنی بر ساختار های شبکه ای و اقتصادسنجی پرداختند و به تشخیص قیمت های دستکاری شده در بورس اوراق بهادار تهران دست یافتند.
در تحقیقی با عنوان »طراحی الگوی پـیش بینـی دسـتکاری قیمـت در بـورس اوراق بهـادار تهران« فلاح شمس، کردلوئی و رشنو (1391) به طبقه بندی و تفکیک گروه ها به منظور پیش بینی دستکاری قیمت ها در بورس اوراق بهادار پرداختند. روش پیشنهادی آنها بر مبنای تحلیل داده های غیر خطی با استفاده از روش آماری تجزیه و تحلیل مؤلفه های اصلی1 و طراحی مدلی با استفاده از مدل ماشین بردار پشتیبان در انجام پیش بینی بوده است .
صفری، حشمتی پور، مهرابـی و نصـابی (1391) در پژوهشـی بـه ارائـه مـدلی بـا اسـتفاده ازروش های ترکیبی نگاشت علیّ و شبکههای بیزی برای تعیین عوامل مؤثر بر به اشـتراک گـذاریاطلاعات در زنجیره تأمین شرکت ایران خودرو پرداختند .
کیم و سان (2012) با استفاده از روش های یادگیری بدون ناظر ـ تحلیل گروه همسان2، برای تشخیص الگوهای مشکوک دستکاری قیمت سهام از سیستم های خبره بهره بردند. پژوهشـگرانتوانستند به بهبود کارایی تحلیل گروه همسان از طریق بهکارگیری اوزان و به هنگـام آوری آ نهـا و تشخیص محلی3 معامله غیر معمول انجام گرفته از طریق الگوهای یاد گرفته به جای مقایسه با کـل جمعیت دست یابند .
وثوق، تقوی فرد و البرزی (1393) در مدلی بر مبنای شبکه عصبی مصنوعی، تراکنش ها را بـهانواع سالم و متقلب طبقه بندی کردند که عملکرد آنها روایی و پایایی زیادی داشت.
پانیامورتی و توپان (2013) پژوهشی را به منظور نظارت و بررسـی بـازار سـهام و مـروری بـربرنامه های کاربردی اجرا کردند. آنان پیاده سازی شبکه عصبی که تعیین و به روز رسـانی اوزان آنمبتنی بر الگوریتم ژنتیک بود را برای روش پژوهش انتخاب کردند. محققان توانستند به نظـارت
بر بازار بورس و طبقهبندی شواهد از نوع تراکنشی برای تشخیص فعالیتهای بالقوه فریبکارانه با استفاده از مدل هیبریدی دست یابند .
لی، اوم و پارک (2013) در مقالـهای بـا عنـوان »دسـتکاری مبتنـی بـر زیـر سـاختار: رفتـاراستراتژیک و معاملهگ ران فریبکار« به تعیین الگوهای عام و خاص معامله گران فریبکار با استفاده از روش های تحلیلی و مبتنی بر زیر ساختار پرداختند.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Principal Component Analysis
Peer Group Analysis
Local
گل محمدی، دایاز و زایان (2014) دستکاری بازار سهام را با استفاده از الگوریتمهای یادگیری با ناظری مانند ماشین های بردار پشتیبان تشخیص دادند. آنها تراکنشهای مشکوک به دسـتکاریدر بازار و عملکرد بهتر شبکه بیـزی سـاده نسـبت بـه سـایر روش هـا را در مقایسـه چنـد روش تشخیصی با یکدیگر گزارش کردند.
اولزوسکی روشی طراحی کرد که در آن ماتریس بهدست آمده از فعالیت های حسـاب کـاربری که چند بعدی است، بـه یـک بـردار تبـدیل مـی شـود؛ سـپس از نگاشـت خودسـازمانده1 بـرای تصویرسازی استفاده می کند و بعد از تصویرسازی با الگوریتم کلاسبندی مبتنـی بـر مقـدار حـدآستانه2، مورد مشکوک و کشف تقلب را تشخیص می دهد. روش ارائه شده به دلیـل ترکیـب روش تصویرسازی دادهها از طریقی مثل نگاشت خودسازمان ده با الگوریتم کلاسهبندی، به نتایج بهتر و رضایت بخشی نسبت به سایر روشها دست یافته است (اولزوسکی، 2014).
یکی از روشهای کشف تقلب متکی بر پایگاه دانش مستخرج از دانش خبرگـان ، اسـتفاده از سیستمهای خبره فازی است؛ تقویفرد و جعفری (1394) در پـژوهش خـود از ایـن مـدل بـرای کشف تقلب در بیمه بدنه خودرو استفاده کردند .
تقوا، منصوری، فیضی (1395) در پژوهشی بـا رویکـرد پـردازش مـوازی و راه حـل نگاشـتکاهش، از نوعی شبکه عصبی مدل کوهنن برای کشف ناهنجاری در تراکنش هـای کـارت هـایبانکی استفاده کردند .
یائو، ژای، کائو و دینگ (2015) چارچوبی برای پیش بینی دستکاری قیمـت ارائـه کردنـد. در این چارچوب بهکمک مدلهای ایستا و پویا، به تعیین الگوهای غیرمعمول تراکنش های معاملاتی بر مبنای روابط بین تراکنش ها و بدون داشتن هیچ فرض اولیه، پرداخته میشود.
مدل مفهومی
فرایند تعیین مشتریان سالم یا متخلف بازار در هر روز، بسیار پیچیده و حسـاس اسـت. بنـابراین ، برای مشخص کردن قانونی یا غیرقـانونی بـودن عملیـات مشـتریان، عـلاوه بـر اجـرای سیسـتمپیشنهادی و تعیین خروجی آن، تأیید نهایی کارشناسان بازار ضروری است. وضعیت خاص بازار و تجربه کارشناسان در تعیین نتیجه دقیق تر کمک بسزایی میکند.
هر روزی که سفارش و معامله ای صورت می گیرد، به صورت لحظه ای در سیستم ثبت میشود و در بازه های زمانی ثابت، کوتاه مدت و متوالی، احتمال متخلـف بـودن هـر یـک از مشـتریان درسیستم طراحی شده، براساس چارچوب بیزی تعیین میشود. با وجود آنکه طبقه بند بیزی بر اسـاس
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Self-Organizing Map
Threshold Type
پارامترهای بسیاری تصمیم گیری می کند، برای اطمینان از نتیجه به دسـت آمـده ، مـوارد متعـددیهمچون تاریخچه فعالیت های اقتصادی فرد در بورس کالا ضروری به نظـر مـیرسـد . مـی تـوان روزانه حد آستانه ای را براساس سیاست های مختلف اتخاذ کرد تا در هر یک از بازه هـای زمـانی، چنانچه به تشخیص سیستم، میزان تخلف فرد حداقل برابر با مقـدار حـد آسـتانه باشـد، متخلـفشناخته شده و پیگیری های بیشتر به بخش های ویژه واگذار شود.
همانطور که از مطالعه آثار پژوهشی پیشین نمایان است، روش های گوناگونی در حل مسائل با موضوع مشابه، ارائه شده است. با بررسی ویژگی های مثبت و کاستیهای پژوهش های پیشین، در پژوهش حاضر نوعی سیستم هوشمند مبتنی بر طبقه بند شبکه بیزی طراحی و پیاده سازی شده است. خصوصیات این روش هوشمند و نوآوریهای این پژوهش عبارت اند از:
قابلیت ترکیب با تکنیک های آمار بیزی در ارائه دانش؛
تعیین روابط علیّ بین متغیرهای فضای مسئله؛
قابلیت استنتاج و تصمیم سازی در فضاهای غیر قطعی با استفاده از احتمالات؛
قابلیت بهروزرسانی همه بخش ها (ساختاری و پارامتری) مبتنی بر المان یادگیری؛
قابل استفاده بودن برای دادههای ناقص؛
قابلیت کاربرد در حوزه های متغیری کمی (گسسته و پیوسته) و کیفی؛
بیان نتایج طبقه بندی به صورت احتمالی و پرهیز از خطای تصمیم گیری.
روش شناسی پژوهش
این پژوهش از نظر گرد آوری اطلاعات و مدارک، کتابخانـه ای اسـت کـه بـه صـورت توصـیفی ـ تحلیلی بررسی شده است و با توجه به هدف پژوهش (بررسی و استفاده از عملکرد تکنیـک هـای شبکه بیزی برای پیشگیری از وقوع حرکت القایی در معاملات بازار قرارداد های آتی سکه بـورسکالای ایران)، تحقیق جاری، پژوهش توسعه ای ـ کاربردی بـه شـمار مـی رود. در ادامـه ، مراحـل اجرای پژوهش شرح داده می شود.
برچسب گذاری اولیه داده ها
برای برچسبگذاری دادهها، از روش خوشهبندی کا ـ میانگین برای شناسایی تراکنشهای سـالمیا متخلف مشتریان استفاده شده است. پس از تعیین تراکنش سالم یا متخلف و برچسـب گـذاریروی آنها، مقادیر به دست آمده به صورت متغیر جدید به مجموعه داده ها اضافه می شـود. شـکل 1 الگوریتم استفادهشده برای برچسبگذاری را نمایش می دهد.
Algorithm: K means clustering
Minimize distance between every data point and the correspondent centroid, by this function:
J=∑∑∥xj-ci

2
K

choose randomly k of our points as partition centers.
-3 For m=1 to number of centers do
For n=1 to number of data do
Distance [m, n]

compute the distance between every data point[n] on the set with center[m]
End For
End For
4-Assign each point to the nearest cluster center.
For i=1 to number of centers do
Update the cluster center positions by using the following formula:
ci=


||
End For
If the cluster centers change, Then repeat the process from 3 Else finish the process of k means clustering algorithm and get the partition’s members and centroids.
شکل 1. الگوریتم برچسبگذاری اولیه داده ها
آماده سازی داده ها (گسسته سازی)
پس از برچسبگذاری دادهها، در گام بعد از طبقه بندی بیزی سـاد ه درخـت افـزوده1 بهـره بـرده میشود. این طبقه بند شکل توسعهیافته بیزی ساده است که اجازه می دهد ویژگـی هـا بـه صـورتدرخت با هم ارتباط داشته باشند. برای استفاده از این الگوریتم، ابتدا بایـد گسسـته سـازی داده هـاصورت گیرد. برای گسستهسازی دادهها از تابع گسستهساز2 در نرمافزار R استفاده شده است کـهاز توزیع خی دو کمک می گیرد. الگوریتم خیدو به صورت خودکار مقادیر حـد آسـتانه ای را تعیـینمی کند و به طور صحیح و دقیق مجموعه داده های عددی را گسستهسازی مـی کنـد . پارامترهـایتابع عبارت اند از مجموعه دادهها، آلفا و دلتا که بهترتیب داده ها، سطح معناداری و حداکثر میـزانناسازگاری در مجموعه داده را نشان می دهند.
الگوریتم خیدو بر مبنای توزیع خیدو رفتار میکند. ابتدا برای همه ویژگی هـای عـددی کـه گسسته سازی شده اند، با یک سطح معنادار بالا آغاز می گردد و تمام متغیرها بر اسـاس مقدار شـان ذخیره می شوند. در مرحله نخست، مقدار خی دو برای هر زوج بازه مجاور محاسبه میشود. گفتنی است که قبل از انجام گسستهسازی، هر متغیر را به عنوان یک بازه در نظر میگیرد که فقط همان متغیر به آن بازه تعلق دارد. در پیاده سازی مرحله دو، بازههای مجاور با کمتـرین مقـدار خـی دو را
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1 .Tree Augmented Naïve Bayesian (TAN)
2. Discretization
ادغام می کند و فرایند ادغام ادامه می یابد تا اینکه مقدار خی دو همه زوج بازه های مجاور، بزرگ تر از سطح معناداری ای شود که ابتدا مشخص شده است. این فرایند با سطح معنادار کاهش یافته ای ادامه می یابد تا با افزایش تدریجی میزان ناسازگاری به یک مقدار مطابق با شرط حـداکثری دلتـابرسد (لیو و سشنو، 1995). شکل 2 الگوریتم استفاده شده برای گسستهسـازی داده هـا را در ایـنپژوهش نمایش می دهد.

Algorithm: Discretization
Chi2 Function (att – attribute) Phase 1:

.5
While (InConCheck (data) < ) do /Function InConCheck() returns an inconsistency rate found in the discretized data/
For each numeric att do
Sort (att, data)
Chi-sq-init (att, data)
While (Merge (data)) do/Function Merge () returns true or false depending on whether the concerned attribute is merged or not/
Chi-sq-calculation (att, data)
End While End For
0 ←


دیدگاهتان را بنویسید