تاریخ دریافت مقاله: 28/02/1395 تاریخ پذیرش نهایی مقاله: 09/12/1395 نویسنده مسئول مقاله: نیره زاغری
E-mail: Nasrin.zaghari@gmail.com
مقدمه
با گسترش و پویاترشدن فعالیت ها در قرن بیست ویک، دیگر استفاده از شیوه های سنتی مدیریتفرایندها پاسخگوی نیاز شرکتها نیست و شرکت ها باید از سیستم های نوینی برای بهینه سازیفرایندهای کسب وکار خود استفاده کنند (زمانی و رحمتی، 2014). سیستمهای پیشنهاددهنده از جمله این سیستمهای نوین است. سیستم های پیشنهاددهنده، نوع ویژهای از سیستم های پالایش اطلاعات اند که آیتم ها را بر اساس این که کدام یک برای کاربر جذاب است، از مجموعه بزرگی از آیتمها و کاربران پالایش می کنند. این سیستم رویکردی است که برای مواجهه با مشکلات حجم فراوان و رو به رشد اطلاعات، ارائه شده است و به کاربر کمک می کند تا در میان حجم عظیم اطلاعات، سریع تر به هدف خود نزدیک شود. برخی سامانه پیشنهادگر را معادل پالایش گروهی می دانند (هیل، استید، رسنستین و فورناس، 1995).
سیستم پیشنهاددهنده یا سامانه پیشنهادگر با تحلیل رفتار کاربر خود، مناسب ترین آیتم ها (داده، اطلاعات، کالا و…) را پیشنهاد می دهد. به زبان سادهتر، در سیستم های پیشنهاددهنده تلاش می شود با پیش بینی شیوه تفکر کاربر (به کمک اطلاعاتی که از نحوه رفتار کاربر یا کاربران مشابه وی و نظر آنها ذخیره شده است)، مناسب ترین و نزدیک ترین کالا به سلیقه او شناسایی و پیشنهاد شود. سیستم های پیشنهاددهنده براساس تخمین نرخ و چگونگی پیشنهادها به چهار گروه دسته بندی می شوند: 1. محتوامحور؛ 2. هم بستگی (یا اشتراکی)؛ 3. پالایش ترکیبی و 4. دانش محور.
به طور معمول، سیستم پیشنهاددهنده پروفایل کاربر را با برخی ویژگی های مرجع مقایسه میکند و به دنبال پیشبینی بهایی است که کاربر به کالایی که هنوز در نظر گرفته نشده است، می دهد (شایند و کولکارنی، 2012). از طرفی می توان با استفاده از دو روش پایه محتوامحور و اشتراکی، به پیشبینی نرخ پرداخت. روش محتوامحور، براساس میزان شباهت محتوایی آیتم هدف
با آیتمهای دیگری که کاربر قبلاً نرخ داده است، نرخ پیش بینیشده کاربر به آیتم مدنظر را محاسبه می کند. در روش اشتراکی، می توان از هر دو مورد کمک گرفت؛ به بیان دیگر، هم با استفاده از بهای آیتم های همسایه و هم براساس تشخیص کاربران همسایه، به پیش بینی بها پرداخت. نام این دو انتخاب به ترتیب »اشتراکی آیتم محور« و »اشتراکی کاربرمحور« است. در نوع آیتم محور، باید آیتم های نزدیک به آیتم مدنظر را از لحاظ نزدیکی بهایی که کاربران دیگر به آنها داده اند، تشخیص داد؛ سپس مقدار میانگین بهای آنها را با توجه به میزان شباهتشان به آیتم هدف، به عنوان نرخ پیش بینی شده ای که در اختیار کاربر هدف قرار میگیرد، درنظر گرفت. درنوع کاربرمحور، نیز از میانگین گیری استفاده میکنیم، اما میانگین نرخ کاربران همسایه با تأثیرپذیری از شباهت هر یک به کاربر هدف، به منزله بهای پیش بینی شده تلقی می شود (شارداناد و مائز، 1995).
سیستم پیشنهاددهنده محصولات فروشگاههای آنلاین را با توجه به سلیقه مشتری غربالمی کند. سیستم بر پایه پروفایل مشتری ساخته می شود و به همین دلیل، امکان پیداکردن محصولمدنظر کاربر را افزایش می دهد. از این رو، برای درک نیاز مشتریان و پاسخ مناسب به این نیازها،ضروری است از الگوریتمهای کارآمدی استفاده شود. بر همین اساس، پژوهش حاضر قصد دارد با مطالعه و تحقیق در این حوزه و ارائه الگوریتمی برای بهبود سیستم پیشنهاددهنده مبتنی بر راهکار پالایش همکارانه کاربر، به این مسئله پاسخ دهد و از این طریق پیشنهادهایی ارائه دهد که با سلیقه و ترجیح مشتریان همخوانی بیشتری داشته باشد. استفاده از روش پالایش همکارانه مبتنی بر حافظه، یکی از روش های موفق و شناخته شده در توسعه سیستم های پیشنهاددهنده است (شامبور و لو، 2012). در این پژوهش برای پیشنهاد کالا به مشتری، از نظر کاربرانی استفاده می شود که آن کالا را دیده اند یا تهیه کردهاند. یکی از چالش های پیش روی این روش، ورود کاربران جدید و نداشتن پیشینه اطلاعاتی از آنها و یافتن کاربرانی است که سلیقه و ترجیح مشابهی با کاربران جدید دارند؛ در این صورت، سیستم نمی تواند پیشنهادی در اختیار آنها قرار دهد. از این رو پژوهش حاضر قصد دارد از اطلاعات فردی کاربران، به منظور بهبود نتایج سیستم پیشنهاددهنده استفاده کند. بدین منظور، بر اساس اطلاعات فردی کاربران ماتریسی تشکیل داده و معیار جدیدی برای محاسبه شباهت با ترکیب درصد وزن دار زمان و معنای شباهت پالایش همکارانه ایجاد می شود. برای پیشگیری از مشکل یادشده، می توان شباهت کاربران جدید را با درصد وزن بزرگ تری همراه کرد و برعکس آن، برای کاربران قدیمی تر درصد وزن شباهت را کاهش داد. روش کاربرمحور پیشنهادی در این پژوهش، از تأثیر زمان نرخ دهی بر علاقه کاربران در گذشت زمان برای بهبود برخورد با مشکل تنُکُی داده و روابط اعتماد بین کاربران در شبکههای اجتماعی، به منظور تشخیص هرچه بهتر علایق کاربر و در نتیجه بهبود توصیه ها، استفاده می کند. برای تشخیص بهتر شباهت میان آیتم ها، روش آیتم محور پیشنهادی از طبقه بندی موضوعی و معنایی آیتم ها نیز بهره می برد. همچنین از کلمات کلیدی استخراجشده با روش های معنایی از محتوای آیتم ها در جهت بهبود توصیه ها، به خصوص هنگام برخورد با مشکل »کاربر جدید«، استفاده شده است. نوآوری این پژوهش در این است که با ادغام زمان نرخدهی کاربران با معیار شباهتیابی پیرسون برای کاهش تنُکُی داده و ادغام تکنولوژیهای معنایی و شبکه اجتماعی، مشکلات »کاربر جدید« و بهطور کلی »تنُکُی داده ها« در سیستم های پیشنهاددهنده حل شده است. این نوشتار تلاش می کند سیستم های پیشنهاددهنده را بررسی کند و نسل حاضر از روش های سیستم های پیشنهاددهنده را که به چهار گروه کلی دسته بندی می شوند، معرفی نماید. همچنین پژوهش حاضر درصدد است با ارائه روشی بتواند ترافیک داده ها را با توجه به سیستم های ذکر شده برطرف کند.
پیشینه پژوهش
کاهش پیوسته هزینه های ذخیره سازی و پردازش داده ها موجب شده است کسب وکارهای برخطبتوانند به مجموعه گستردهای از اطلاعات که از طریق تعاملات مجازی یا انواع گوناگون تراکنشمشتریان قابل استخراج است، دست یابند ؛ این اطلاعات عبارتاند از: دفعات تکرار خرید مشتری و وفاداریش، زمان شروع یا پایان مشاهده وب سایت فروشگاه، نوع کالاهایی که قبلاً کاربر پسندیده، زمان خرید کالا توسط کاربر و همچنین اطلاعاتی مانند رتبه بندی، پیشینه خرید و اطلاعات کالاها. ایواتا در سال 2008 نشان داد فروشگاه با درک علاقه و سلیقه اخیر کاربران، می تواند پیشنهادهای مؤثرتری ارائه دهد؛ زیرا علایق و سلایق کاربران روزبه روز تغییر می کند. با پیشنهاد محصولاتی که اغلب توسط کاربران وفادار خریداری شده است، فروشگاه میتواند فروش را افزایش دهد؛ چرا که به شمار کاربران وفادار افزوده می شود. همچنین فروشندگان می توانند در تعیین قیمت محصولات انعطافپذیری بیشتری داشته باشند (گوپال، تریپادی و والتر، 2006).
در پژوهشی دیگر که کیپور و همکارانش با عنوان »ارائه روشی جدید برای پیشگویی پیوند بین رأسهای موجود در شبکههای اجتماعی« انجام دادند، دو رویکرد سراسری و محلی پیمایش گراف شبکه را پیشنهاد دادند و با توجه به مطالعات خود بر دو شبکه اجتماعی فیسبوک و اپ. نیونز و استفاده از معیار آدامیک ـ آدار، به این نتیجه رسیدند که رویکرد محلی بهدلیل محلی بودن می تواند پیشگویی خوبی برای یالهایی انجام دهد که قرار است در آینده شکل بگیرند (کی پور، براری و شیرازی، 1393).
کرامتی و خالقی (1393) در مقاله خود با استفاده از شیوههای دادهکاوی، به ارائه مدلی برای توسعه سیستمهای پیشنهاددهنده محصول به مشتریان در سطح خردهفروشی اقدام کردند. در این مقاله با استناد به چارچوب پیشنهادی مدل، نخست مشتریان با تکیه بر رویکرد بخش بندی مبتنی بر
ارزش طول عمر و با لحاظ نسبی ترجیحات، بر اساس مشخصههای مدل RFM، خوشهبندی شدند ؛ سپس با بهره مندی از ساختار پیشنهاددهی دومرحله ای، پیشنهادهای گوناگونی در دو سطح متمایز از رده بندی محصول به هر یک از مشتریان هدف ارائه دادند. نتیجه این پژوهش نشان داد استفاده از مدلهای ترکیبی در مقایسه با مدلهای مشابه سنتی، موجب کاهش مشکلات عدم تراکم و مقیاس پذیری می شود و عملکرد بهتری دارد.
دسته ای از پژوهش ها نیز بر مبنای اطلاعات زمانی اجرا شده اند؛ برای نمونه، لی، پارک و پارک (2008) در پژوهشی با استفاده از دو شاخص زمان خرید کاربر و زمان عرضه آیتم که دقت توصیه کنندهها را افزایش می دهند، دو تابع رتبه بندی برای محاسبه وزن مبتنی بر اطلاعات زمانی پیشنهاد دادند. آنها پیش تر یک نوع اطلاعات زمانی شامل زمان عرضه آیتم و زمان خرید کاربر و تفاوت زمانی بین این دو را بررسی کردند و نتیجه گرفتند اینگونه اطلاعات زمانی می تواند دقتتوصیه گرها را در سیستم های توصیه گر مبتنی بر فیلتر همبستگی برای کاراکترهای شرح داده شدهدر محیط تجارت الکترونیک، افزایش دهد.
کریمی، عسگری و پیراسته (1394) با توجه به اطلاعات جمعیت شناختی جامعه آماری و خوشه بندی و همچنین با استفاده از پالایش همکارانه مبتنی بر کاربر، به ارائه الگوهایی برای پیشنهادهای نزدیکتر به سلیقه مشتریان در فروشگاههای آنلاین و فیلم پرداختند. آنها بر این عقیده بودند که استفاده از یکی از روشها به تنهایی نمی تواند پیشنهادهایی نزدیک به نظر کاربران ارائه کند و در کنار پالایش همکارانه، اطلاعات جمعیت شناختی هم تأثیر شایان توجهی در شناسایی اولویتهای کاربران دارد.
در پژوهشی دیگر، حسنقلیپور و همکارانش در مقاله ای با عنوان »بررسی تأثیر خصوصیات مشتریان بر تمایل آنها به پذیرش خرید اینترنتی« نشان دادند ویژگی های مصرف کنندگان، یکی از مهم ترین عوامل پذیرش خرید اینترنتی آنان است. روش استفاده شده در پژوهش، توصیفی از نوع همبستگی بود و دادهها از طریق توزیع پرسشنامه بین 231 نفر از دانشجویان دانشگاه تهران گردآوری شد. نتایج تحلیل رگرسیون چندگانه نشان داد ویژگیهای مصرفکنندگان بر اساس کالاها و خدمات متفاوت، تأثیر متفاوتی دارد. پذیرش نوآوری در حوزه فناوری اطلاعات، خودکفایتی اینترنتی، ادراک از امنیت وب، نگرانیهای حریم خصوصی و درخور بودن محصول، ویژگیهایی هستند که بر اساس نوع کالا یا خدمت، بر نگرش افراد به پذیرش خرید اینترنتی آنان تأثیرگذارند (حسنقلی پور، امیری، فهیم و قادری عابد، 1392).
از میان مطالعات انجام شده در این حوزه، تنها اندکی از آنها بر مبنای اطلاعات زمانی بودهاند؛ مثل زمان خرید کاربر و زمان عرضه که دقت توصیه کنندهها را افزایش میدهند. از یافته های این پژوهشها میتوان به این نتیجه رسید که اطلاعات زمانی میتواند دقت پیشنهاددهندهها را در سیستمهای پیشنهاددهنده مبتنی بر پالایش مشارکتی، برای ویژگی های شرح دادهشده در محیط تجارت الکترونیک سیار بهبود بخشد؛ ولی در مقالات بررسی شده، از واحد زمان و تأثیر آن در معیارهای شباهتیابی و تأثیر روابط معنایی در شبکه های اجتماعی استفاده نشده که مقاله حاضر بر این موضوع تمرکز کرده است. با توجه به توضیحاتی که بیان شد، میتوان گفت هدف اصلی در این مقاله، ارائه روشی جدید برای مشابهتیابی در سیستم ها ی پیشنهاددهنده و بررسی و تشخیص میزان علاقه کاربران مشابه کاربر هدف با معیار زمان است. همچنین، ویژگی هایی که می تواند در افزایش دقت سیستمهای پیشنهاددهنده اهمیت داشته باشد و مطالعات دیگر کمتر به آنها توجه کرده اند را بررسی میکند. از این رو، بررسی و تشخیص میزان تشابه آیتم هدف با آیتم هایی که کاربر هدف از قبل به آنها نرخ داده با استفاده از معیار زمان، یکی از اهداف این پژوهش است. دراین پژوهش تلاش می شود تأثیر افزایش دقت و زمان بر بهبود کلی عملکرد پیشنهادها و کاهشتنُکُی داده و تأثیر تکنیک ادغام اطمینان در سیستم پیشنهاددهنده بر تُنکُی دادهها مشخص شود. در این رابطه به منظور افزایش دقت، تأثیر معیار زمان بر تشخیص میزان تشابه آیتم هدف با آیتم هایی که کاربر هدف از قبل به آنها نرخ داده و تأثیر معیار زمان بر تشخیص میزان علاقه کاربران مشابه کاربر هدف با درنظر گرفتن ویژگیهای جانبی که کمتر به آنها توجه شده، در روش پیشنهادی دخالت داده شده است تا مشخص شود، تکنیک ادغام اطمینان بر کمتر شدن تنُکُی دادهها مؤثر است.
روششناسی پژوهش
در این پژوهش هم از سیستم های پیشنهاددهنده پالایش مشارکتی مبتنی بر حافظه و هم مبتنی بر مدل استفاده شده است. در بخشی کـه مبتنـی بـر مـدل1 اسـت، از روش پـالایش مشـارکتیپیشنهادی ادغام اعتماد صریح و پالایش مشارکتی کاربرمحور بهبودیافته اسـتفاده مـی شـود کـهبرای حل مشکل کاربر جدید در خصوص کـاربران و اقـلام پیشـنهاد داده شـده بـه کـار مـی رود.
به منظور حل مشکل تنُکُی داده در خصوص کاربران و اقلام نیز از روش مبتنی بر حافظه2 پـالایش مشارکتی استفاده می شود.
در روش اول، شاخص زمان با ضریب پیرسـونی کـه مبتنـی بـر حافظـه پـالایش مشـارکتیسیستم های پیشنهاددهنده است (در این بخش نیز از زمان های نرخدهی کاربران به آیتم ها بهـرهاستفاده شده)، ادغام شده اند. سیستم های پیشنهاددهنده به طـور وسـیعی در سـایتهـای تجـارتالکترونیک استفاده می شوند. هدف از طراحی این سیستم ها، کمک به کاربران برای یافتن اقـلام
مدنظرشان است. یکی از موفقترین و کـاراترین الگـوریتمهـای ایجـاد پیشـنهاد، روش پـالایشگروهی است. پالایش گروهی بهمنظور پیشنهاد یک کالا به کـاربر هـدف، از سـوابق امتیـازدهیکاربران مشابه به آن کالا استفاده می کند. پالایش گروهی ضمن برخورداری از مزیت های بسـیارو کارایی زیاد، چندین مشکل عمده دارد. از جمله محدودیت های پالایش گروهـی مـی تـوان بـهمشکل کاربر جدید و تُنُک بودن ماتریس رتبه د هی اشاره کرد. کاربر جدید، به معنای ورود محصول جدید به سیستم است که هنوز هیچ رتبه ای دریافت نکرده یا به طور کلی ایـن محصـول در نظـرگرفته نشده است. منظور از خلوت بودن یا تنُکُی داده این است که در ماتریس قلم ـ کاربر، تعـداد
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Model-base
Memory-base
رتبههایی که وجود دارد نسبت به کل رتبه هایی که می تواند وجود داشته باشد بسیار کم است؛ بهبیان سادهتر، نسبت این دو مقوله به هم اساساً منطقی نیست. در این پـژوهش ، بـه منظـور بهبـودسیستم های پیشنهاددهنده در موقعیتی که با مشکلات یادشده مواجه انـد، از دادههـای موجـود در شبکههای اجتماعی استفاده شده است. اطلاعات موجود در شبکههای اجتماعی، شـامل پروفایـلکاربران و روابـط بـین آنهاسـت . در روش پیشـنهادی اول ، ابتـدا کـاربران براسـاس دو مـاتریسرتبه دهی و زمان رتبه دهی خوشه بندی می شوند؛ سپس به منظور یافتن نزدیک تـرین همسـایههـا،اطلاعات مربوط به محتوای اقلام و ماتریسهای جدید ترکیب خواهند شد.
روش پیشنهادشده اول
در روش پیشنهادشده، استراتژی مبتنی بر زمان و نرخدهی مدل های کلاسیک و مدل های پیشین مقایسه شدند و مشخص شد در حالت های قبلی، تنها یک ماتریس به نام مـاتریس کاربرــ آیـتموجود دارد، اما در اینجا از دو ماتریس کاربرـ آیتم و کاربرـ زمان استفاده شده است کـه مـاتریسکاربرـ آیتم نرخدهی و ماتریس کاربرـ زمان تاریخ نرخدهی را نشان میدهد.
مدل کاری مبتنی بر زمان
مراحل تولید پیشنهاد توسط سیستم پیشنهاددهنده مبتنی بـر زمـان در شـبکه هـای اجتمـاعی را می توان به سه مرحله زیر دسته بندی کرد:
مرحله نخست
در این مرحله با توجه به اطلاعات کاربران و زمان امتیازدهی هـر منبـع از نظـر کـاربر ، مـاتریس کاربرـ منبع شکل میگیرد. ماتریس رتبه بندی که ماتریسی × است، ارتبـاط بـین منـابع و کاربران را نشان می دهد و در آن تعداد کاربران و تعداد منابع را مشخص میکنـد . مقـداری که در سلول × ماتریس قرار می گیرد، عددی است که میـزان علاقـه کـاربر بـه منبـع را نشان میدهد. برای تشکیل ماتریس رتبهبنـدی بایـد ابتـدا مـاتریس منبـع ـ کـاربر هـر یـک از استراتژی های مبتنی بر زمان تشکیل شود.
مرحله دوم
در این مرحله، میزان شباهت بین کاربر فعال و سایر کـاربران کـه همسـایه هـای آن را تشـکیل می دهند، به دست می آید که برای این کار از ضریب شباهت پیرسونی استفاده مـی شـود . یکـی ازانواع روش پالایش مشارکتی، پژوهش همبستگی است. در این نوع پژوهش رابطه میان متغیرهـا براساس هدف پژوهش تحلیل می شود و اصولاً هدف پژوهش، تعیین رابطه میان متغیرهاست.
مرحله سوم
در این مرحله که آخرین مرحله کار محسوب می شود، باید منابعی را به کاربر فعـال پیشـنهاد داد.
برای این منظور از (رابطه 1) استفاده می شود.
91134383089

( ,) = ∑|∈∑∈ℎ( )ℎ, ×(,)(,×)| × (1 رابطه
در این رابطه، V همسایههای کاربر فعال u اسـت و × (,) هممیـزان شـباهت بین کاربر u وv را با تأثیر زمان مشخص میکند.
روش پیشنهادشده دوم
14576972731006

روش پیشنهادشده دوم در این پژوهش از دو جزء کاربرمحور و آیتم محور تشکیل می شود. به بیان دیگر، در این روش با توجه به موقعیت و خصوصـیات کـاربر هـدف و آیـتم هـدف، از طریـق دوالگوریتم کاربرمحور و آیتم محور به پیش بینی نرخ پرداخته میشود. به طور مشـخص ، در سیسـتمتوصیه گر نهایی که قرار است از این الگوریتم های پیشنهادشده به منظور پیش بینی نرخ های کاربر هدف به آیتم ها استفاده کند، این دو الگوریتم با هم ادغام خواهند شد که طریقه ادغام در رابطه 2 مشاهده می شود. در این رابطه مشخص است که در صورت صفر نبودن هر دو نرخ پیش بینی شده توسط دو الگوریتم نام برده، میانگین سازگاری این دو نرخ به عنوان نرخ نهایی پیش بینـی شـده درنظر گرفته می شود. دلیل انتخاب این نوع میانگین این است که دو الگوریتم پیشنهادشده، مـوازیهم عمل میکنند؛ بنابراین میانگین سازگاری آنها بهترین گزینه برای ادغام نتایجشان است.
رابطه 2)
,
−1,= 0= 0
,,= 0
=,,= 0,≠ 0
331461134896

2 ×,×,
≠ 0
,,≠ 0
,+,
با توجه به این رابطه میتوان به ساختار سیستم توصیه گر نهایی و روند پیش بینی نـرخ در آنپی برد. این ساختار نوعی روش ترکیبی را نشان می دهد که در آن نرخ های پیش بینی شده توسط دو الگوریتم پیشنهادی با هم ادغام می شوند تا نتیجه بهتـری در رونـد کـاهش خطـای سیسـتم
کسب شود. شکل 1، مراحل پیش بینی نرخ در سیستم توصیه گر پیشنهادشده را نمایش مـی دهـد .
در این شکل دو ماژول زیر مشخص شده است:
ماژول فیلترینگ همکارانه (اشتراکی) کاربرمحور اجتماعی و آگاه از اعتماد؛ این مـاژولهمان الگوریتم کاربرمحور پیشنهادی با نام EpTeUCF، است.
ماژول فیلترینگ همکارانه (اشتراکی) آیتم محور معنایی و محتوایی؛ این مـاژول نیـز درواقع الگوریتم آیتم محور پیشنهادی است که با نام CbShoShcSeICF در ارزیـابی هـامشخص می شود.
روش کاربرمحور پیشنهادشده در این پژوهش، از دو طریـق بـه محاسـبه فهرسـت کـاربرانمشابه با کاربر هدف می پـردازد. در روش نخسـت ، شـباهت فیلترینـگ همکارانـه بهبودیافتـه بـا استفاده از داده های نرخ دهی کاربران به آیتم ها محاسبه می شود. روش دوم نیز تشخیص کاربران مورد اعتماد کاربر هدف بر اساس روابط موجود در شبکه اعتماد کاربران یـا اسـنادFOAF آنـاناست. گفتنی است در این جا منظور از سند FOAF کاربری، سند روابط معمولی کـاربران نیسـت؛بلکه روابط اعتماد به نظر کاربران دیگر است که خود کاربران به صراحت در شبکه اجتماعی بیان کرده اند. روش آیتممحور پیشنهادی نیز از طریق سه رویکرد به محاسبه شباهت بین آیتم هدف با سایر آیتم ها می پردازد و در نهایت با ادغام موازی این سه رویکرد، آیتم هایی که بیشترین شباهت را دارند (یا همان آیتم های همسایه آیتم هدف)، تشخیص مـیدهـد . رویکـرد نخسـت، محاسـبهشباهت معنایی بین آیتم ها از طریق اندازه گیری مشابهت محتوایی آنهاست. رویکرد دوم، محاسبه شباهت بین آیتم هدف با سایر آیتمهای نرخ دادهشده توسط کاربر هدف، از طریـق انـدازه گیـریبیشترین همپوشانی موجود بین سر موضوعاتی است که دو آیتم به آنها تعلق دارد و رویکرد سوم، محاسبه شباهت بین دو آیتم از طریق تعداد سر موضوعات مشترک آنهاست. ورودی اصلی روش دوم و سوم، طبقه بندی موضوعی آیتمهاست که حاوی فهرسـت سلسـله مراتبـی 1 سرموضـوعاتیاست که آیتم ها به آنها تعلق دارند. شهرت آیتم های همسایه آیـتم هـدف نیـز از روی داده هـاینرخ دهی کاربران به آیتمها محاسبه می شود و علاوه بر نرخ کاربر هدف به هر آیتم همسـایه، وزندوم پیش بینی نرخ احتمالی کاربر هدف به آیتم هدف، محسوب میشـود . در پایـان نیـز دو نـرخ پیش بینیشده از دو روش پیشنهادی فوق، با هم ترکیـب شـده (بـا اسـتفاده از رابطـه 2) و نـرخ پیش بینیشده سیستم توصیه گر پیشنهادی به دست می آید. حال از این نرخ مـی تـوان آیـتم هـایاحتمالی مورد علاقه کاربر هدف (آیتم های با بیشترین نرخ پیش بینی شده احتمـالی) را تشـخیص داد و به ساخت مجموعه توصیه های کاربر هدف پرداخت.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Hierarchical

شکل 1. ساختار کلی روند پیش بینی نرخ در سیستم توصیه گر پیشنهادی
یافتههای پژوهشی
تجزیه و تحلیل دادهها در روش پیشنهاد شده اول
در حوزه داده کاوی و الگوریتم های یادگیری، بهرهمندی از مجموعه داده مناسب، اهمیت زیادی دارد. مطالعه مجموعه داده انتخاب شده از نظر کمی و کیفی و نیز، انتخاب ویژگی های مناسب برای توصیف نمونه ها، یکی از گام های ضروری و مفصل در این حوزه محسوب می شود. مجموعه دادهاستفاده شده برای تحلیل نتایج این پژوهش، علاقه کاربران به مجموعه ای از فیلمهاست. اینمجموعه داده، شامل اطلاعات فردی کاربران، فیلم ها، انواع و تعداد آنها و اطلاعات امتیازدهی است. اطلاعات مجموعه داده در جدول 1 آورده شده است. مجموعه داده های مووی لنز1 حاوی فایل فشرده tar. برای بازسازی فایل های داده است و همچنین دربردارنده مجموعه کاملی از داده و نیز 100,000 رتبهبندی توسط 943 کاربر در 1682 اقلام است. این فایل از نظر نرخ دهی کاربران، رتبه نسبتاً خوبی دارد؛ بهطوری که در این فایل هر کاربر حداقل به 20 فیلم امتیاز داده است. این فایل همچنین بخش جداگانه ای دارد که شامل فهرستی از شناسه کاربر، کد آیتم، امتیاز، نرخ زمان می شود. جدول 1 نمونهای از اطلاعات 4 کاربر و زمان نرخ دهی را نشان می دهد که از مجموعه داده مووی لنز ارزیابی و سنجیده شده است. در این جدول، زمانی که هر کاربر برای نرخدهی صرف کرده، در یک دوره زمانی سه ماهه در نظر گرفته شده است و ارزیابی علایق کاربران در زمانهای متفاوت نسبت به اقلامی که نرخدهی شدهاند، نشان داده است.
جدول 1. اطلاعات مربوط به کاربر ـ منبع
1998/1/03 1997/6 /18 1997/5/12 زمان کاربر 1
5 1 3 رتبه 1997 /7/12 زمان کاربر 2
4 رتبه 1997/11 /2 1997/5/19 زمان کاربر 3
2 3 رتبه 1998 /2 /7 1997/11 /8 1997/10/5 زمان کاربر 4
3 2 5 رتبه
ارزیابی روش پیشنهادی اول
همان طور که می دانیم، دو پارامتر دقت1 و پوشش در میزان کیفیت اطلاعات استخراجی بسیار مؤثرند. از پارامتر دقت و پوشش که هر دو معیار از شناختهشدهترین معیارهای ردهبندی هستند،
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Movie lens
.1 Precision
.2 Coverage
عموماً برای اندازهگیری کیفیت اعمال استخراج اطلاعات استفاده میشود؛ رابطه دقت، بیانمی کند که چند درصد از مجموعه پیشنهادهای ارائه شده، واقعاً درست هستند. این رابطه در واقعدرستی و دقت پیشنهادهای ارائه شده توسط سیستم را میسنجد؛ بنابراین هرچه مقدار این معیار بیشتر باشد، نشاندهنده تعداد کم اشتباههای محاسباتی سیستم است. این معیار معمولاً مستقل از رابط کاربری است و میتواند به صورت برونخط هم محاسبه شود (رابطه 3 را مشاهده کنید).

رابطه 3) |

=
با محاسبه دقت و درستی پیشنهادها و استراتژی مبتنی بر زمـان و رتبـه و الگـوریتم مبتنـی بـرزمان، میتوان نمودار مقایسه ای میزان پارامتر دقت با توجه به تعداد منابع پیشنهادی را ترسیم کـرد . مطابق شکل 2 که در زیر مشاهده می شود، دقت و درسـتی اسـتراتژی مبتنـی بـر زمـان و رتبـه در مقایسه با الگوریتم مبتنی بر زمان، مقدار بالاتری دارد. در واقع، هرچه مقـدار بـه دسـت آمـده از ایـنمحاسبه بیشتر باشد، از دقت و درستی بیشتری برخوردار است؛ یعنی دو آیتم زمان و رتبـه بنـدی بـهمراتب بر دقت کار سیستم می افزایند و خطاهای احتمالی را به میزان شایان توجهی کاهش می دهند.

0
/
50
0
/
80
0
/
60
1
0
/
40
س
4
/
0
س
3
/
0
0
/
00
0
/
20
0
/
40
0
/
60
0
/
80
1
/
00
1
/
20
استرتژیمبتنی
برزمان
ورتبه
1
الگوریتممبتنی
برزمان
2

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید


پاسخ دهید