File:یافتن کاربران مشابه در انباره داده توسط روش فیلترینگ مشارکتی CF.png

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search

Captions

Captions

Add a one-line explanation of what this file represents

Summary

[edit]
Description
فارسی: یک معیار یا یک معیار تشابه (SM) شباهت بین جفت¬های کاربران (فیلتر همبستگی کاربر به کاربر) یا شباهت بین جفت¬های موارد (فیلتر همبستگی مورد به مورد) را تعیین می¬کند. بدین منظور امتیازبندی¬های همه موارد امتیاز¬بندی شده توسط دو کاربر (کاربر به کاربر) یا امتیاز¬بندی¬های همه کاربرانی که دو مورد را رتبه¬بندی کرده¬اند (مورد به مورد) را مقایسه می-کنیم.

با توجه به دیاگرام پیشنهادی بالا،کاربر هدف جهت پیدا کردن خوشه مشابه خود بعد از عملیات خوشه‌بندی لازم است که k تا کاربر مشابه خود را بیابد در انجام این عملیات یک سوال متداول در این رابطه وجود داردکه: "کاربر هدف بعد از خوشه‌بندی چطور خوشه مشابه خود را پیدا می‌کند؟" برای پاسخ دادن به سوال بالا باید چندین معیار را در نظر بگیریم از جمله این معیارها پیچیدگی زمانی،حافظه،زمان جستجوی بهینه و ... وجود دارد. در پی پاسخ دادن به سوال بالا داریم که حال یک پرسش مبتنی بر پرسش قبلی وجود دارد که به شرح زیر می‌باشد: "کاربر هدف بعد از یافتن خوشه‌ی مشابه چگونه آیتم‌ها به کاربر هدف پیشنهاد داده می‌شود؟"

رایج ترین الگوریتم مورد استفاده در روش فیلترینگ مشارکتی، الگوریتمKNN  می باشد. در این الگوریتم دو رویکرد وجود دارد. رویکرد اول نگاهی کاربر به کاربر یا user-to-user  به سیستم دارد. الگوریتم k-NN  یک پیشنهاد خوبی برای یافتن خوشه‌های مشابه با کاربر جدید که بتواند در کنار K  تا کاربر مشابه خود قرار بگیرد وجود دارد در بعضی مقالات از با نام‌های جستجوی مجاورت، جستجوی همسانی یا جستجوی نزدیک ترین نقطه شناخته و یا  K نزدیکی همسایه نیز شناخته می‌شود که در این قسمت روش کار در این الگوریتم را تشریح می‌کنیم.

در نسخه کاربر به کاربر kNN سه کار زیر را برای ایجاد پیشنهادهایی برای یک کاربر فعال انجام می‌دهد: (1) k همسایه کاربر (همسایگی) را برای کاربر فعال a معین می¬کند؛ (2) یک روند تجمع با امتیاز‌بندی¬های همسایگی در موارد امتیاز¬بندی نشده توسط a انجام می¬دهد؛ و (3) پیش¬بینی¬ها را از مرحله 2 استخراج می¬کند سپس N توصیه اول را انتخاب می¬کند. در سیستم‌های پیشنهاد دهنده برای ارائه بهترین پیشنهاد یا پیش‌بینی نیازمند یکسری داده‌های از قبل بوده که بر اساس امتیاز‌دهی به آیتم‌ها توسط یکسری کاربران به کاربران هدف باشد در صورتی که دیتاست مربوط به سیستم‌های پیشنهاد دهنده مرتب و یا به عبارتی توسط الگوریتم‌های خوشه‌بندی که در این پژوهش مطرح شد خوشه‌بندی از قبل صورت گرفته باشد(دیتاست خوشه‌بندی شده) که در بخش‌ قبل بررسی کردیم که با استفاده از فیلترینگ همبستگی در بخش قبل معیار‌های آن تشریح شد. اما اکنون و همیشه طبقه‌بندی برای سیستم‌های پیشنهاد دهنده مهم بوده و خواهند بود که در زندگی روزمره افراد در حال مقایسه پدیده‌های اطراف خود هستند مانند غذای خوب،فیلم‌های تاثیرگذار و آدم حساس و ... معمولا هر زمانی که قصد داریم یک طبقه‌بندی داشته باشیم ولی ایده‌ای نداشته باشیم سعی می‌کنیم که با توجه به داده‌های قبلی به نتیجه برسیم.منطقی به نظر می‌رسد به عنوان مثال موسیقی،فیلم وکتاب می‌توانند مثال‌های ملموسی باشند مثلا وقتی که یک موسیقی را قبلا گوش داده‌اید می‌توانید موسیقی گوش داده شده را جزء کدام دسته از موسیقی‌ها باشد مثل پاپ،کلاسیک یا سنتی باشد،یا در مورد هر پدیده دیگری که بخواهیم طبقه‌بندی کنیم به همین شکل باشد.سپس با تکیه بر این مثال به الگوریتم برمیگردیم که الگوریتم K-NN چطور در یافتن کاربران مشابه به ما کمک می‌کند با فرض داشتن دیتاست کاربران(MovieLens) که فیلم‌های متفاوتی همراه با آیتم‌ها که توسط کاربران به آن‌ها رامتیاز داده‌اند وجود دارد در حالی که یک فیلم جدید را می‌خواهیم به دیتاست خوشه‌بندی شده اضافه کنیم در حالی که فیلم جدید در مشابه‌ترین خوشه مورد نظر که مشابه‌ترین فیلم‌های نسبت به فیلم جدید در آن باشد، که برای انجام این کار با توجه به خوشه‌بندی قبلی برای خوشه‌بندی فیلم جدید نیز استفاده می‌شود یا در صورت وجود کاربر جدید جهت اضافه کردن به دیتاست خوشه‌بندی شده مشخص کند که کاربر هدف متعلق به کدام خوشه می‌یاشد. الگوریتم هایی که بر مبنای این نگاه پیاده سازی می شوند شامل سه گام هستند :

    گام اول -  در این گام بر اساس یک معیار شباهت (cosine، Pearson Correlation،  Mean square difference)   برای کاربرa  تعدادk  همسایه انتخاب می شود. این همسایگان، آنهایی هستند که بیشترین شباهت را به کاربر a دارند.
    گام دوم - در گام دوم به ازای تمامی آیتم های موجود در سیستم معیاری کمی برای پیش‌بینی  آنکه آیا آیتمi  مورد پسند کاربر a  قرار خواهد گرفت یا خیر محاسبه می شود.  محاسبه این معیار کمی با استفاده از راهکار های مختلفی (میانگین امتیازات average، حاصل جمع وزن دار weighted sum و ...)  از روی امتیاز هایی که همسایگان کاربر a به آیتمi  داده اند حاصل می شود.
    گام سوم –  بر اساس گام دوم، از بین تمامی آیتم ها N آیتمی که بیشتری مقدار پیش‌بینی را دارند به کاربر پیشنهاد داده می شوند.
    از جمله مزیت های این الگوریتم سادگی و در عین حال دقت نتایج حاصل از آن است. البته دو مشکل اساسی نیز دارد که عبارتند از مقیاس پذیری کم  و آسیب پذیری در مقابل پراکندگی داده ها scarcity در پایگاه داده. با افزوده شدن کاربر جدید به سیستم معیار های شباهت و مقادیر پیش‌بینی‌ها باید مجددا حساب شوند که با افزایش تعداد کاربران و بزرگ شدن سیستم این مسئله سر بار محاسباتی زیادی را به سیستم وارد  می آورد و مشکل ساز می شود.
    برای حل مشکل مقیاس پذیری در این الگوریتم، نسخه دیگری از آن با رویکردی متفاوت ارائه شده است. این رویکرد نگاه آیتم به آیتم item-to-item دارد و توانسته است مشکل مقیاس پذیری را تا حد قابل توجهی کاهش دهد. در این نسخه نیز سه گام اصلی دیده می شود که به شرح زیر می باشند :

گام اول - ابتدا بر اساس معیارهای شباهت برای هر آیتم i تعداد q همسایه را تعیین می کنیم. گام دوم - در صورتی که کاربر a به آیتم i تاکنون امتیازی نداده باشد، بر اساس امتیازاتی که این کاربر به آیتم های همسایه i داده است مقدار پیش‌بینی prediction را محاسبه می کنیم. گام سوم - بر اساس مقادیر پیش‌بینی ها، پیشنهاد‌های آیتم هایی را که بیشترین مقدار پیش‌بینی را دارند به کاربرa پیشنهاد می کنیم. در نسخه مورد به مورد الگوریتم kNN سه کار زیر انجام می¬شود: (1) تعیین q مورد همسایه برای هر مورد در پایگاه داده؛ (2) برای هر مورد i دتبه¬بندی نشده توسط کاربر فعال a، بر اساس رتبه¬بندی a از q همسایه از i پیش¬بینی آن¬ را محاسبه کنید؛ و (3) n توصیه اول را برای کاربر فعال (معمولا n پیش¬بینی اصلی از a) را انتخاب کنید. مرحله (1) را می¬توان به طور متناوب انجام داد که توصیه تسریع شده با توجه به نسخه کاربر به کاربر را تسهیل می-کند. اکنون در مثال بالا K همان شیبه‌ترین فیلم‌های مشابه نسبت به فیلم جدید می‌باشد یا به عبارتی همسایه‌های برای داده هدف در خوشه مشابه می‌باشد. در حالی که سوال پیش می‌آید که در این الگوریتم عملیات مقایسه‌سازی بین داده هدف با سایر داده‌های موجود چگونه شکل می‌گیرد یا چطور فیلم‌های مشابه را می‌یابد؟ جهت پاسخ دادن به سوالات بالا الگوریتم برمی‌گردیم یکسری معیار‌ها که عبارت‌اند از: در الگوریتم KNN دارای دو نقطه p,q که اندازه پاره‌خطی می‌باشد که دو نقطه را به هم دیگر متصل می‌نماید . در مختصات دکارتی اگر : دو نقطه در فضای اقلیدسی n بعدی باشند، آنگاه فاصله بین آنها به صورت زیر تعریف می‌شود: در صورتی که برای طبقه‌بندی از همه آیتم‌های رکورد به یک اندازه استفاده شود در صورتی که در طبقه‌بندی اندازه‌های یکسانی نباشند و از هم دیگر مجزا باشند را بلای ابعاد می‌گویند که برای رفع این مشکل همه آن‌ها را با هم هم‌وزن خواهیم کرد جستجوی k نزدیکترین همسایه، K همسایه نزدیک تر به نقطه پرس و جو را برمی‌گرداند. این روش معمولاً در تجزیه و تحلیلِ پیش بینی، به منظور تخمین و یا دسته بندی یک نقطه بر اساس اجماع همسایگان آن استفاده می‌شود. گراف k نزدیکترین همسایه گرافیست که در آن هر نقطه در گراف K نزدیک ترین همسایگان خود متصل است.یکی دیگر از راه‌حل‌ها مقاسیه کردن کاربر هدف با سایر نماینده مربوط به هر خوشه مربوط به کاربران می‌باشد که ویژگی‌ها(آیتمها وامتیازات هر آیتم)را با اطلاعات شخصی مطابقت داده تا زمانی که خوشه مشابه خود را بیابد، یا کاربر هدف را با تک تک کاربران موجود در خوشه‌ها مقایسه کند تا خوشه‌مشابه را پیدا کند که بدترین حالت ممکن می‌یاشد. یکی دیگر از راه‌های ورود کاربر هدف به سیستم‌پیشنهاد دهنده از طریق زیر می‌باشد:

 همانطور که گفته شد یکی از مهمترین مشکلاتی که سیستم های پیشنهاد دهنده مبتنی برفیلترینگ مشارکتی با آن مواجه هستند، مسئله شروع سرد می باشد. این مشکل زمانی ایجاد می‌شود که به منظور ارائه پیشنهاد، اطلاعات لازم و کافی ،امتیازدهی در سیستم وجود نداشته باشد. این حالت ممکن است به یکی از دلایل زیر رخ دهد:
 شروع کار سیستم پیشنهاد دهنده – راهکاری که در چنین حالاتی پیشنهاد می شود این است که با استفاده از روش های مناسب کاربران را تشویق به دادن رای به آیتم ها نماییم و زمانی اقدام به پیشنهاد به کاربر کنیم که به اندازه کافی اطلاعات جمع آوری شده باشد.
ورود کاربر هدف به سیستم – مهمترین مشکل برای سیستم های پیشنهاد دهنده مبتنی بر فیلترینگ مشارکتی محور زمانی است که کاربر هدف وارد سیستم می شود. در این صورت اطلاعات کافی در مورد آیتم ها وجود دارد اما از آنجا که کاربر هدف هنوز به آیتمی رای نداده است نمی توان از روش های معمول مورد استفاده در فیلترینگ مشارکتی استفاده نمود. برای حل چنین مشکلی در سیستم، عموما فیلترینگ مشارکتی را با دیگر روش های رایج در سیستم های پیشنهاد دهنده ترکیب می کنند و یک سیستم ترکیبی Hybrid را می سازند مثلا فیلترینگ مشارکتی با فیلترینگ مبتنی بر محتوا   .
درج آیتم جدید در سیستم – عموما آیتم های جدید دارای هیچ امتیازی rate نمی‌باشند. بر همین اساس در لیست پیشنهادات هرگز آورده نمی‌شوند و از دیدگاه کاربران نیز پنهان می‌مانند. این مسئله باعث می شود که در آینده نیز به آنها هیچ امتیازی داده نشود. 
البته این مسئله در سیستم های پیشنهاد‌دهنده از اهمیت بالایی برخوردار نیست و می توان بر اساس روش ها و ابزار‌های دیگری این آیتم ها را به کاربران نشان داد تا به آنها رای دهند.
به دلیل مشکلات شروع سرد و نیز پراکندگی داده ها، عموما سیستم های فیلترینگ مشارکتی را بصورت ترکیبی با سایر راهکار ها بکار می برند تا از مزایای آنها بهره مند شده و در عین حال معایب آن را نیز بر طرف نمایند. بعنوان مثال یکی از راهکار هایی که پیشنهاد شده است پیاده سازیCollaborative Tagging در یک سیستم مبتنی بر فیلترینگ مشارکتی است تا بتوان سلایق کاربران را شناخت و آیتم ها را بر اساس تمایلات کاربران دسته بندی نمود که روش کار به صورت مجموعه‌ای از نمونه‌های برچسب‌گذاری شده تولید می‌شوند که هر نمونه از ویژگی‌های استخراج شده از محتوای آیتم و یک برچسب مربوط به امتیازدهی کاربر تشکیل شده است. با فرض یک مجموعه‌ی آموزشی، وظیفه‌ی یادگیری نظارتی فراگرفتن تابعی است که اولویت‌های کاربر را براساس ویژگی‌های محتوا، پیش‌بینی می‌کند. مفهوم مشابه یادگیری در فیلترینگ مشارکتی داده‌های برچسب‌گذاری شده‌ی بکار رفته، که در این مورد ویژگی‌های کاربران بجای آیتم‌ها می‌باشند.
Date
Source Own work
Author حمیدرضا آوینی

Licensing

[edit]
I, the copyright holder of this work, hereby publish it under the following license:
w:en:Creative Commons
attribution share alike
This file is licensed under the Creative Commons Attribution-Share Alike 4.0 International license.
You are free:
  • to share – to copy, distribute and transmit the work
  • to remix – to adapt the work
Under the following conditions:
  • attribution – You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.
  • share alike – If you remix, transform, or build upon the material, you must distribute your contributions under the same or compatible license as the original.


This file is uploaded through the Persian Wikipedia, and has not been reviewed on Commons yet.
  • The user uploading this file may not be aware that they have left the Persian Wikipedia.
  • The user uploading this file may not be aware of Commons policies and project scope.
  • The user uploading this file may not speak English.
This template may be removed, following review of license, categories and description.

English | فارسی | 日本語 | 한국어 | русский | +/−

File history

Click on a date/time to view the file as it appeared at that time.

Date/TimeThumbnailDimensionsUserComment
current15:42, 31 October 2021Thumbnail for version as of 15:42, 31 October 2021297 × 268 (9 KB)Dr hamidreza avini (talk | contribs)Uploaded own work with UploadWizard

There are no pages that use this file.