بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب- قسمت ۴

ارسال شده در 24 فروردین 1400 توسط نجفی زهرا در بدون موضوع

[۱۶]. Miranda, T., Claypool, M., Gokhale, A., Mir, T., Murnikov, P., Netes, D., & Sartin, M. (1999). Combining content-based and collaborative filters in an online newspaper. In In Proceedings of ACM SIGIR Workshop on Recommender Systems.
[۱۷]. Mobasher, B., Cooley, R., & Srivastava, J. (2000). Automatic personalization based on Web usage mining. Communications of the ACM, ۴۳(۸), ۱۴۲-۱۵۱٫
[۱۸]. Mobasher, B., Dai, H., Luo, T., Sun, Y., & Zhu, J. (2000). Integrating web usage and content mining for more effective personalization. In Electronic commerce and web technologies (pp. 165-176). Springer Berlin Heidelberg.
[۱۹]. Nasraoui, O., Frigui, H., Krishnapuram, R., & Joshi, A. (2000). Extracting web user profiles using relational competitive fuzzy clustering. International Journal on Artificial Intelligence Tools, ۹(۰۴), ۵۰۹-۵۲۶٫
[۲۰]. Nina, S. P., Rahman, M., Bhuiyan, K. I., & Ahmed, K. E. U. (2009, November). Pattern discovery of web usage mining. In Computer Technology and Development, 2009. ICCTD’09. International Conference on (Vol. 1, pp. 499-503). IEEE.
[۲۱]. Pamnani, R., & Chawan, P. (2010). Web Usage Mining: A research area in Web mining. Proceedings of ISCET, 73-77.
[۲۲]. Pani, S. K., Panigrahy, L., Sankar, V. H., Ratha, B. K., Mandal, A. K., & Padhi, S. K. (2011). Web usage mining: a survey on pattern extraction from web logs. International Journal of Instrumentation, Control & Automation (IJICA), ۱(۱), ۱۵-۲۳٫
[۲۳]. Peng, X., Cao, Y., & Niu, Z. (2008, December). Mining Web Access Log for the Personalization Recommendation. In MultiMedia and Information Technology, 2008. MMIT’08. International Conference on (pp. 172-175). IEEE.
[۲۴]. Shinde, S. K., & Kulkarni, U. V. (2008, December). A new approach for on line recommender system in web usage mining. In Advanced Computer Theory and Engineering, 2008. ICACTE’08. International Conference on (pp. 973-977). IEEE.
[۲۵]. Sujatha, N., & Iyakutty, K. (2010). Refinement of Web usage Data Clustering from K-means with Genetic Algorithm. European Journal of Scientific Research, ۴۲(۳), ۴۷۸-۴۹۰٫
[۲۶]. Suryavanshi, B. S., Shiri, N., & Mudur, S. P. (2006, June). Analysis of Fuzzy Clustering Techniques Used for Web Personalization. In Fuzzy Information Processing Society, 2006. NAFIPS 2006. Annual meeting of the North American (pp. 335-340). IEEE.
[۲۷]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.
[۲۸]. Xiao-Gang, W., & Yue, L. (2009, August). Web mining based on user access patterns for web personalization. In Computing, Communication, Control, and Management, 2009. CCCM 2009. ISECS International Colloquium on (Vol. 1, pp. 194-197). IEEE.
[۲۹]. Zhang, Y., Xu, G., & Zhou, X. (2005). A latent usage approach for clustering web transaction and building user profile. In Advanced Data Mining and Applications (pp. 31-42). Springer Berlin Heidelberg.
[۳۰]. Zhao, Q., & Bhowmick, S. S. (2003). Sequential pattern mining: A survey.ITechnical Report CAIS Nayang Technological University Singapore, 1-26.
[۳۱]. بهرنگ مسعودیفر، “ارائه روش هایی برای حل مشکل کاربر جدید در سیستمهای توصیه کننده همکارانه بر مبنای حافظه”، دانشگاه صنعتی امیر کبیر، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، ۱۳۸۵٫
نتیجه تصویری درباره فناوری اطلاعات

جهت دانلود متن کامل این پایان نامه به سایت abisho.ir مراجعه نمایید.

فصل سوم:

مبانی نظری و روش انجام تحقیق

مقدمه

وب گسترده جهانی به‌عنوان محیط بزرگ برای توزیع اطلاعات است که دارای منابع اطلاعاتی گوناگون است. از اینرو وب یک مجموعه بزرگی از منابع اطلاعاتی ساختیافته و نیمه‌ساخت یافته است که تعداد صفحات آن به سرعت در حال افزایش است. مشکل در سرریز شدن اطلاعات به هنگام انجام جستجویی توسط مرورگر انجام می‌شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می‌کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ ۷٫۳ میلیون صفحه در روز افزایش می‌یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریباً غیر ممکن است و ابزارها و روش‌هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:

یافتن اطلاعات مرتبط

ایجاد دانش جدید با بهره گرفتن از اطلاعات موجود در وب

خصوصی سازی اطلاعات

تکنیک‌های وب کاوی قادر به حل این مشکلات می‌باشند. در (Kosala, & Blockeel, 2000) وب‌کاوی به صورت زیر تعریف شده است:
<<وب کاوی به کارگیری تکنیک های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس‌های وب می‌باشد>>.
البته تکنیک‌های وب‌کاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیک‌های مختلفی از سایر زمینه‌های تحقیقاتی همچون پایگاه داده‌ها، بازیابی اطلاعات، پردازش زبان طبیعی و غیره قابل استفاده در این زمینه می‌باشند. همچنین تکنیک‌های وب‌کاوی می‌توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیک‌های وب‌کاوی به صورت مستقیم مشکلات مطرح شده را حل می کند. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین می‌کند، مثالی از این رویکرد می‌باشد. اما در رویکرد غیر مستقیم، تکنیک‌های وب‌کاوی به عنوان بخشی از یک روش جامع‌تر که به حل این مشکلات می پردازد، مورد استفاده قرار می‌گیرند.

مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد:

پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می‌باشد.

انتخاب اطلاعات و پیش‌پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش‌پردازش می‌شوند.

تعمیم : در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می‌شود.

تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می‌شوند.

در مرحله اول داده‌ها از منابع موجود در وب مانند خبرنامه‌های الکترونیکی، گروه‌های خبری، اسناد HTML، پایگاه داده‌های متنی و غیره بازیابی می‌شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرایند تبدیل داده‌های بازیابی شده در مرحله قبل می‌باشد. این پیش‌پردازش می‌تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده‌ها به قالب رابطه‌ای یا منطق مرتبه اول باشد. در مرحله سوم، از تکنیک‌های داده‌کاوی و یادگیری ماشین برای تعمیم استفاده می‌شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرایند استخراج اطلاعات و دانش از وب ایفا می‌کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.
به این ترتیب وب کاوی، فرایند کشف اطلاعات و دانش ناشناخته و مفید از داده‌های وب می‌باشد. این فرایند به طور ضمنی شامل فرایند کشف دانش در پایگاه داده‌ها (KDD) نیز می‌شود. در واقع وب‌کاوی گونهی توسعه یافته KDD است که بر روی داده‌های وب عمل می‌کند.

انواع وب‌کاوی

روش‌های وب‌کاوی بر اساس آن که چه نوع داده‌ای را مورد کاوش قرار می‌دهند، به سه دسته تقسیم می‌شوند:

کاوش محتوای وب: کاوش محتوای وب فرایند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا می‌تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست‌ها و جداول باشد. در این میان کاوش متن بیش از سایر زمینه‌ها مورد تحقیق قرار گرفته است. از جمله این تحقیقات می‌توان به تشخیص موضوع، استخراج الگوهای ارتباط ، خوشه‌بندی و طبقه‌بندی اسناد وب اشاره کرد. روش‌ها و تکنیک‌های موجود در این گروه، از تکنیک‌های بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده می‌کنند.

کاوش ساختار وب : وب را می‌توان به صورت گرافی که گره‌های آن اسناد و یال‌های آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرایند استخراج اطلاعات ساختاری از وب می‌باشد.

کاوش استفاده از وب : کاوش استفاده از وب، کاربرد تکنیک‌های داده‌کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می‌باشد. این نوع از وب‌کاوی، داده‌های مربوط به استفاده کاربران از وب را مورد کاوش قرار می‌دهد.

باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک‌های کاوش محتوای وب می‌توانند علاوه بر به کارگیری متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنین می‌توان از ترکیب تکنیک‌های فوق برای حاصل شدن نتایج بهتر استفاده کرد.

شخصی‌سازی وب

هر اقدامی که اطلاعات یا سرویس‌های فراهم شده توسط یک وب‌سایت را با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وب‌سایت سازگار می‌کند، شخصی‌سازی وب نامیده می‌شود (Eirinaki, 2003).
هدف یک سیستم شخصی‌سازی وب عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آن‌ ها.
با شخصی‌سازی وب، دسترسی به محتویات از صفحات وب و یا اصلاح محتویات وب، بهتر و با توجه به خواسته هر کاربر می‌تواند انجام شود. این امر ممکن است شامل ایجاد صفحات وب جدید باشد که هر کاربر با درخواست خود می‌تواند اسنادی از وب را بازیابی کند. شخصی‌سازی می‌تواند به‌عنوان نوعی از خوشه‌بندی، دسته‌بندی و یا حتی پیش‌بینی دیده شود. در دسته‌بندی، خواسته‌های کاربر براساس کلاس‌ها تعیین می‌شود. از طریق خوشه‌بندی، خواسته‌های تعیین شده براساس کاربرانی که خواسته‌های مشابه دارند، تعیین می‌شود. در نهایت، پیش‌بینی برای این مورد که کاربران چه چیزی واقعاً می‌خواهند ببینند، به کار می‌رود.

دلایل نیاز به شخصی‌سازی وب

دلایل نیاز به شخصی‌سازی وب را می‌توان بصورت زیر بیان کرد:

گرانبار شدن اطلاعات: وب جهانی منبعی عظیم از اطلاعات را فراهم آورده است. در بررسی‌های گوناگون انجام شده در زمینه‌ی گسترش وب تخمین زده شده است که روزانه بیش از یک میلیون صفحه به وب اضافه می‌شود و بیش از ۶۰۰ گیگابایت از صفحات در هر ماه تغییر می‌کنند (Nasraoui, & et. Al., 2008) و (Achananuparp, & et. al., 2007). این پدیده که گرانبار شدن اطلاعات نامیده می‌شود مشکلاتی را برای کاربران وب بوجود آورده است.از مهم‌ترین این مشکلات عدم دسترسی آسان به اطلاعات مورد نیاز می‌باشد.

نیاز به جذب مشتری پابر‌جای برای وب‌سایت: ظهور سرویس‌های مبتنی بر وب مانند تجارت الکترونیکی، یادگیری تحت وب و بانکداری الکترونیکی موجب تغییرات اساسی در روش استفاده از اینترنت شده است و وب‌سایت ها را به محیطی برای تجارت تبدیل کرده است و موجب افزایش رقابت بین آن‌ ها شده است. با وجود رقبایی که تنها یک کلیک از وب‌سایت مورد نظر فاصله دارند نیاز به افزودن خدمات اضافی به سرویس‌های وب به عنوان لازمه‌ی ایجاد مشتری پابرجای به وضوح احساس می‌شود. این خدمات اضافی تنها با تمرکز بر نیازها و علایق فردی مشتریان و فراهم کردن سرویس‌ها و محصولات متناسب با آن‌ ها امکان‌پذیر است.

مراحل شخصیسازی وب

در سیستم شخصی‌سازی وب، انواع مختلفی از کارها می‌تواند اجرا شود. این تابع‌ها یا کارها تعدادی از نیازها را در سیستم شخصی سازی وب برآورده می‌کند که هدفش توسعه سیستم قدرتمند و انعطاف‌پذیر است ( شکل ۲-۱). در ادامه لیستی از نیازهای کلی برای شخصی سازی وب ارائه می‌شود.

شکل ۳- ۱: فرایند شخصی سازی وب

جمع‌ آوری داده

اولین مرحله در پروسه شخصی‌سازی وب، جمع‌ آوری داده‌های مرتبط از طریق وب است که برای آماده کردن اطلاعات مفید از رفتار کاربران تحلیل می‌شود. دو منبع اصلی از داده برای کندوکاو وب وجود دارد: داده‌های روی وب سرور و داده‌های طرف کاربر. در وب سرور، داده‌ها جمع‌ آوری می‌شوند و در فایل‌های لاگ ذخیره می‌شوند. این داده‌ها شامل انواع مختلفی از لاگ‌های تولید شده با بهره گرفتن از وب سرور است. این لاگ‌ها، صفحات وب ملاقات شده بوسیله کاربران را ثبت می‌کند. اکثر وب سرور‌ها به‌عنوان یک گزینه پیش‌فرض از فرمت فایل لاگ نگهداری می‌شود که شامل اطلاعاتی درباره آدرس IP مشتری که درخواست داده، نام میزبان، نام کاربری، زمان درخواست کاربر، اسم فایلی که درخواست کرده و اندازه فایل است.
ابزارهای وب کاوی از فایل‌های لاگ وب سرور به‌عنوان منبع اصلی داده برای کشف الگوهای مفید استفاده می‌کند. اما فایل‌های لاگ نمی‌تواند همیشه منبع قابل اعتماد از اطلاعات، درباره یک سایت باشد. داده‌های خوب و مفید یک مسئله جدی و مهم در شخصی‌سازی وب است که برای شناسایی کاربران به منظور کشف نیازها و علاقه‌مندی‌های آنها مورد استفاده قرار می‌گیرد.
داده طرف کاربر از هاست یا میزبان که در وب سایت قابل دسترس است، جمع‌ آوری می‌شود. یکی از روش‌های رایج برای بدست آوردن داده‌های طرف کاربر، فرستادن یک مأمور یا عامل اطلاعاتی از راه دور است، که با جاوا یا جاوا اسکریپت پیاده‌سازی می‌شود. این عامل اطلاعاتی در صفحات وب جاسازی می‌شود. جاوا برای جمع‌ آوری اطلاعات به طور مستقیم از سمت کاربر مورد استفاده می‌شود، برای مثال زمان که کاربر به صفحه وب دسترسی پیدا می‌کند یا صفحه وب را ترک می‌کند، لیستی از سایت‌های ملاقات شده قبل و بعد از سایت جاری و تاریخچه گشت و گذار کاربران جمع‌ آوری و ذخیره می‌شوند. داده‌های طرف کاربر قابل اعتمادتر از داده‌های طرف سرور هستند.

پردازش داده

پیش‌پردازش داده‌ها یک پروسه پیچیده در داده‌کاوی است. پیش‌پردازش داده‌ها شامل از بین بردن و کاهش داده‌های نامرتبط، حذف نویز ، تبدیل و رمزگذاری داده‌ها و رفع هر گونه ناسازگاری است. تبدیل داده و رمزگذاری داده‌ها، مهمترین عامل در داده‌کاوی موفق است. در شخصی‌سازی وب، این مرحله شامل، فیلتر کردن داده، شناسایی کاربران و جلسات کاربر است که مراحلی مهم در کشف الگو است.

کشف الگو

در این پردازش، دانش با بهره گرفتن از یادگیری ماشین و روش‌های آماری مانند خوشه‌بندی، دسته‌بندی و کشف الگوهای ترتیبی کشف می‌شود. برخلاف ابزارهای پیش‌پردازش داده، روش‌های کشف الگو مستقل از دامنه هستند که می‌توانند برای تعداد زیادی از دامنه‌های مختلف اجرا شوند بدون این که به محتویات صفحات وب دسترسی وجود داشته باشد.

مرجع ایده ها و آموزش های علمی

مرجع ایده ها و آموزش های علمی

جستجو

آخرین مطالب

موضوعات

فیدهای XML