[۱۶]. Miranda, T., Claypool, M., Gokhale, A., Mir, T., Murnikov, P., Netes, D., & Sartin, M. (1999). Combining content-based and collaborative filters in an online newspaper. In In Proceedings of ACM SIGIR Workshop on Recommender Systems.
[۱۷]. Mobasher, B., Cooley, R., & Srivastava, J. (2000). Automatic personalization based on Web usage mining. Communications of the ACM, ۴۳(۸), ۱۴۲-۱۵۱٫
[۱۸]. Mobasher, B., Dai, H., Luo, T., Sun, Y., & Zhu, J. (2000). Integrating web usage and content mining for more effective personalization. In Electronic commerce and web technologies (pp. 165-176). Springer Berlin Heidelberg.
[۱۹]. Nasraoui, O., Frigui, H., Krishnapuram, R., & Joshi, A. (2000). Extracting web user profiles using relational competitive fuzzy clustering. International Journal on Artificial Intelligence Tools, ۹(۰۴), ۵۰۹-۵۲۶٫
[۲۰]. Nina, S. P., Rahman, M., Bhuiyan, K. I., & Ahmed, K. E. U. (2009, November). Pattern discovery of web usage mining. In Computer Technology and Development, 2009. ICCTD’09. International Conference on (Vol. 1, pp. 499-503). IEEE.
[۲۱]. Pamnani, R., & Chawan, P. (2010). Web Usage Mining: A research area in Web mining. Proceedings of ISCET, 73-77.
[۲۲]. Pani, S. K., Panigrahy, L., Sankar, V. H., Ratha, B. K., Mandal, A. K., & Padhi, S. K. (2011). Web usage mining: a survey on pattern extraction from web logs. International Journal of Instrumentation, Control & Automation (IJICA), ۱(۱), ۱۵-۲۳٫
[۲۳]. Peng, X., Cao, Y., & Niu, Z. (2008, December). Mining Web Access Log for the Personalization Recommendation. In MultiMedia and Information Technology, 2008. MMIT’08. International Conference on (pp. 172-175). IEEE.
[۲۴]. Shinde, S. K., & Kulkarni, U. V. (2008, December). A new approach for on line recommender system in web usage mining. In Advanced Computer Theory and Engineering, 2008. ICACTE’08. International Conference on (pp. 973-977). IEEE.
[۲۵]. Sujatha, N., & Iyakutty, K. (2010). Refinement of Web usage Data Clustering from K-means with Genetic Algorithm. European Journal of Scientific Research, ۴۲(۳), ۴۷۸-۴۹۰٫
[۲۶]. Suryavanshi, B. S., Shiri, N., & Mudur, S. P. (2006, June). Analysis of Fuzzy Clustering Techniques Used for Web Personalization. In Fuzzy Information Processing Society, 2006. NAFIPS 2006. Annual meeting of the North American (pp. 335-340). IEEE.
[۲۷]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.
[۲۸]. Xiao-Gang, W., & Yue, L. (2009, August). Web mining based on user access patterns for web personalization. In Computing, Communication, Control, and Management, 2009. CCCM 2009. ISECS International Colloquium on (Vol. 1, pp. 194-197). IEEE.
[۲۹]. Zhang, Y., Xu, G., & Zhou, X. (2005). A latent usage approach for clustering web transaction and building user profile. In Advanced Data Mining and Applications (pp. 31-42). Springer Berlin Heidelberg.
[۳۰]. Zhao, Q., & Bhowmick, S. S. (2003). Sequential pattern mining: A survey.ITechnical Report CAIS Nayang Technological University Singapore, 1-26.
[۳۱]. بهرنگ مسعودیفر، “ارائه روش هایی برای حل مشکل کاربر جدید در سیستمهای توصیه کننده همکارانه بر مبنای حافظه”، دانشگاه صنعتی امیر کبیر، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، ۱۳۸۵٫
نتیجه تصویری درباره فناوری اطلاعات
جهت دانلود متن کامل این پایان نامه به سایت abisho.ir مراجعه نمایید.
فصل سوم:
مبانی نظری و روش انجام تحقیق
مقدمه
وب گسترده جهانی بهعنوان محیط بزرگ برای توزیع اطلاعات است که دارای منابع اطلاعاتی گوناگون است. از اینرو وب یک مجموعه بزرگی از منابع اطلاعاتی ساختیافته و نیمهساخت یافته است که تعداد صفحات آن به سرعت در حال افزایش است. مشکل در سرریز شدن اطلاعات به هنگام انجام جستجویی توسط مرورگر انجام میشود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر میکنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ ۷٫۳ میلیون صفحه در روز افزایش مییابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریباً غیر ممکن است و ابزارها و روشهایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:
یافتن اطلاعات مرتبط
ایجاد دانش جدید با بهره گرفتن از اطلاعات موجود در وب
خصوصی سازی اطلاعات
تکنیکهای وب کاوی قادر به حل این مشکلات میباشند. در (Kosala, & Blockeel, 2000) وبکاوی به صورت زیر تعریف شده است:
<<وب کاوی به کارگیری تکنیک های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویسهای وب میباشد>>.
البته تکنیکهای وبکاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیکهای مختلفی از سایر زمینههای تحقیقاتی همچون پایگاه دادهها، بازیابی اطلاعات، پردازش زبان طبیعی و غیره قابل استفاده در این زمینه میباشند. همچنین تکنیکهای وبکاوی میتوانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیکهای وبکاوی به صورت مستقیم مشکلات مطرح شده را حل می کند. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین میکند، مثالی از این رویکرد میباشد. اما در رویکرد غیر مستقیم، تکنیکهای وبکاوی به عنوان بخشی از یک روش جامعتر که به حل این مشکلات می پردازد، مورد استفاده قرار میگیرند.
مراحل وب کاوی
وب کاوی شامل چهار مرحله اصلی می باشد:
پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر میباشد.
انتخاب اطلاعات و پیشپردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیشپردازش میشوند.
تعمیم : در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف میشود.
تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر میشوند.
در مرحله اول دادهها از منابع موجود در وب مانند خبرنامههای الکترونیکی، گروههای خبری، اسناد HTML، پایگاه دادههای متنی و غیره بازیابی میشوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرایند تبدیل دادههای بازیابی شده در مرحله قبل میباشد. این پیشپردازش میتواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی دادهها به قالب رابطهای یا منطق مرتبه اول باشد. در مرحله سوم، از تکنیکهای دادهکاوی و یادگیری ماشین برای تعمیم استفاده میشود. همچنین باید توجه داشت که کاربران نقش مهمی در فرایند استخراج اطلاعات و دانش از وب ایفا میکنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.
به این ترتیب وب کاوی، فرایند کشف اطلاعات و دانش ناشناخته و مفید از دادههای وب میباشد. این فرایند به طور ضمنی شامل فرایند کشف دانش در پایگاه دادهها (KDD) نیز میشود. در واقع وبکاوی گونهی توسعه یافته KDD است که بر روی دادههای وب عمل میکند.
انواع وبکاوی
روشهای وبکاوی بر اساس آن که چه نوع دادهای را مورد کاوش قرار میدهند، به سه دسته تقسیم میشوند:
کاوش محتوای وب: کاوش محتوای وب فرایند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا میتواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیستها و جداول باشد. در این میان کاوش متن بیش از سایر زمینهها مورد تحقیق قرار گرفته است. از جمله این تحقیقات میتوان به تشخیص موضوع، استخراج الگوهای ارتباط ، خوشهبندی و طبقهبندی اسناد وب اشاره کرد. روشها و تکنیکهای موجود در این گروه، از تکنیکهای بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده میکنند.
کاوش ساختار وب : وب را میتوان به صورت گرافی که گرههای آن اسناد و یالهای آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرایند استخراج اطلاعات ساختاری از وب میباشد.
کاوش استفاده از وب : کاوش استفاده از وب، کاربرد تکنیکهای دادهکاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران میباشد. این نوع از وبکاوی، دادههای مربوط به استفاده کاربران از وب را مورد کاوش قرار میدهد.
باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیکهای کاوش محتوای وب میتوانند علاوه بر به کارگیری متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنین میتوان از ترکیب تکنیکهای فوق برای حاصل شدن نتایج بهتر استفاده کرد.
شخصیسازی وب
هر اقدامی که اطلاعات یا سرویسهای فراهم شده توسط یک وبسایت را با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وبسایت سازگار میکند، شخصیسازی وب نامیده میشود (Eirinaki, 2003).
هدف یک سیستم شخصیسازی وب عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آن ها.
با شخصیسازی وب، دسترسی به محتویات از صفحات وب و یا اصلاح محتویات وب، بهتر و با توجه به خواسته هر کاربر میتواند انجام شود. این امر ممکن است شامل ایجاد صفحات وب جدید باشد که هر کاربر با درخواست خود میتواند اسنادی از وب را بازیابی کند. شخصیسازی میتواند بهعنوان نوعی از خوشهبندی، دستهبندی و یا حتی پیشبینی دیده شود. در دستهبندی، خواستههای کاربر براساس کلاسها تعیین میشود. از طریق خوشهبندی، خواستههای تعیین شده براساس کاربرانی که خواستههای مشابه دارند، تعیین میشود. در نهایت، پیشبینی برای این مورد که کاربران چه چیزی واقعاً میخواهند ببینند، به کار میرود.
دلایل نیاز به شخصیسازی وب
دلایل نیاز به شخصیسازی وب را میتوان بصورت زیر بیان کرد:
گرانبار شدن اطلاعات: وب جهانی منبعی عظیم از اطلاعات را فراهم آورده است. در بررسیهای گوناگون انجام شده در زمینهی گسترش وب تخمین زده شده است که روزانه بیش از یک میلیون صفحه به وب اضافه میشود و بیش از ۶۰۰ گیگابایت از صفحات در هر ماه تغییر میکنند (Nasraoui, & et. Al., 2008) و (Achananuparp, & et. al., 2007). این پدیده که گرانبار شدن اطلاعات نامیده میشود مشکلاتی را برای کاربران وب بوجود آورده است.از مهمترین این مشکلات عدم دسترسی آسان به اطلاعات مورد نیاز میباشد.
نیاز به جذب مشتری پابرجای برای وبسایت: ظهور سرویسهای مبتنی بر وب مانند تجارت الکترونیکی، یادگیری تحت وب و بانکداری الکترونیکی موجب تغییرات اساسی در روش استفاده از اینترنت شده است و وبسایت ها را به محیطی برای تجارت تبدیل کرده است و موجب افزایش رقابت بین آن ها شده است. با وجود رقبایی که تنها یک کلیک از وبسایت مورد نظر فاصله دارند نیاز به افزودن خدمات اضافی به سرویسهای وب به عنوان لازمهی ایجاد مشتری پابرجای به وضوح احساس میشود. این خدمات اضافی تنها با تمرکز بر نیازها و علایق فردی مشتریان و فراهم کردن سرویسها و محصولات متناسب با آن ها امکانپذیر است.
مراحل شخصیسازی وب
در سیستم شخصیسازی وب، انواع مختلفی از کارها میتواند اجرا شود. این تابعها یا کارها تعدادی از نیازها را در سیستم شخصی سازی وب برآورده میکند که هدفش توسعه سیستم قدرتمند و انعطافپذیر است ( شکل ۲-۱). در ادامه لیستی از نیازهای کلی برای شخصی سازی وب ارائه میشود.
شکل ۳- ۱: فرایند شخصی سازی وب
جمع آوری داده
اولین مرحله در پروسه شخصیسازی وب، جمع آوری دادههای مرتبط از طریق وب است که برای آماده کردن اطلاعات مفید از رفتار کاربران تحلیل میشود. دو منبع اصلی از داده برای کندوکاو وب وجود دارد: دادههای روی وب سرور و دادههای طرف کاربر. در وب سرور، دادهها جمع آوری میشوند و در فایلهای لاگ ذخیره میشوند. این دادهها شامل انواع مختلفی از لاگهای تولید شده با بهره گرفتن از وب سرور است. این لاگها، صفحات وب ملاقات شده بوسیله کاربران را ثبت میکند. اکثر وب سرورها بهعنوان یک گزینه پیشفرض از فرمت فایل لاگ نگهداری میشود که شامل اطلاعاتی درباره آدرس IP مشتری که درخواست داده، نام میزبان، نام کاربری، زمان درخواست کاربر، اسم فایلی که درخواست کرده و اندازه فایل است.
ابزارهای وب کاوی از فایلهای لاگ وب سرور بهعنوان منبع اصلی داده برای کشف الگوهای مفید استفاده میکند. اما فایلهای لاگ نمیتواند همیشه منبع قابل اعتماد از اطلاعات، درباره یک سایت باشد. دادههای خوب و مفید یک مسئله جدی و مهم در شخصیسازی وب است که برای شناسایی کاربران به منظور کشف نیازها و علاقهمندیهای آنها مورد استفاده قرار میگیرد.
داده طرف کاربر از هاست یا میزبان که در وب سایت قابل دسترس است، جمع آوری میشود. یکی از روشهای رایج برای بدست آوردن دادههای طرف کاربر، فرستادن یک مأمور یا عامل اطلاعاتی از راه دور است، که با جاوا یا جاوا اسکریپت پیادهسازی میشود. این عامل اطلاعاتی در صفحات وب جاسازی میشود. جاوا برای جمع آوری اطلاعات به طور مستقیم از سمت کاربر مورد استفاده میشود، برای مثال زمان که کاربر به صفحه وب دسترسی پیدا میکند یا صفحه وب را ترک میکند، لیستی از سایتهای ملاقات شده قبل و بعد از سایت جاری و تاریخچه گشت و گذار کاربران جمع آوری و ذخیره میشوند. دادههای طرف کاربر قابل اعتمادتر از دادههای طرف سرور هستند.
پردازش داده
پیشپردازش دادهها یک پروسه پیچیده در دادهکاوی است. پیشپردازش دادهها شامل از بین بردن و کاهش دادههای نامرتبط، حذف نویز ، تبدیل و رمزگذاری دادهها و رفع هر گونه ناسازگاری است. تبدیل داده و رمزگذاری دادهها، مهمترین عامل در دادهکاوی موفق است. در شخصیسازی وب، این مرحله شامل، فیلتر کردن داده، شناسایی کاربران و جلسات کاربر است که مراحلی مهم در کشف الگو است.
کشف الگو
در این پردازش، دانش با بهره گرفتن از یادگیری ماشین و روشهای آماری مانند خوشهبندی، دستهبندی و کشف الگوهای ترتیبی کشف میشود. برخلاف ابزارهای پیشپردازش داده، روشهای کشف الگو مستقل از دامنه هستند که میتوانند برای تعداد زیادی از دامنههای مختلف اجرا شوند بدون این که به محتویات صفحات وب دسترسی وجود داشته باشد.