تحقیق تحلیل احساسات با استفاده از خوشه‌بندی گروهی مبتنی بر Kmeans++

دسته بندي : فنی و مهندسی » کامپیوتر و IT
توضیحات:
تحقیق تحلیل احساسات با استفاده از خوشه‌بندی گروهی مبتنی بر Kmeans++، در قالب فایل Word.

چکيده
تحلیل احساسات یکی از زیرشاخه‌های پردازش زبان طبیعی است که هدف آن طبقه‌بندی متون با توجه به احساسات و یا نگرش‌های بیان‌شده هست و به دنبال طراحی ابزاری جهت استخراج خودکار احساسات از مرورهای منتشرشده بر روی شبکه‌های اجتماعی است. تحلیل احساسات کاربران، یکی از مهم‌ترین منابع برای مشخص کردن احساسات عمومی است و اطلاعات ارزشمندی از جنبه‌ی مثبت و منفی یک موضوع مشخص را استخراج می‌کند. امروزه این حوزه از تحقیق به علت گسترش روزافزون وب و رسانه‌های ارتباطی اهمیت بسیاری یافته است. دو روش یادگیری ماشین و مبتنی بر لغت‌نامه جهت استخراج خودکار معنایی و تحلیل احساسات وجود دارد. در سال‌های اخیر پژوهش‌های مختلفی درزمینه استفاده از روش‌های یادگیری ماشین برای تحلیل احساسات انجام‌شده است. روش‌های یادگیری ماشین به سه دسته‌ی با ناظر، نیمه ناظر و بدون ناظر تقسیم‌بندی شده‌اند. درزمینه تحلیل احساسات، اغلب از مدل‌های با ناظر استفاده می‌کنند. درروش های با ناظر نیاز به تعداد زیادی داده برچسب‌گذاری شده وجود دارد تا بتوانند مدل طبقه بند موردنظر را آموزش دهند که این برچسب‌گذاری دستی معمولاً پرهزینه و زمان‌بر است و با مشکل وابستگی به حوزه کاربرد مواجه هستند. هدف این پژوهش، توصیف یک رویکرد کاملاً خودکار و بدون ناظر برای تحلیل احساسات هست که شامل دو مرحله تحلیل متنی و یادگیری گروهی بدون ناظر است. در پیاده‌سازی هر دو مرحله، از یک مجموعه از لغات احساسی SentiWordNet، استفاده‌شده است. در این پژوهش، ویژگی‌های صفت و قید از اسناد استخراج می‌شوند و سپس ماتریس‌های وزن‌دار حضور و فرکانس و Vsm ها از مجموعه‌های داده ایجاد می‌شوند و این ماتریس‌ها به‌عنوان ورودی به الگوریتم خوشه‌بندی Kmeans و gmm داده می‌شوند. همچنین از یک روش یادگیری گروهی استفاده می‌شود که نتایج حاصل از الگوریتم‌های پایه با ورودی‌های مختلف به یک الگوریتم Mojority voting داده می‌شود و طبقه‌بندی نهایی احساسات متون انجام می‌شود. همچنین، به‌جای الگوریتم Kmeans از الگوریتم‌های Kmeans++ استفاده می‌شود. نتایج ارزیابی بر روی دو مجموعه داده خطوط هوایی استرالیا و سازندگان خانه (در استرالیا) نشان می‌دهند که روش پیشنهادی در مقایسه با روش‌های دیگر کارایی خوشه‌بندی را ازلحاظ دقت، پایداری و تعمیم‌پذیری، بهبود می‌بخشند.

سرفصل ها:
فصل 1- مقدمه و بیان مسئله 11
1-1- مقدمه12
1-2- بیان مسأله 12
1-3- اهمیت و ضرورت پژوهش 14
1-4- اهداف پژوهش 15
1-5- سؤالات پژوهش 15
1-6- فرضیه پژوهش 16
1-7- نوآوری پژوهش 16
1-8- ساختار پژوهش 16
فصل 2- پیشینه تحقیق 18
2-1- مقدمه19
2-2- تعریف واژه‌ها و اصطلاحات پژوهش 20
2-2-1- سطوح و رویکردهای تحلیل احساسات 20
2-2-2- قوانین زبانشناسی 22
2-2-3- روش‌های تحلیل احساسات 23
2-2-3-1- روش‌های مبتنی بر یادگیری ماشین 23
2-2-3-2- روش‌های مبتنی بر واژگان 25
2-2-3-3- روش‌های ترکیبی… 26
2-2-4- یادگیری گروهی (یادگیری تجمعی) 27
2-2-5- انواع ویژگی… 28
2-2-5-1- ویژگی‌های نحوی 28
2-2-6- واژه‌نامه لغات حسی 29
2-2-6-1- شبکه واژگان 30
2-2-7- تبدیل متن به بردارهای عددی 32
2-2-7-1- هدف از استخراج ویژگی‌های عددی از متن 32
2-2-8- رویکردهای مختلف بازنمایی برداری متون 32
2-2-8-1- مدل بردار کلمات با رویکرد کیف کلمات 34
2-2-8-2-مدل بردار کلمات با رویکرد بازنمایی معنایی توزیع شده 36
2-2-8-3-مدل‌های مستقل از زمینه کلمات 37
2-2-8-4-مدل‌های مبتنی بر زمینه کلمات 41
2-2-9-انواع الگوریتم‌های خوشه‌بندی 43
2-2-9-1- الگوریتم K-Means 43
2-2-9-2- الگوریتم++K-Means 44
2-2-9-3- الگوریتم خوشه‌بندی سلسله مراتبی (AHC) 44
2-2-9-4- الگوریتم خوشه‌بندی فازی 45
2-2-9-5- الگوریتم k-medoids 46
2-2-9-6- الگوریتم GMM 46
2-2-9-7- الگوریتم clara 47
2-2-9-8- الگوریتم DBSCAN 47
2-2-10- ارزیابی عملکرد روش‌های دسته‌بندی متن 47
2-2-10-1-معیار صحت 48
2-2-10-2-معیار یادآوری 48
2-2-10-3-معیار دقت 49
2-2-10-4-معیار امتیاز F1 50
2-2-11-روش اعتبارسنجی متقابل 50
2-3- پیشینه پژوهشی 51
فصل 3- روش پیشنهادی 63
3-1- مقدمه 64
3-2- روش پیشنهادی 65
3-2-1- پیش‌پردازش و تحلیل متنی خودکار 66
3-2-1-1- پیاده‌سازی sentiwordnet 69
3-2-1-2- تصحیح غلط املایی…. 69
3-2-1-3- مدیریت نفی…….. 70
3-2-1-4- مدیریت کنتراست70
3-2-2- مرحله پردازش 71
3-2-2-2-سنتی وردنت پیدا کردن فضای برداری(تولید 12 ماتریس دیگر) 74
3-2-2-3-الگوریتم k-means , گوسین gmm 75
3-2-2-4-مراکز قطبی)رفع مشکل ناپایداری) 77
3-2-3-کلمات خنثی و کاهش ویژگی 78
3-2-2-1-یادگیری گروهی78
فصل 4-تجزیه و تحلیل 83
4-1-مقدمه84
4-3-آزمایشات و تحلیل‌ها 87
4-3-1-مجموعه داده 87
4-3-1-1 -مجموعه داده‌های خطوط هوایی و سازندگان خانه 87
4-3-1-2-مجموعه داده‌های فیلم و چند دامنه 87
4-3-2-ارزیابی تأثیر پیش‌پردازش بروی مدل 88
4-3-3-ارزیابی پارامترها و مدل 90
4-3-4-بحث و بررسی و ارزیابی عملکرد با کارهای گذشته 95
4-4-جمع بندی 98
فصل 5- نتیجه گیری و پیشنهادات 99
5-1- مقدمه…. 100
5-1-1- نتایج تحقیق 100
5-1-2- مزایای روش پیشنهادی 101
5-1-3- محدودیت‌های روش پیشنهادی 101
5-2- مقایسه با سایر روش‌ها 102
5-3- پیشنهادات و کارهای آتی 102
فهرست مراجع 104
دسته بندی: فنی و مهندسی » کامپیوتر و IT

تعداد مشاهده: 603 مشاهده

فرمت فایل دانلودی:.rar

فرمت فایل اصلی: docx ,pdf

تعداد صفحات: 105

حجم فایل:15,313 کیلوبایت

 قیمت: 280,000 تومان
پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.   پرداخت و دریافت فایل
  • راهنمای استفاده:
    فایل دانلودی را با نرم افزار rar از حالت فشرده خارج نمایید.


  • محتوای فایل دانلودی:
    محتوای فایل دانلودی شامل فایل word و pdf است.

  • گالری تصاویر :