۲-pos

 

FW VBP,VBP NN

 

 

 

۳-pos

 

FW VBP NN

 

 

 

خصیصه‌های ۳-POSWORD

 

۳-POSWORD

 

I/FW go/VBP home/NN

 

 

 

آگراوال و میتال سال ۲۰۱۳ تحقیقی را انجام داده‌اند [۵] که در این تحقیق از روش‌های انتخاب خصیصه سودمندی اطلاعات و حداقل‌ افزونگی - حداکثر ‌وابستگی استفاده شده است، همچنین از خصیصه‌های Unigram و Bigram و گزیده‌ای از کلمه‌-‌‌POS در جهت مدل‌سازی متن بهره‌گرفتند. طبقه‌بندی در این تحقیق بر روی مجموعه داده بازبینی فیلم‌ها دقت بالاتری نسبت به روش ارائه شده توسط عباسی و همکارانش داشت. آنها نشان دادند که روش انتخاب خصیصه حداقل ‌افزونگی - حداکثر وابستگی عملکرد بهتری نسبت به سودمندی اطلاعات دارد. از جمله مشکلات روش ارائه شده توسط آگراوال و میتال مجموعه خصیصه‌های مورد استفاده آنها می‌باشد که در این رساله مجموعه خصیصه‌های مناسب‌تری برای تحلیل احساس موجود در متن ارائه می‌شود.
دانلود پایان نامه - مقاله - پروژه
جدول ۲-۲ مجموعه کاملی از خصیصه ها N-gram
همانطور که در جدول ۲-۲ می‌بینید مجموعه خصیصه‌هایی N-gram که برای مدلسازی اسناد می‌توان از آنها بهره گرفت بسیار زیاد هستند؛ هر کدام از این مجموعه خصیصه‌ها خود با یک بردار با هزاران خصیصه اسناد را مدلسازی می‌کنند، بسیاری از این خصیصه‌ها افزونه و یا با تحلیل احساس غیر مرتبط هستند. برای دستیابی به دقت و سرعت بالاتر در عملیات طبقه‌بندی بهتر است از یک الگوریتم انتخاب خصیصه بهره بگیریم تا بتوانیم سودمندترین خصیصه‌ها را از میان هزاران خصیصه استخراج کنیم و عملیات طبقه‌بندی و تحلیل احساس را با سرعت و دقت بیشتری انجام دهیم.
سی و گوپتا در سال ۲۰۱۳ مقاله‌‌ای را ارائه کرده‌اند، آنها بجای استفاده از روش‌های انتخاب خصیصه پیچیده تلاش کرده‌اند ترکیب مناسبی از خصیصه‌ها را جهت دستیابی به دقت بالاتر در عملیات طبقه‌بندی، بیابند. همچنین برای کاهش دادن اندازه بردار خصیصه و حذف خصیصه‌های غیر مرتبط از sentiwordnet استفاده کرده‌اند. مجموعه داده این تحقیق اندازه کوچکتری نسبت به مجموعه داده مورد بررسی در سایر تحقیقات ذکر شده داشته است[۷]. در تحقیق مذکور با فیلتر کردن خصیصه‌هایی که وزن مثبت یا منفی آنها (وزن هر کلمه همان مقداری بین ۰ و ۱ است که از Sentiwordnetاستخراج شده است) کمتر از ۰٫۵ بود، تعداد خصیصه‌ها را کاهش داده‌اند. ویژگی این روش استفاده از ترکیب های ساده و متفاوت، همچنین کاهش تعداد خصیصه‌ها با بهره گرفتن از Sentiwordnet است. مشکل اصلی این روش مجموعه داده مورد استفاده در آن است؛ این مجموعه داده قابلیت نشان دادن پایداری روش را ندارد.
فاز اول تحلیل احساس ارائه مدل مناسبی برای اسناد است. در رساله جاری از سه کار [۱]، [۷] و [۵] برای مدل‌سازی اسناد الهام گرفته شده است. تحقیق [۱] مدلی جامع از خصیصه‌های N-gram ارائه داده است، ولی تعداد مجموعه خصیصه‌های آن زیاد است، افزایش خصیصه‌ها در بردار خصیصه‌ها، باعث افزایش خصیصه‌های افزونه و غیر مفید خواهد شد. وجود خصیصه‌ی غیر مفید یا افزونه در بردار خصیصه‌های حاصل از مدلسازی اسناد باعث می‌شود، اثرگذاری سایر خصیصه‌های سودمند و مرتبط با تحلیل احساس کاهش یابد لذا به همان نسبت دقت طبقه‌بندی نیز کاهش می‌یابد، همچنین باعث افزایش حجم بردار خصیصه خواهد شد در نتیجه ما را با مشکل حافظه مواجه خواهد کرد و سرعت طبقه‌بندی را به شدت کاهش می‌دهد. تعداد زیاد خصیصه‌ها، ما را در استفاده از الگوریتم انتخاب خصیصه محدود می‌کند. در این رساله تلاش بر آن بوده مجموعه کاهش یافته‌ای از خصیصه‌ها را برای مدل‌سازی اسناد برگزینیم، به گونه‌ای که مدل مناسبی از اسناد را برای تحلیل احساس ارائه دهند. تحقیق [۵] مدلی ترکیبی از خصیصه‌ها n-gram را را ارائه داده است و این مدل را روی ۴ مجموعه داده تست کرده‌ تا پایداری روش پیشنهادی خود را بررسی کنند. مجموعه خصیصه‌های مورد استفاده در تحقیق مذکور عبارت بودند از: ۱- خصیصه‌های unigram 2- خصیصه‌های bigram 3- ترکیب این دو مجموعه خصیصه‌ها.
الف- خصیصه‌های unigram: در ابتدا بردار خصیصه‌های unigram را از متن استخراج کرده‌اند سپس مدل حاصل را با بهره گرفتن از الگوریتم‌های یادگیری ماشین طبقه‌بندی کرده‌اند؛ در این روش آنها به دقت طبقه‌بندی ۸۲٫۷% در مجموعه داده بازبینی فیلم ها دست یافتند. حالت دوم با الگوریتم انتخاب خصیصه حداقل افزونگی – حداکثر وابستگی خصیصه‌های غیرسودمند را از مدل حاصل در مرحله قبل فیلتر کرده‌اند؛ در این حالت به حداکثر دقت ۸۹٫۲% دست یافتند.
ب- خصیصه‌های bigram: این مجموعه خصیصه بدون اعمال الگوریتم انتخاب خصیصه‌ای از متن استخراج شده‌اند و دقت بدست آمده از طبقه‌بندی ۷۹٫۲% برای مجموعه داده بازبینی فیلم‌ها بوده است. در حالت دوم با اعمال الگوریتم انتخاب حداقل افزونگی – حداکثر وابستگی به حداکثر دقت ۸۱٫۱% دست یافتند.
ج- ترکیب خصیصه‌های unigram و bigram: این مجموعه خصیصه بدون هیچ گونه انتخاب خصیصه‌ای از متن استخراج شده‌اند در این روش آنها توانستند مجموعه داده بازبینی فیلم‌ها را با دقت ۸۷٫۰% طبقه‌بندی کنند. در روش دوم با الگوریتم انتخاب خصیصه حداقل افزونگی – حداکثر وابستگی به حداکثر دقت ۹۱٫۱% دست یافتند و با اعمال الگوریتم انتخاب خصیصه سودمندی اطلاعات به دقت طبقه‌بندی ۹۰٫۱% دست یافتند.
نتایج بالا نشان از عملکرد مطلوب خصیصه‌های unigram و سودمند نبودن خصیصه‌های bigram دارد، و تصدیق کننده نتایجی است که سال ۲۰۰۲ pang و همکارانش به آن دست یافتند، به این دلیل که آگراوال و میتال به پراکندگی و نرمالسازی خصیصه‌های bigram هیچ توجهی نکرده‌اند. آنها تلاش کرده‌اند تعداد خصیصه‌ها را کاهش دهند در صورتی که میتوان تعداد خصیصه‌ها را با حفظ تعادل تعداد بین خصیصه‌های unigram، bigram و trigram تا حدی افزایش داد، تا بتوانیم به نتایج بهتر دست یابیم.
در رساله جاری برای تست پایداری روش پیشنهادی، ۴ مجموعه داده را برای تست و ارزیابی در نظر گرفته‌ایم، مدلی که در این رساله ارائه شده است دقت طبقه‌بندی را نسبت به [۱] و [۵] افزایش داده است. محققین در [۷] با بررسی انواع خصیصه‌های متفاوت ترکیب مناسبی از خصیصه‌ها را ارئه داده‌اند. ما نیز برای یافتن خصیصه‌های مطلوب در جهت مدل‌سازی اسناد ترکیب خصیصه‌های متفاوت را مورد بررسی قرار داده‌ایم.
الگوریتم‌های انتخاب خصیصه
در عصر فناوری اطلاعات با حجم زیادی از داده‌ها روبرو هستیم. می‌توان دانش مفیدی از این حجم زیاد داده استخراج کرد. بهتر است بگوییم به دلیل مشکلاتی که برای نگهداری، ذخیره سازی و پردازش این حجم داده‌ها مطرح می‌شود، اگر اطلاعاتی از داده استخراج نکنیم یک فقدان است. حجم زیاد داده‌ها به رسانه‌های ذخیره سازی و همچنین حافظه اصلی زیادی برای پردازش نیاز دارند. باید توجه داشته باشیم حجم قابل توجهی از این داده‌ها، غیر مفید، افزونه و یا غیر مرتبط هستند. لذا ضرورتی در نگهداری و یا پردازش همه این داده ها وجود ندارد. بهتر است فکری اندیشیده شود تا این داده‌های غیر ضروری حذف شوند و در فرایندهای مهم و پرهزینه وارد نشوند. الگوریتم‌های انتخاب خصیصه نیز همین هدف را دنبال می‌کنند. چنانچه مدلی ارائه شود این مدل متشکل از ده‌ها هزار خصیصه باشد، بسیاری از این خصیصه‌ها برای فرایند تحلیل احساس مفید نخواهند بود پس بهتر است این خصیصه‌ها به اشغال کردن حافظه و گرفتن سرعت عملیات منجر نشوند. ضمن اینکه از طرفی دقت عملیات را نیز کاهش خواهند داد.
الگوریتم‌های انتخاب خصیصه متعددی وجود دارد و در تحقیقات از اغلب آنها استفاده شده است.
بطور کلی دو نوع روش انتخاب خصیصه وجود دارد:

 

 

  • تک متغیره.

 

 

 

  • چند متغیره.

 

 

روش تک متغیره هر خصیصه را به تنهایی در نظر می‌گیرد، خصیصه را ارزیابی کرده و یک رتبه به آن می‌دهد. مانند الگوریتم‌های مربع کای[۱۶] ، درست نمایی لگاریتمی[۱۷] و سودمندی اطلاعات[۱۸] . هر چند این روش‌ها سریع هستند ولی چون هر خصیصه را به تنهایی ارزیابی می‌کنند و به ارتباط بین آن خصیصه با سایر خصیصه‌ها توجهی ندارند، دقت کمتری دارند. این نوع الگوریتم‌ها به دلیل پیچیدگی زمانی کمتری که دارند، برای مجموعه داده‌هایی که بردار خصیصه‌های بزرگتری دارند مناسب‌اند [۱].
انتخاب سودمندترین خصیصه‌ها از میان تعداد بسیار زیاد خصیصه‌ها می‌تواند باعث افزایش دقت عملکرد الگوریتم طبقه‌بندی شود [۲۶]. شکل ۲-۱ مهمترین الگوریتم‌های انتخاب خصیصه تک متغیره را نشان می‌دهد.
شکل ۲-۱ مهمترین الگوریتم های انتخاب خصیصه تک متغیره
روش‌های انتخاب خصیصه‌ی تک متغیره نسبت به روش‌های چند متغیره پیچیدگی زمانی کمتری دارند به همین دلیل در بسیاری از تحقیق‌ها از روش‌های تک متغیره استفاده شده است.
[۸] و [۱۵] برای طبقه‌بندی متن از سودمندی اطلاعات استفاده کرده‌اند. تحقیق [۳] با اتکا به نتایج [۸] و [۱۵] روش سودمندی اطلاعات را برای انتخاب سودمندترین خصیصه‌ها برگزید. عباسی و همکارانش با بهره گرفتن از سودمندی اطلاعات و انتخاب سودمندترین خصیصه‌ها به دقت ۹۲٫۵% در تحلیل احساسات و عقاید موجود در متن مجموعه داده بازبینی فیلم دست یافتند. آنها در این تحقیق برای طبقه‌بندی از روش SVM بهره برده‌اند.
در [۱۶] برای انتخاب خصیصه از روش مربع کای استفاده شده است. آنها بهترین نتیجه خود را با بکارگیری طبقه بند SVM و حداکثر آنتروپی به صورت ترکیبی بدست آوردند. باید توجه کنیم برای بهبود طبقه‌بندی بهتر است، بتوانیم مدل درستی از اسناد را ارائه دهیم، تا به دقت بالاتری دست یابیم. استفاده همزمان و ترکیبی از چند الگوریتم طبقه‌بندی باعث افزایش پیچیدگی زمانی خواهد شد و نهایتا برای مجموعه داد‌های متفاوت لزوما باعث افزایش دقت طبقه‌بندی نخواهد شد. استفاده ترکیبی از چند الگوریتم طبقه‌بند برای یک مجموعه داده نمی‌تواند راه حلی برای بهبود سرعت و دقت طبقه‌بندی متون باشد. در عوض استفاده از چند طبقه‌بند می‌تواند از چند فیلتر انتخاب خصیصه استفاده کرد، یا به دنبال مدل مناسبتری برای مدلسازی اسناد باشیم.
[۲۰], [۲۵],[۱۴] از روش درست نمایی لگاریتمی استفاده کردند. در بین سه مقاله ذکر شده مقاله [۲۰] به حداکثر دقت ۹۰% دست یافت.
روش‌های چند متغیره پر استفاده‌ای نیز وجود دارد که استفاده از آنها باعث کاهش معقول تعداد خصیصه‌ها و افزایش نامعقول پیچیدگی زمانی خواهد شد
شکل ۲-۲ تعدادی از روش‌های چند متغیره انتخاب خصیصه که در سال‌های اخیر ارائه شده‌اند را نشان می‌دهد. در این قسمت بحث زیادی نخواهیم کرد، فقط کارهایی که از این روش‌ها استفاده کرده‌اند را بیان می‌کنیم. مهمترین مشکل این روش‌ها پیچیدگی زمانی آنها است. اگر اسناد بزرگ باشند و تعداد خصیصه‌ها زیاد باشد این روش‌ها عملا ناکارآمد خواهند بود. چنانچه اسناد کوچک باشند و تعداد خصیصه‌ها نیز کم باشد می‌توان از روش‌های چند متغیره استفاده کرد، ولی امروزه در عصر اطلاعات با حجم فراوانی از داده‌ها مواجه هستیم بهتر است راه حل‌هایی برای مدیریت داده ها ارائه شود.
عباسی و همکارانش در سال ۲۰۰۷ با ترکیب کردن الگوریتم ژنتیک با الگوریتم سودمندی اطلاعات روش انتخاب خصیصه EWGA[19] را ارائه دادند با بهره گرفتن از این روش توانستند به دقت طبقه‌بندی ۹۵% دست یابند[۳] . این الگوریتم انتخاب خصیصه به خوبی کار می‌کند، ولی پیچیدگی زمانی این روش قابل توجه است. عباسی و همکارانش مقایسه‌ای که در مقاله سال ۲۰۱۳ خود انجام داده‌اند زمان لازم برای انتخاب سودمندترین خصیصه‌ها برای الگوریتم ژنتیک/سودمندی اطلاعات را بالغ بر ۶۰۰۰ دقیقه بیان کرده‌اند. لذا برای تحلیل داده ها با حجم زیاد نمی‌توان به این روش ها متکی بود.
ما برای حذف خصیصه‌های غیر مفید همانطور که پیش از این نیز به آن اشاره کرده‌ایم از روش‌های تک متغیره استفاده خواهیم کرد.
فصل بعد به ارائه روش پیشنهادی خواهیم پرداخت. در این رساله سه روش با کاربردهای متفاوت ارائه شده است. سپس روش های مورد نظر برای زبان فارسی نیز تعمیم داده شده‌اند و بر مجموعه داده زبان فارسی نیز اعمال شده اند.
شکل ۲-۲ مهمترین روش های انتخاب خصیصه چند متغیره

موضوعات: بدون موضوع
[جمعه 1400-07-23] [ 12:22:00 ب.ظ ]