خوشهبندي يك شكل كلي از دادهكاوي است و هدف آن گروهبندي مجموعه اشيا مشابه در خوشههاي يكسان و مجموعه دادههاي غير مشابه در خوشههاي مجزا است. با توجه به رشد اسناد الكترونيكي استفاده از يك روش خودكار كه خوشهبندي را با دقت زياد و زمان مصرفي كم انجام دهد به يك ضرورت تبديل شده است براي رفع اين عيبها الگوريتم جديدي براي خوشهبندي اسناد بر اساس تركيب الگـــوريتم خوشهبندي بر پايهي جمعيت مورچه و الگوريتم ميانگين-كا پيشنهاد ميشود كه داراي مزاياي دقت و سرعت زياد است. نتايج پيادهسازي نشانگر بهبود دقت و سرعت است. ايراد اصلي روش پيشنهادي وابستگي به مقادير پارامترهاي استفاده شده است كه ميتوان در پژوهشهاي آتي آن را رفع نمود.
|
کد QR محصول |
خوشـــهبندي یک شکل از طبقهبنـــدی است كه بر روي يك مجموعهي متناهي از اشيا تحميل ميشود. هدف خوشه بندی عبارت است از گروه بندی مجموعهی اشیاي مشابه در خوشههاي یکسان و در خوشه هاي مجزا اگر اشیا غیرمشابه باشند. خوشه بندي یک شكل كلي از داده کاوی است و در زمینه های زیاد شامل متراکم سازی داده ها، تقسیم به قطعات ساخت، مقدار دار کردن برداری، دید کامپیوتری و کاربرد های تجاری زیاد بکار بسته شده است. بعضی از الگوریتم ها فرض می کنند که تعداد خوشهها از قبل بعنوان یک پارامتر کاربر مشخص می شود. توابع هدف مختلفي ممکن است بكار برده شود تا يك تعيين كمّي مربوط به چگونگي خوب خوشهبندي نقاط را بسازد. قسمت ضــروری خوشهبندي طـبقهبـندی همـهی اشیاي داخل گروههای مختلف است بطوریکه به بعضی شرایط بهینه برسـیم. (1978، P. Brucker) و (1997، W.J. Welch) ثابت کردند میشود وقتیکه تعداد خوشهها از سه تا متجاوز شــود دستهبندي برخي از توابـع هدف خاص، به مسأله NP-hard تبديل ميشود. (1987، P. Hansen، B. Jaumard) نشــان دادند که با اينكه برای بعضی توابع هدف ویژه بهترین الگوریتــــمها را بنويسيم، ولي پیچیـــدگی آنها با O(N3 logN) یا O(N3) برابر است، بنابراین بهبودهای بیشتر میتواند این شکاف را کامل کند (2009، Urszula Boryczka). پنج نوع الگوریتم ابتكاري برای خوشهبندي تعیین شده بود (شكلهاي نظير روشهاي ابتكاري به كار رفته در اين شيوهها):خوشهبندي آماری؛ •برنامه نویسی ریاضیاتی؛ •برنامه نویسی شبکه ای؛ •شبکه ی عصبی؛ •فراابتكاري؛ (2009، Urszula Boryczka).
خوشهبندي غير از طبقه بندي متن است چون مرحله ي آموزش با استفاده از اسناد برچسب دار وجود ندارد(2007، Yanjun Li، Soon M. Chung، John D. Holt).هرچقدر روش خوشهبندي استفاده شده دقيقتر باشد، نتايج به دست آمده از جستجو نيز دقيقتر خواهد بود. بنابراين دقت روش خوشهبندي استفاده شده از اهميت بالايي برخوردار است. از طرفي اين افزايش دقت نبايد زمان مصرفي را تا حدي بالا ببرد كه براي كاربر اذيت كننده باشد. بنابراين زمان الگوريتم استفاده شده داراي اهميت است.در بخش دوم اين مقاله روشهاي رايج خوشهبندي اسناد مورد مطالعه قرار ميگيرد و مزايا و معايب آنها بيان ميشود. در بخش سوم مقاله سعي ميكنيم يك روش جديد ارائه شود كه هدف آن افزايـش دقت و سرعت خوشهبندي است. در بخش چهارم مقاله نتايج بدست آمده از اين الگوريتم بيان ميشود.