کاربردهاي متن-کاوي :
همانطور که مي دانید تعاريف گسترده اي از متن-کاوي در دست است، در نتيجه اين عجيب نيست که در باره ي کاربردهاي متن کاوي نيز عقايد گوناگوني وجود داشته باشد. از اينرو ما تلاش مي کنيم که تعدادي از کاربردهاي مورد قبول از اين روند را بررسي کنيم و سعي در تطابق اين کاربردها با تعاريف قبلي نداشته باشيم.
اين موارد از ، ذکر مي شود و کمي نيز تصحيح شده است.
جستجو وبازيابي
گروه بندي ( دسته بندي بدون نظارت) و طبقه بندي (دسته بندي بانظارت)
خلاصه سازي
استخراج روابط
يافتن و تحليل ترندها
برچسب زدن نحوي
ساخت اتوماتيک آنتولوژي و تزاروس
....
همانطور که شما مي بيند بعضي از عناوين مشترک بين زمينه هايي چون بازيابي اطلاعات، هوش مصنوعي و نيز پردازش زبانهاي طبيعي است. من در اينجا مي خواهم که به طور مختصر به هر کاربرد بپردازم.
جستجو و بازيابي
روشهاي جديدي در رابطه با جستجو وبازيابي اطلاعات با درنظر گرفتن متن-کاوي، قابل تصور است. همانطور که قبلاً گفته شد، بازيابي اطلاعات داراي اين هدف است که از ميان مجموعه اي از مدارک و متون، آنهايي را که مرتبط ترند به نياز اطلاعاتي کاربر، جدا کنند و به کاربر نشان دهند. بنابر اين هميشه شرايطي هست که کاربر نتواند به نياز اطلاعاتي خود، حتي از ميان نتايج دريافت شده، برسد. ممکن است در ميان 100 مدرک نياز به مطالعه باشد تا کاربر آنچه را که مي خواهد بدست آورد. در بسياري از شرايط داشتن سيستمي که بتواند جواب دقيق را برگرداند در بسياري از موارد ترجيح بيشتري دارد. اين نوع از سيستمهاي IR، به سيستمهاي پاسخگو به پرسش[19]، معروفند.
اگرچه اين نوع از سيستمهاي بازيابي اطلاعات بر اساس استفاده از گستره اي از تکنولوژي ها مانند NLP و يادگيري ماشين استوار است اما در نهايت آنچه در اين سيستمها، نقش اصلي را داراست، يک پايگاه دانش است که از طريق روشهاي مبتني بر NLP و يا روشهاي آماري بر روي مدارک موجود در مجموعه ساخته شده است. در استخراج اين روابط، مي توان از متن کاوي استفاده کرد. استخراج چنين روابطي در واقع يکي از کاربردهاي متن کاوي است.
گروه بندي و طبقه بندي داده
يکي از مواردي که مي تواند به کاربر در يافتن سريعتر اطلاعات مورد نظرش کمک کند، دسته بندي اطلاعات موجود است. اين دسته بندي به کاربر يک نگاه کلي از آنچه در مجموعه متون موجود است مي دهد. در ساختن اين دسته بندي دو روش کلي وجود دارد.
در روش اول شما کلاسهاي از پيش تعريف شده اي از مفاهيم داريد و تلاش مي کنيد که سيستمي داشته باشيد که مستندات و مدارک جديد را به يکي از اين کلاسها، نگاشت کند. اين کار درواقع به طبقه بندي داده ها[20] ، معروف است. در سوي ديگر، گروه بندي[21] داده ها، ساختن اين کلاسها به طور اتوماتيک است. در واقع با گروه بندي مدارک، قصد بر اين است که مشخص شود تمرکز مفاهيم در مجموعه ي متون، حول چه چيزهايي است. در واقع در اينجا ما کلاس از پيش تعريف شده اي نداريم. اين دو در واقع مفاهيمي هستند که از داده کاوي رايج در ديتابيسها، به قرض گرفته شده اند.
خلاصه سازي
منظور ما از خلاصه سازي، روند ساختن مجموعه اي مفاهيم پايه اي از متن است تنها در چند خط. در اين نوع از متن کاوي به نظر مي رسد که اطلاعات جديدي از متن به دست ندهد به اين دليل که خود نويسنده احتمالاً مي دانسته است که چه چيزي مي خواسته است بگويد و خلاصه ي نوشته هاي او، اطلاع جديدي را اضافه نمي کند. گرچه اين کار مي تواند بررسي محتويات مستندات را براي کاربران ساده تر کند و آنهارا در مسير رسيدن به آنچه نياز دارند، سرعت دهد.
روابط ميان مفاهيم
از جمله واقعيتهايي که مي توان از يک مجموعه متون دريافت، ارتباط و وابستگي بعضي مفاهيم است با مفاهيم ديگر. اين واقعيات به طور مثال مي تواند بگويد که پديدار شدن بعضي کلمات ممکن است که وابسته باشد به ظاهر شدن بعضي ديگر از کلمات. منظور اين است که هرگاه شما مجموعه ي اول کلمات را ببينيد، ما مي توانيم انتظار داشته باشيم که مجموعه ي دوم لغات را نيز ببينيم. اين مفهوم نيز از داده کاوي در ديتابيس به امانت گرفته شده است. ما در اين مورد در ادامه بيشتر صحبت خواهيم کرد.
يافتن و تحليل ترند ها
فرض کنيد که شما مدير يک کمپاني تجاري هستيد. مشخصاً شما بايستي همواره چشمي بر فعاليتهاي رقيبانتان داشته باشيد. اين مي تواند هر نوع اطلاعاتي باشد که شما از اخبار، معاملات بورس و يا از مستندات توليد شده توسط همان کمپاني رقيب گرفته ايد.
اگرچه در حال حاضر که اطلاعات به طور فزآينده اي در حال افزايش است، مديريت تمامي اين منابع داده اي قطعاً تنها به کمک چشمانتان ممکن نيست. متن-کاوي به شما اين اجازه را مي دهد که به طور اتوماتيک ترندها و تغييرات جديد را بيابيد. در واقع آنچه اصولاً بايد از متن کاوي انتظار برود اينست که به شما بگويد چه اخباري در ميان گستره اي از اخبار به آنچه مي خواهيد مرتبط است و در اين ميان کدام خبر جديداست، چه پيشرفتهايي در زمينه ي کاري شما صورت مي گيرد و علايق و ترندهاي فعلي چگونه است و با چه روندي تغيير مي کند. با استفاده از اين اطلاعات، مدير تنها از اطلاعات کشف شده براي بررسي وضعيت رقيب مي تواند سود جويد.
برچسب زدن نحوي (POS)
اگرچه تعداد زيادي معتقد به اين نيستند که اينکار جزئي از متن-کاوي است ولي در [4]، براي مثال سيستمي به نام GATE در دانشگاه شفيلد، در يک کتابخانه ي ديجيتال به اين قصد جاگذاري شده است. GATE شامل ابزاراتي است براي برچسب زدن بر جملات. براي مثال اين سيستم مي تواند در داخل يک متن، نام موقعيتهاي جغرافيايي، نام اشخاص و چيزهايي شبيه اينرا بيابد. به اين خاطر اين سيستم بيشتر شامل استخراج اطلاعات است تا استخراج دانش. در عين حال، POS اغلب نقش بزرگي را در پردازش زبانهاي طبيعي بازي مي کند. در حقيقت اين اولين قدم در پردازش زبان طبيعي است و همانطور که خواهيم ديد پردازش زبان طبيعي يکي از پايه هاي متن-کاوي است.
ايجاد تزاروس و آنتولوژي به صورت اتوماتيک
مي توان تزاروس و آنتولوژي را به عنوان يک ابزار مناسب براي نمايش دانش استخراج شده از يک مجموعه متن دانست. تزاروس، مجموعه اي است از لغات به اضافه ي تعاريفشان و رابطه ي ميان آنها. اين روابط معمولاً به کمک دست از دل مجموعه ي متون استخراج مي شود.ما مي توانيم تزاروسهاي خاص يا همه منظوره داشته باشيم. رابطه ي ميان اين کلمات مي تواند چيزهاي شبيه "کلي تر"، "خاص تر" و "مرتبط" يا نظير آن باشد. اگر ما تزاروسي داشته باشيم که در آن تمام ارتباطات ميان لغات مشخص شده باشد، مي توانيم آنرا آنتولوژي اين لغات بناميم. هر دوي تزاروس و آنتولوژي کاملاً مفيد هستند چون به ما دنياي لغات و مفاهيمي را نشان مي دهند که در مجموعه ي متون ما وجود دارد. اگر شما يک موتور جستجو را در نظر بگيريد، يک تزاروس، مي تواند مجموعه لغاتي باشد که ما مي توانيم در حين جستجوبکار بريم.
تزاروس ها اکنون مي توانند تنها بوسيله ي دست ساخته شوند و به همين خاطر ساخت آنها بسيار سخت و وقت گير است. فردي که مي خواهد يک تزاروس بسازد بايستي که ارتباطات ميان تمام لغات را بيابد. اين بسيار مورد ترجيح است اگر ما مي توانستيم آنهارا اتوماتيک بسازيم.
اگرچه اين زمينه اي است که ما نمي توانيم هيچ مرزي بر آن قائل شويم. هدف نهايي اينست که هر ذره از دانشي که توسط بشر قابل درک است بوسيله ي کامپيوتر نيز درک شود.