دخول  |  لماذا أصبح عضواً؟
الرئيسية  |   فريق العمل  |   اتصل بنا  |   خريطة الموقع  |   English
  
العدد الحالي
مسابقة العدد
أرشيف المجلة
أرشيف المسابقة
أرشيف الأخبار
حول المجلة
إرشادات الكتابة

العدد الحالي

التنقيب في النصوص

المؤلف: د. مهيب النقري   تطبيقات - العدد (9) - شهر تشرين الثاني 2006

التنقيب في النصوص هو إجرائية الاستكشاف باستخدام الحاسوب، عن المعلومات الجديدة أو غير المعروفة من قبل، وذلك بجلب هذه المعلومات تلقائياً من مصادر مختلفة. العنصر الأساس في هذه الإجرائية يعتمد على  الربط بين هذه المعلومات معاً من أجل توليد حقائق أو افتراضات جديدة.

طبعاً تختلف هذه الإجرائية عن إجرائية البحث في الوب. ذلك أنه عند إجراء عملية البحث، يقوم المستخدم بالبحث عادةً عن شيء معروف قبلاً. فالعملية تتلخص إذاً باستبعاد جميع العناصر غير المرتبطة بمتطلباتك من أجل إيجاد المعلومات المطلوبة. على حين في إجرائية التنقيب في النصوص، الهدف هو اكتشاف معلومات غير معروفة سلفاً، أي اكتشاف معلومات لم يعرفها أحد من قبل.

 

الفرق بين التنقيب في النصوص والتنقيب في المعطيات

يعدّ التنقيب في النصوص أحد فروع مجال التنقيب في المعطيات، والتي يجري من خلالها اكتشاف نماذج مفيدة موجودة ضمن قواعد معطيات كبيرة. لكن الفرق بينهما هو أنه في التنقيب في النصوص يجري اكتشاف النماذج الموجودة ضمن نصوص اللغات الطبيعية، على حين في التنقيب في المعطيات، يجري اكتشافها ضمن قواعد المعطيات البنيويّة(structured database)، والتي يجري بناؤها للبرامج التي تعمل تلقائياً، أما النصوص(مقالات – كتب....الخ)  فتكتب عادةً ليقرؤها الناس. ولاتوجد حالياً برامج يمكنها قراءة نصوص كما يفعل الإنسان، لأن المشكلة تتعلق بمحاكاة طريقة تفكير الإنسان، وهذا الأمر صعب الإنجاز في المستفبل القريب.

هنالك مجال يدعى: معالجة اللغات الطبيعية Natural Language Processing، وقد حقق باحثوه نجاحات هامة في تحليل النصوص. فمن السهل مثلاً كتابة برنامج يعالج الجمل الموجودة ضمن نص، ويلخّص محتواها. أو كتابة برامج تجلب المعلومات من نص، وتوجِد بنى منظمة فيها. فمثلاً يمكن كتابة برامج تقرأ السيرة الذاتية، وتحدّد أسماء الأشخاص، وعناوينهم، وخبراتهم، وغير ذلك بدقّة عالية نسبياً. إلا أنّه هذا كلّه لايقع في إطار التنقيب في النصوص، وإنما ندعوها استحصال المعلومات. فعملية اكتشاف المعلومات المفيدة هي التي تميّز التنقيب في النصوص.

يحاول الناس استخدام النتائج التي يمكن الحصول عليها من البرامج السابقة لِربط المعلومات فيما بينها بطرق مفيدة. على سبيل المثال، يمكن استخراج جميع أسماء الأشخاص أو الشركات التي تظهر في الأخبار النصيّة المتعلقة بمجال تقانة الشبكات اللاسلكية wireless technology لمعرفة اللاعبين الهامين ضمن هذا المجال. المشكلة الأساسية هنا تتعلق بصعوبة إيجاد الروابط الهامة من بين الكثير من الروابط الموجودة بين المعلومات. سيكون بإمكانك مباشرةً معرفة اللاعبين الأساسيين في هذا المجال، لكن هذه المعلومة قد تكون أكثر من عادية بالنسبة لأي شخص يعمل في المجال نفسه.

في الوقت الحاضر، لم تعد الشركات قادرة على معرفة نتائج أعمالها من معطياتها البنيويّة فقط، وإنما أصبح بإمكانها استخدام المعطيات غير البنيويّة للإجابة عن كثير من الاستفسارات الهامة. لنفترض على سبيل المثال أن أحد المديرين أُخبر بأن مبيعات منتج معيّن قد انخفضت بقَدْرٍ كبير. طبعاً بإمكان هذا المدير أن يستخدم تطبيقات ذكاء الأعمال الموجودة لديه للتحقق من هذه الحقيقة، لكنه إذا أراد معرفة سبب هذا الانخفاض، أصبح بإمكانه استخدام تقنيات التنقيب في النصوص. يستطيع إذاً تجميع المعطيات النصيّة الموجودة في حقول تطبيق إدارة العلاقات مع الزبائن CRM. كذلك المعلومات الموجودة في الكثير من الرسائل الإلكترونية بين موظفي المبيعات في الشركة، والزبائن. إن تطبيق التنقيب في النصوص على هذه المعلومات قد يفضي إلى نتيجة تدلّ على وجود جمل وكلمات غير مناسبة جعلت الزبائن مستائين من التعامل مع الشركة، وهو ماسبب انخفاض مبيعات المنتجات الموجودة لديها. طبعاً هذه النتيجة لن تحصل عليها بالتأكيد باستخدام أي من التطبيقات الأخرى التي تتعامل مع المعطيات البنيوية الموجودة ضمن قواعد المعطيات.

 

نمذجة الموضوع Topic Modeling

حتى وقت قريب، كانت إجرائية التنقيب في النصوص بحاجة إلى عمليات تحضير قَبْليَّة كثيرة قبل أن يكون بإمكاننا تحليل المستندات بطريقة مفيدة. أما الآن فلقد أصبح بالإمكان استخدام تقانات متعددة، منها تقانة نمذجة الموضوع “Topic Modeling”، التي تقوم بالبحث عن الكلمات التي تظهر مجتمعة معاً ضمن المستندات، بعد ذلك يجري تصنيف هذه الكلمات وفق مواضيعها.

استخدمت هذه الطريقة لتحليل 330،000 مقالة نشرت في مجلة نيويورك تايمز، حيث جرى تحديد نماذج الكلمات التي ظهرت معاً ضمن هذه المقالات. اعتماداً على الكلمات هذه، أصبح بإمكان الباحثين تحديد المواضيع الموافقة. بعد ذلك جرى ربط المعلومات المرتبطة بهذه المواضيع وإظهارها في مخططات بيانيّة، مما ساعد على تحديد أكثر المواضيع تناقلاً في الأخبار في كل شهر من أشهر السنة. فقد بلغ مجموع المواضيع الناتجة أكثر من 400 موضوعاً، ابتداءً من تأجير الشقق في بروكلين، إلى الجَدْف في هاواي، وحتى الهياكل العظمية للديناصورات.

 

المراحل الأساسية لإجرائية التنقيب في النصوص

يتكوّن إجراء التنقيب في النصوص من  ثلاث مراحل أساسيّة هي:

  1. تحضير النص Text preparation: يجري في هذه المرحلة اختيار النصوص، وتنظيفها، وإجراء مرحلة ماقبل المعالجة pre-processing. تُختار النصوص في هذه المرحلة بإشراف شخص خبير.
  2. معالجة النص Text processing: يجري في هذه المرحلة استخدام خوارزميات التنقيب في المعطيات لمعالجة المعطيات التي جرى تحضيرها في المرحلة السابقة.
  3. تحليل النص Text Analysis: وفيه تجري عملية تقويم للخرج لنقرر: أتَمَّتْ عملية اكتشاف المعرفة أم لا، ولنحدِّد أهميتها. تخضع النصوص المنقّبة لتقنيات مختلفة تسمح باستخدامها بطريقة مباشرة.

 

 تطبيقات التنقيب في النصوص

مع أن تطبيقات التنقيب في النصوص بدأت تُحْدِثُ صدى واسعاً في الإعلام، وأخذت تدخل مجالات مختلفة: إعلامية، طبية، اقتصادية، بيولوجية والكثير غيرها، فإنها ماتزال حتى الآن في بداياتها. فَوَفْقاً لإحدى أهم الشركات المنتجة لهذا النوع من التطبيقات وهي شركة SPSS، فإن عدد عملائها الذين استخدموا تطبيقات التنقيب في النصوص لم يتجاوز حتى الآن الألف عميل، وهو رقم صغير مقارنة بعملائها الذين يستخدمون تطبيقات التنقيب في المعطيات.

المشكلة الأساسية التي تواجه مستخدمي تطبيقات التنقيب في النصوص، هي أنها تحتاج إلى مهارات خاصة لاستخدامها بفعالية. إذ يجب عليهم أولاً معرفة ماذا يمكن لهذه التقانة عمله، ومن ثمّ كيفية التصرّف اعتماداً على النتائج.

حتى في حالة الشركات التي اقتنعت بأهمية استخدام هذا النوع من التطبيقات، فإنها بقيت خائفة من حجم المصادر اللازمة لتشغيلها بفعالية، والزمن المطلوب لإنجازها. ثم إن تكلفتها ماتزال عالية جداً، إذ يتفاوت سعر رخصة هذا النوع من البرمجيات بين 50،000 دولاراً، وحتى عدة ملايين من الدولارات. وقد تحتاج الشركات إلى عدة أشهر لِتحضير المعطيات اللازمة، وتخصيص هذه البرمجيات.

يقول مدير أحد مراكز الأبحاث الطبية المتخصصة في الأمراض الخبيثة عند الأطفال، أنّه أمضى أكثر من عام كامل في تحضير مشروع التنقيب في النصوص الخاص بمركزه، وجعله قابلاً للعمل والتطبيق. إذ وجب عليه أولاً تحميل أكثر من 150،000 مقال صحفي ضمن قاعدة معطيات. بعدها قام بإنشاء قاموس خاص بأسماء الجينات، وتحويل جميع الرموز اليونانية. لكن بدأت الأمور تتعقّد بعد ذلك شيئاً فشيئاً، إذ لم تستطع حواسيب المختبر معالجة أكثر من 5000 مقال في اليوم، مما اضطره إلى تزويد المختبر بحواسيب إضافية ذات قدرات معالجة هائلة، حتى تمكّن من معالجة أكثر من 100،000 مقال في اليوم الواحد.

لكن استطاع بفضل هذا النظام معرفة وتحديد أحد الجينات المسؤولة عن نوع من أنواع الأمراض الخبيثة عند الأطفال. فإذا أثبتت الاختبارات هذه النتيجة، وسيتكون هناك إمكان كبير لمعالجة هذا النوع من الأمراض. وهو ما يُعدُّ بحدّ ذاته أملاً كبيراً في الاستفادة من مثل هذا النوع من التطبيقات.

تُعتبر الحكومة الفيدرالية في الولايات المتحدة الأمريكية أحد اللاعبين الأساسيين في مجال التنقيب في النصوص. فوكالة الذكاء المركزية Central Intelligence Agency، إضافة إلى وكالة فيدرالية أخرى، امتلكت أدوات إلكترونية للبحث عن معلومات تتعلق بالأنشطة الإرهابية، لكن أغلب هذه الأدوات كانت تعتمد على معطيات بنيويّة structured data. وبعد أحداث الحادي عشر من أيلول بدأت هذه الوكالات بالعمل على تطوير أدواتها والتنقيب في مختلف أنواع النصوص المتوفرة كالبريد الإلكتروني، وغرف الدردشة، والتقارير، والمقالات الصحفية، وغيرها من المصادر النصيّة. وهو ما دعاها لدعم العديد من الشركات المتخصصة في هذا المجال مثل: Attensity، Inxight Software  و Intelliseek.

 

التنقيب في النصوص وترشيح المعلومات

يمكن استخدام إجرائية التنقيب في النصوص في تحديد كلمات المفاتيح أو الجمل وذلك في العديد من التطبيقات التي تحتاج إلى ترشيح المعلومات منها مثلاً:

  • برمجيات مراكز الاتصال Call Center Software: يمكن باستخدام أدوات التنقيب في النصوص تحديد لغة المكالمات الواردة وتحويلها إلى الشخص المطلوب في مركز الخدمة. بالإمكان أيضاً استخراج الكلمات أو الجمل المفتاحية من نص المكالمة وتحويلها إلى الشخص المطلوب.
  • البرامج المضادة Anti-Spam: من الضروري جداً عند محاولة ترشيح البريد الإلكتروني غير الهام spam، امتلاك القدرة على تحديد الكلمات والجمل الموجودة في النصوص الواردة، والتي تكون مرتبطة ارتباطاً وثيقاً بنمط الspam الذي ترغب في ترشيحه، إضافةً إلى الصعوبات التي تواجهها عند معالجة الspams بعدة لغات. يمكن في مثل هذه الحالات الاعتماد على التحليل الإحصائي، أو يمكن تدريب إجرائية التنقيب في النصوص لتحديد نمط معين من الكلمات أو الجمل وذلك لِتحسين عمل مرشح المعلومات الموجود لديك.
  • ذكاء السوق Market Intelligence: تحتاج التطبيقات التي تقوم بالتفتيش ضمن الوب عن معلومات خاصة عن شركة ما: منتجاتها، منافسيها، نطاق عملها، سمعتها، إلى تحليل النصوص المكتوبة بالعديد من اللغات لا استخلاص المعلومات الهامة التي تساعد هذه الشركة على اتخاذ قرارات عملياتية مدروسة. يمكن باستخدام إجرائية التنقيب في النصوص تحديد لغة وترميز محتوى الوب، ومن ثمّ تقطيع النص إلى مكوّناته الأساسية، ثم استخراج المفاهيم الهامة لبناء قاعدة معطيات مقايس الشركة. يمكن بعد ذلك إجراء مجموعة من التحليلات التي تساعد على اتخاذ قرارات مفيدة.

  • التنقيب في الصحف على الوب: تزوّدنا الصحف والمجلات المنشورة على الوب بمصدر هام للمعلومات. لذلك تفيدنا تقنيات التنقيب في النصوص في الاستفادة من هذه المعلومات فائدة أفضل، ذلك أن كل صفحة تحتوي على عدد كبير من المواضيع غير المرتبطة، وهو مايجعل استخدام أدوات التنقيب في المعطيات غير مفيد في مثل هذه الحالات. طبعاً يجب التفريق هنا بين استخدام إجرائية التنقيب في النصوص، واستخدام أدوات البحث الموجودة ضمن الموقع نفسه، أو استخدام محركات بحث معروفة مثل: غوغل  Google أو ياهو Yahoo. ذلك أن أدوات البحث تزوّدنا بطريقة بحث اعتماداً على كلمات مفتاحية، وبعضُها يعطينا نتائج بحث اعتماداً على التجميع clustering وذلك لإيجاد صفحات الوب المرتبطة. لكن استخدام أدوات البحث في حالة الصحف المنشورة على الوب قد لايكون مفيداً في الكثير من الحالات، لأن معظم صفحات الصحف على الوب تحتوي على الكثير من المواضيع غير المرتبطة.

 

أخيراً لابد من التذكير بأن مجال التنقيب في النصوص لايزال في طور الأبحاث، ومازالت تطبيقاته العملية محدودة في وقتنا الحاضر، إلا أن الإمكانات التي يمكن أن يقدمها، والتي تساعد على فهم كميات هائلة من النصوص واستخلاص المعلومات الجوهرية منها تَعِدُ بآفاق هامة ومفيدة في الكثير من المجالات.

 

 

هل تود إضافة تعليقك على المقال؟ نرجو منك إدخال المعلومات التالية:
أين قرأت المقال
تقييم المقال
تعليق حر

أنت الزائر رقم: 110813