مجلة علوم الحاسب والمعلومات

استعراض
مقالة وصول حر دراسة الخواص المعلوماتية للغة العربية: إنتروبيا الكلمات وقانون زيبف(دار جامعة الملك سعود للنشر, 01/01/1998) ابراهيم عبدالرحمن القاضي. تمتاز اللغة العربية (وباقي اللغات الطبيعية) بأنها ذات تركيب إحصائي بالغ التعقيد، ولكنها أيضاً ذات تكرارية عالية تتيح للناطقين بها معرفة المعاني المقصودة حتى لو فقدت أو تغيرت بعض أجزاء الكلام. وتشكّل دراسة الخواص الإحصائية للغة أهمية قصوى في كثير من العلوم الإنسانية والهندسية مثل التربية، تعليم اللغات، اللسانيات، المعلومات، الحواسيب، الأّتصالات، ومعالجة الإشارات.
يرمي هذا البحث إلى دارسة الخواص الإحصائية للكلمات العربية المطبوعة بهدف تقدير معدّل المعلومات في اللغة العربية. وسيتم استخدام إحصائيات للكلمات العربية الأكثر شيوعاً والمأخوذة من عيّنات نصوص طويلة ومتنوعة في مختلف مجالات المعرفة تضم أكثرمن 700,000كلمة. وستستخدم هذه الإحصائيات في إثبات صحة قانون "زيبف" حول التكرار النسبي للكلمات في اللغة الإنسانية الطبيعية، والذي ينص على أن احتمال ورود أي كلمة في لغة ما يتناسب مع ترتيب هذه الكلمة في اللغة. وسيتم في النهاية تقدير معدّل المعلومات (الإنتروبيا) للكلمات والحروف العربية بطريقتين: إحداهما مباشرة والأخرى باستخدام قانون "زيبف".كما ستتم مقارنة النتائج للغة العربيةمع القيم المناظرة للغة الإنجليزية.