تجزئة النص
من ويكيبيديا، الموسوعة encyclopedia
تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة.