کمپیوٹرسائنس میں اردو زبان پر تحقیقاتی کام

تحقیق و تحریر کی دنیا میں اردو زبان کی تاریخ، اردو ادب کے ارتقا،اردو زبان کے وسیع پیمانے پرمستعمل ہونے اور اس پر دیگر زبانوں کے اثرات،اردو کے رسم الخط اور طریق وغیرہ پر بہت کچھ لکھا جا چکا ہے. میری اس تحریر کا مقصد علم کمپیوٹر میں اردو زبان میں ہونے والی تحقیق خاص طور پر ڈیٹا مایننگ یا مشین لرننگ کی دنیا میں لکھے جانے مقالہ جات کا مختصر تعارف کرانا ہے .اس زمن میں میری مرکزی توجہ سن ٢٠٠٠ کے بعد سے ہونے والے تحقیقی سرگرمیوں خاص طور پر ماسٹرز. ڈاکٹریٹ یا پی ایچ ڈی کے ان مقالہ جات پر ہوگی جو یو ایم ائی پروکوویسٹ پر چھپ چکے ہیں.

کمپیوٹر سائنس میں اردو کا زیادہ تر کام اس کے رسم الخط ، شناخت برائے بصری الفاظ اور الفاظ کی پہچان پر ہے مثلاّ

Robust Urdu character recognition using Fourier descriptors
by Lodhi, Saeed M., Ph.D., University of Denver, 2004, 190 pages

AlphaRank: A new smoothing algorithm based on combination of link analysis techniques and frequency based methods
by Mukhtar, Omar, M.S., State University of New York at Buffalo, 2009, 81 pages; AAT 1469108

Arabic handwriting recognition using machine learning approaches
by Ball, Gregory Raymond, Ph.D., State University of New York at Buffalo, 2007, 107 pages

لیکن اس کے علاوہ دیگر کئی موضوعات بھی معدودے چند ملتے ہیںمثلاّ مشینی تراجم ، اردو گرامر یعنی قوائد کی تلاش، اردوزبان میں ڈومین، اردو املا کی درستگی مشینی طریقے سے، اردو میں تعدد الفاظ وغیرہ وغیرہ . مشین لرننگ کے حوالے سے یہ کہتے چلیں کے یہ مختلف پروگرامنگ کے قوائد یا الگورتھم(جو کہ مسلم ساینسدان الخوارزمی کے نام سے معروف لفظ ہے) کو استعمال کرتے ہوے کمپیوٹر کے سیکھنے کا عمل ہے جس میں کمپیوٹر پروگرام پرانے ڈیٹا اور اس پر کیے گئے فیصلوں کو دیکھتے ہو ئے نئے فیصلے خود سے کرنا سیکھتا ہے. یہ ٹیکنالوجی ، صوتی و بصری املا، گرامر اور اسپیل چیکنگ کے علاوہ کولیبریٹو فلٹرنگ جسے آسان الفاظ میں چیزوں کی پسندیدگی اور نا پسندیدگی کا پیمانہ ناپنے کے لئے استعمال کی جاتی ہے۔

اس زمن میں یہ کہتے چلیں کہ مشین لرننگ میں اردو زبان پر عمومی طور پر کچھ زیادہ قابل ذکر کام نہیں ہوا ہے یا میرے ناقص علم میں نہیں لیکن کچھ افراد جنہوں نے اس زمن میں کوششیں کی ہیں اس زمن میں اردو میں تعدّد الفاظ کی تحقیق میںقرۃالعین خان کا کام نظر آتا ہے .

A study of word frequency in written Urdu
by Khan, Quratulain H., M.A., University of Windsor (Canada), 2006, 40 pages;

خصوصی طور پر اردو میں نہیں لیکن ٹرانسلٹریشن پر ہندی، اردو اور دیگر جنوبی ایشیای زبانوں کی ‘اسٹیمنگ’ یا تناآوری پر یہ مقالہ اچھی روشنی ڈالتا ہے

Transliteration based Search Engine for Multilingual Information Access
Proceedings of CLIAWS3, Third International Cross Lingual Information Access Workshop, Bounder, Colorado.

اونٹولوجی بلڈنگ پر مندرجہ زیل مقالہ نیم اینٹیٹی پئر کی اردو میں‌اچھی مثال ہےجس کو استعمال کرتے ہوے اردو اونٹولوجی پر کام بڑھایا جا سکتا ہے۔ اونٹولوجی ایسے ذخیرہ الفاظ کو کہا جاتا ہے جو کہ کسی ربط کے تحت ایک دوسرے سے جڑے ہوں‌اور ان کے درمیان کوئی معنوی ربط کی کیفیت ہو

NE tagging for Urdu based on bootstrap POS learning

Human Language Technology Conference archive

Proceedings of the Third International Workshop on Cross Lingual Information Access: Addressing the Information Need of Multilingual Societies

منیسوٹا یونیورسٹی کے کاشف ریاض صاحب نے اس زمن میں کافی قابل قدر خدمات انجام دیں ہیں۔ انکا مقالہ اردو میں ذخیرہ الفاظ یا کورپس کی تعمیر اور اس پر معنوی تجزیہ ‘لیٹنٹ سمینٹک انالسسز’ پر روشنی ڈالتا ہے۔ اسکے علاوہ ایک اہم مشین لرننگ الگورتھم ‘ٹی ایف آی ڈی ایف’ کی اردو میں‌ تعمیل کی بھی تفصیلات فراہم کرتا ہے۔

Concept Search in Urdu
Kashif Riaz, University of Minnesota
PIKM’08, October 30, 2008, Napa Valley, California, USA.

اسٹیمنگ کو بیان کرتے ہوے کاشف ریاض لکھتے ہیں

“The state of the art search engines like Google and Yahoo are keyword-based. There are very few Urdu keyword-based search engines but they simply use word match technique and don’t use any stemming, stop word removal or language identification. Keyword-based engines score and rank documents based upon the presence of the query term along with other criteria like Page Rank in earlier versions of Google. Keyword searching increases information seeking time for the user. This manifests itself in two ways: First, keyword search retrieves a non-relevant document that contains a keyword e.g. the query tem plane could mean airplane or co-ordinate plane. Second, keyword search misses documents that are relevant but don’t contain the query term automobile and car.”

کاشف ریاض صاحب کے یہ دیگر دو مقالہ بھی اردو میں مشین لرننگ کے کام میں اہم سنگ میل کی حیثیت رکھتے ہیں۔ابتدائی ذخیرہ الفاظ یا کورپس کی تعمیراور اردو میں ‘ائی آر’ انفارمیشن ریٹریول یعنی معلومات کا حصول سرچ انجن کی تعمیر اورالفاظ کی مشینی سمجھ بوجھ میں بڑا گہرا اور بنیادی کردار ادا کرتا ہے۔

A study in Urdu corpus construction
International Conference On Computational Linguistics
Proceedings of the 3rd workshop on Asian language resources and international standardization – Volume 12

Baseline for Urdu IR evaluation
Conference on Information and Knowledge Management
Proceeding of the 2nd ACM workshop on Improving non english web searching

اردو زبان کا ذخیرہ الفاظ کارنیگی میلن یونیورسٹی نے بھی جمع کیا ہے جو کہ یہاں دستیاب ہے.

جیسا کہ اولا عرض کیا تھا کہ اس کاوش کا مقصد اردو زبان پر ہونے والے کمپیوٹر ساینس کے تحقیقاتی کام پر مختصر روشنی ڈالنا ہے جو کہ شائد محققین کے لئے کسی قدر سودمند ثابت ہو۔راقم تعلیمی لحاظ سے علم کمپیوٹر میں مشین لرننگ میں پی ایچ ڈی کا طالبعلم ہے ۔ حالانکہ میرا مقالہ اردو یا زبان و کلام کی صنف سے کافی جدا ہے لیکن اردو کی تحقییق کا کام ایک مشغلہ ٹھرا. اپنی رائے اور میری غلطیوں سے آگاہ کیجیے اور اگر کوئی اہم تحقیقی کام یہاں بیان نہیں ہوا تو ضرور بتائیں تاکہ راقم اصلاح کر سکے.

حوالہ جات

منظرنامہ » کیا اردو اپنا مقام حاصل کر سکے گی؟ آخری جز (از: راشد …

اردو زبان پر سن 2000 سے چھپنے والے عمومی مقالہ جات کی نامکمل فہرست

D. Becker, B. Bennett, E. Davis, D. Panton, and K. Riaz. “Named Entity Recognition in Urdu: A Progress Report”. Proceedings of the 2002 International Conference on Internet Computing. June 2002.
D. Becker, K. Riaz. “A Study in Urdu Corpus Construction.” Proceedings of the 3rd Workshop on Asian Language Resources and International Standardization at the 19th International Conference on Computational Linguistics. August 2002.
P. Baker, A. Hardie, T. McEnery, and B.D. Jayaram. “Corpus Data for South Asian Language Processing”. Proceedings of the 10th Annual Workshop for South Asian Language Processing, EACL 2003.
K. Riaz, “Challenges in Urdu Stemming” Future Directions in Information Access. Glasgow, August 2007
K. Riaz, “Stop Word Identification in Urdu” ,Conference of Language and Technology, Bara Gali, Pakistan, August 2007
An analysis of Urdu and English editorial coverage of the 2007 Emergency from Pakistani newspapers by Shoeb, Nadia Farrah, M.A., Georgetown University, 2008, 140 pages;
Mourning Indo-Muslim modernity: Moments in post-colonial Urdu literary culture by Naqvi, Syed Nauman, Ph.D., Columbia University, 2008, 244 pages;
Shifting dunes: Changing meanings of Urdu in India by Ahmad, Rizwan, Ph.D., University of Michigan, 2007, 242 pages;
The desert of continuity: N. M. Rashed, modernism, and Urdu poetry by Pue, A. Sean, Ph.D., Columbia University, 2007, 324 pages;
A literature of the sublime in late colonial India: Romanticism and the epic form in modern Hindi and Urdu by Sahota, Guriqbal S., Ph.D., The University of Chicago, 2006, 343 pages;
A study of word frequency in written Urdu by Khan, Quratulain H., M.A., University of Windsor (Canada), 2006, 40 pages;
Making a worldly vernacular: Urdu, education, and Osmania University, Hyderabad, 1883–1938 by Datla, Kavita Saraswathi, Ph.D., University of California, Berkeley, 2006, 214 pages
Negation in modern Hindi-Urdu: The development of nahII by Lampp, Claire M., M.A., The University of North Carolina at Chapel Hill, 2006, 48 pages
Peripheries in Kashmiri and Hindi-Urdu by Manetta, Emily Walker, Ph.D., University of California, Santa Cruz, 2006, 220 pages
Relocating the postcolonial self: Place, metaphor, memory and the Urdu poetry of Mustafa Zaidi (1930–1970) by Steele, Laurel, Ph.D., The University of Chicago, 2005, 519 pages
Education, the state and subject: Constitution of gendered subjectivities in/through school curricula in Pakistan. A post-structuralist analysis of social studies and Urdu textbooks for grades I—VIII by Naseem, Muhammad Ayaz, Ph.D., McGill University (Canada), 2004
Hemispheric differences during reading in Urdu by Adamson, Maheen Mausoof, Ph.D., University of Southern California, 2004, 229 pages
Robust Urdu character recognition using Fourier descriptors by Lodhi, Saeed M., Ph.D., University of Denver, 2004, 190 pages
Banaras, Urdu, poetry, poets by Lee, Christopher R., Ph.D., Syracuse University, 2002, 343 pages
The intertextuality of women in Urdu literature [micorform] : a study of Fahmida Riaz and Kishwar Naheed by Yaqin, Amina, Dr., University of London (United Kingdom), 2001
To die and yet live: Karbala in Urdu discursive landscapes by Hyder, Syed Akbar Adeel, Ph.D., Harvard University, 2000, 335 pages

5 Comments to “کمپیوٹرسائنس میں اردو زبان پر تحقیقاتی کام”

You can follow all the replies to this entry through the comments feed.

افتخار اجمل بھوپال

April 12, 2010 at 11:14 pm | Permalink

خوش آمديد ۔ معلوماتی موضوع ہے ۔ اُميد ہے کہ ہر مد کی تفصيل بھی يکے بعد ديگرے بيان کريں گے

عامركامران

April 13, 2010 at 5:07 am | Permalink

عدنان بھائی یہ كافی معلوماتی بلاگ ہے میں چند چیزیں اس میں شامل كرنا چاہوں گا۔ اردو میں كمپیوٹر سائنس كے میدان میں پچھلے كچھ سالوں میں كافی تیزی سے كام ہوا ہے اور اس میں سب سے قابلِ زكر كام لاہور كے ادارے CRULP نے كیا ہے ۔ اس كے علاوہ جرمنی میں مختلف ایشیائی زبانوں پر ریسرچ ہو رہی ہے جس میں سے ایك اردو بھی ہے اور محترمہ مریم بٹ اور جناب تفسیر احمد صاحب نے اس سلسلے میں كافی قابلِ زكر كام كیا ہے۔ اس كے ساتھ ساتھ Google Translitration میں بھی اردو كا شامل ہونا ایك اہم پیش رفت ہے ۔ نا صرف یہ اس كے علاوہ بہت سے طالبِ علم یورپ اور امریكہ وغیرہ كی مختلف جامعات میں ماسٹرز اور پی ایچ ڈی میں اردو پر كام كر رہے ہیں اور امید ہے كہ مستقبل میں ہمیں بہت سا كام اردو كے حوالے سے دیكھنے كو ملے ۔ اس كے ساتھ ساتھ پاكستان میں اس سلسلے میں ایك سالانہ كانفرنس پچھلے دو سال سے منعقد كی جا رہی ہے جس میں نا صرف اردو بلكہ پاكستان كی مختلف زبانوں جیسے پشتو، پنجابی، اور مختلف علاقائی زبانوں پر اچھا كام سامنے آیا ہے اور اس طرح كی بین القوامی كانفرنسس كا عنقاد نئے آنے والوں كے لئے كافی حوصلہ آفزا ہے۔

دوست

April 13, 2010 at 7:41 am | Permalink

بالکل اس میں کوئی شک نہیں اردو پر بہت سارا کام ہورہا ہے۔ لیکن میرے جیسے جو لسانیات کے طالب علم ہیں، اور اپنی زبان پر کام بھی کرنا چاہتے ہیں، انھیں سمجھ نہیں آتی کیا کریں۔ چونکہ پروگرامنگ وغیرہ ہماری فیلڈ نہیں ہے اس لیے منہ بسور کر رہ جاتے ہیں۔ جیسے کارپس بیسڈ سٹڈیز ابھی اردو کے لیے ممکن نہیں، ایک لنگوئسٹ کو تو بنے بنائے ٹول چاہیے ہوتے ہیں جس کے ذریعے وہ گرامیٹیکل ٹیگنگ کرسکے، کارپس بنائے اور اس پر ریسرچ کرے۔ خیر امید ہے کہ کچھ ٹھیک ہوجائے گا آئندہ۔

نبیل

April 13, 2010 at 9:31 am | Permalink

جزاک اللہ عدنان۔ بہت مفید معلومات فراہم کی ہیں آپ نے۔
اردو اگرچہ معنوی اعتبار سے زرخیز زبان ہے لیکن بدقسمتی سے اپنی نحوی اور رسم الخط کی پیچیدگیوں کے باعث یہ انفارمیشن ٹیکنالوجی کی دنیا میں کچھ پیچھے رہ گئی ہے۔ اردو او سی آر اور وہ بھی خاص طور پر نستعلیق میں تحریر کردہ متن کا، ایک قریباً نہ حل ہونے والی پرابلم معلوم ہوتی ہے۔ لیکن ایسا اس سمت میں تحقیق کی کمی کی وجہ سے ہے۔
آپ کا اردو بلاگ اردو بلاگنگ کی دنیا میں ایک شاندار اضافہ ہے۔ اگر آپ اس پر کسی سادہ اور اچھی اردو تھیم کا استعمال کر لیں اور اس کے تبصروں کے خانے میں اردو ایڈیٹر فراہم کر دیں تو اس کی افادیت میں مزید اضافہ ہو جائے گا۔ اردو ایڈیٹر پلگ ان آپ ذیل کے ربط سے حاصل کر سکتے ہیں۔

http://www.urduweb.org/mehfil/downloads.php?do=file&id=190

محمد ہمایوں

April 13, 2010 at 12:54 pm | Permalink

اردو مارفولوجی اور لیکسیکون کے حوالے سے کچھ کام مندررجہ ذیل صفحے پر دیا گیا ہے۔
http://www.lama.univ-savoie.fr/~humayoun/UrduMorph/index.html
اس ایپلیکیشن کا تجزیہ محترم شاکر عزیز صاحب نے مندرجہ ذیل صفحے پر کیا ہے۔
http://awaz-e-dost.blogspot.com/2007/08/blog-post_27.html