فراز تیرے جنوں کا خیال ہے ورنہ عدنان مسعود کی سخن آرایاں۔ دروغ برگردن قاری

September 25, 2011

کمپیوٹر سائنس – مشین لرننگ کس چڑیا کا نام ہے؟

Filed under: تحقیق — ابو عزام @ 12:20 am

اکثر احباب پوچھا کرتے ہیں کہ میرے پی ایچ ڈی کی تحقیق کا موضوع کیا ہے۔جب میں‌ بتاتا ہوں‌ کہ میری تحقیق کا دائرہ کار مشین لرننگ سے ملتا ہے تو کمپیوٹر سائنس سے نا آشنا افراد کے لئے یہ اکثر ایک نیا لفظ ہوتا ہے اور وہ نا دانستگی میں اسے میکینکل انجینئرنگ سے ملانے کی کوشش کرتے ہیں۔ اس  تحریر میں‌ یہ کوشش کی گئی ہے کہ عام فہم طریقے سے مشین لرننگ کے شعبے کو بیان کیا جائے تاکہ سند رہے اور بوقت ضرورت حوالہ دینے کے کام آسکے۔

مشین لرننگ کمپیوٹر سائنس کا ایک شعبہ ہے جس کو شماریات اور آرٹیفیشل انٹیلیجنس یا مصنوعی ذہانت کا اتصال کہا جاتا ہے۔ مشین لرننگ کی ایک سادہ اور جامع سی تعریف ہے کہ یہ وہ الگارتھم بنانے کا علم ہے جس کے ذریعے نامعلوم سے معلوم کو اخذ کیا جاتا ہے۔ ڈیٹا مایننگ کی تعریف بھی خاصی ملتی جلتی ہے لیکن بنیادی فرق دونوں میں یہ ہے کہ مشین لرننگ کے شعبے کی الگارتھم پر خصوصی توجہ ہوتی ہے جبکہ ڈیٹا مائننگ ایک خاصہ جامع موضوع ہے جو بزنس انٹیلیجنس سے لے کر ڈیٹا کی پیش پردازش تک کے بے شمار مضامین اپنے اندر سموے ہوئے ہے۔

الگارتھم کمپیوٹر سائنس کی اصطلاح میں‌ اوامر کے ایسےترتیبی مجموعے کو کہا جاتا ہے کہ جس میں کسی مسئلے کے حل یا کسی کام کو کرنے کا طریقہ بیان کیا گیا ہو۔ مثلا اگر آپ کسی ڈکشنری میں ایک لفظ ڈھونڈنا چاہتے ہوں‌ تو کونسا طریقہ استعمال کیا جائے گا، کتنی مرتبہ صفحات کو پلٹنے کے ضرورت پیش آئے گی اور لفظ ڈھونڈنے کا سب سے موثر ‘آپٹمائزڈ’ طریقہ کیا ہوگا، اسی طرح کے بنیادی سوالات و جوابات کی تلاش الگارتھم بنانے اور سمجھنے کے علم میں‌ کی جاتی ہے۔

مشین لرننگ کا علم الگارتھم کے ذریعے کسی ڈیٹا سیٹ سے معلومات اخذ کرنے، اور اس کے بعد اس کا تجزیہ کر کر الگارتھم کے ذریعے معلومات سیکھنے کے عمل کو بہتر بنانے سے بحث کرتا ہے۔ اس کی ایک آسان سی مثال سادہ بیزین ترشيح ہے جس کو بہت سارے کمپیوٹر استعمال کرنے والے لوگ نا جاننے کے باوجود بھی روزانہ استعمال کرتے ہیں۔ سادہ بیزین ترشيح ایک ایسا الگارتھم ہے جس کے مطابق آپ اشیا کا رجحان معلوم کرسکتے ہیں۔ اس کی روز مرہ کے استعمال کی صورت ای میل میں‌سے اسپیم یا اشتہاری مواد کو چھانٹنے کا خودکار عمل ہے۔ مائکروسافٹ کی 2009 کی ایک رپورٹ کے مطابق 97 فیصد ای میل جو انٹرنیٹ کے ذریعے بھیجی جاتی ہے، غیر مطلوب یا اسپیم کے زمرے میں آتی ہے۔ اس میں فارمیسی یعنی جعلی دواوں، جعلی یا دو نمبر اشیا، جنسی ، معاشی استحصالی، جعلی ڈگریوں، جوا وغیرہ سے متعلق مواد شامل ہوتا ہے۔ اتنی ساری ای میل کو پڑھنا اور اس میں سے اچھی اور خراب ای میل کو الگ کرنا انسانی وقت کا ضیاع ہے بلکہ بیشتر حالات میں‌ وقت کے لحاظ سے نا ممکنات میں شمار ہوتا ہے لہذا سادہ بیزین ترشيح کے الگارتھم کے ذریعے کمپیوٹر یہ یاد کرنے کی کوشش کرتا ہے غیر مطلوب ای میل کس طرح کی ہوتی ہے، اس میں کس طرح کے الفاظ استعمال ہوتے ہیں، اس کا منبع و ماخذ کیا ہوتا ہے، اس میں‌استعمال ہونے والے حوالہ جات کی کیا شکل ہوتی ہے وغیرہ۔ جب سادہ بیزین ترشيح کا الگارتھم بہت سارے ایسے ای میل پیغامات کو پڑھ کر اس کا خلاصہ اپنی یادداشت میں‌بٹھا لیتا ہے تو جب وہ اس طرح کا کوئ بھی پیغام دیکھتا ہے مثلا ‘فوری ڈگری حاصل کریں’ یا ‘سستی گھڑیاں’ یا ‘آپ کا لاکھوں ڈالر کا انعام نکل آیا ہے’  تو اس کی درجہ بندی کرنا اس الگارتھم کے لئے ممکن ہوجاتا ہے اور یہی وہ سیکھنے کا عمل ہے جس کو مشین لرننگ کی اصطلاح سے یاد کیا جاتا ہے۔

۔ مشین لرننگ کا کوئی بھی الگارتھم غلطی سے مبرا نہیں ہوتا اور اسی لئے اسے مستقل سیکھنے یا لرننگ کا عمل کہا جاتا ہے۔ اسپیمرز کو اس الگارتھم سے لڑنے کے لئے نت نئے طریقے استعمال کرنے پڑتے ہیں مثلا نئے الفاظ کا استعمال، مبھم و پوشیدہ لنکس وغیرہ لیکن اس مستقل جنگ میں زیادہ تر فتح الگارتھم کی ہی ہوتی ہے۔

یہ تو تھی مشین لرننگ الگارتھم کی ایک مثال۔ مشین لرننگ کے الگارتھمز کو بنیادی طور پر دو حصوں میں‌تقسیم کیا جاتا ہے، نگراں سیکھنے والے اور بغیر نگرانی کے سیکھنے والے الگارتھ۔ ان دونوں‌کے درمیاں ایک سیمی سپروائزڈ حالت بھی پائی جاتی ہے۔ نگراں معرفت والے الگارتھم کسی انسانی ماہر یا ماہرانہ ڈیٹا سیٹ سے مدد لے کر اپنے آپ سیکھنے کے عمل کو بہتر بناتے ہیں۔ غیر نگراں‌معرفت والے الگارتھم خود سیکھنے کی کوشش کرتے ہیں مثلا مجموعات بنانے کے زیادہ تر الگارتھم جس میں اشیا کے درمیان تعلق کے فاصلے کو ناپا جاتا ہے۔

مشین لرننگ کمپیوٹر سائنس کا ایک نہائت تیز رفتاری سے آگے بڑھنے والا شعبہ ہے۔ سرچ انجن، ٹیکسٹ مایننگ، سیاق الکلام میں الفاظ کی تلاش، سیاق و سباق سے جوابات تلاش کرنا، ہاتھ کی لکھائی اور آواز کو پہچاننا، کتابوں کی پسندیدگی کا مشورہ و سفارش ، بینک کے خرچہ جات میں تعلق اور فراڈ کی تلاش وغیرہ کچھ ایسے عام استعمال کی چیزوں کی مثالیں ہیں جن میں مشین لرننگ کے الگارتھمز کا وافر استعمال ہوتا ہے۔

مشین لرننگ، کمپیوٹر سائنس کا ایک بڑا شعبہ ہے اور ایک بلاگ میں اس کا  احاطہ کرنانہائت مشکل کام ہے لیکن امید ہے کہ یہ مختصر سا بنیادی تعارف آپ کے علم میں اضافے کا باعث بنا ہوگا۔ اگر آپ کا مشین لرننگ یا اس سے ملحقہ کسی تکنیکی مضمون کے بارے میں کوئی سوال ہو تو ضرور پوچھئے،  راقم اس کا سیر حاصل جواب دینے کی بھرپور کوشش کرے گا۔

Share

9 Comments »

  1. میرا خیال ہے مشین لرننگ کے ساتھ ہی کہیں کچھ تعلق نیچرل لینگوئج پروسیسنگ کا بھی نکل آتا ہے جس میں انسانی زبان کو کمپیوٹر کے ذریعے پروسیس کیا جاتا ہے۔

    Comment by دوست — September 25, 2011 @ 5:09 am

  2. برادرم شاکر، تبصرے کا شکریہ

    ۔‌آپ نے درست کہا کہ اب این ایل پی یا نیچرل لینگویج پراسسنگ کے الگارتھم مشین لرننگ اور شماریات کی اصناف کو استعمال کرتے ہوئے بنائے جاتے ہیں خصوصا لیبلنگ، خلاصہ جات اور مشینی ترجمے کے الگارتھم کا تو دارومدار ہی غیر معرفانہ سیکھنے کے عمل پر ہوتا ہے۔ ذخیرہ الفاظ اور مارفالوجی کے لئے گو ایکسپرٹ سسٹم اور ماہرانہ رائے کی ضرورت ہوتی ہے لیکن این گرام اینالیسز کی کامیابیوں کے بعد سیمی سپروائزڈ لرننگ نے انسانی مداخلت کو کافی حد تک کم کردیا ہے۔ میں نے سیاق و سباق کے زمرے میں اس کی طرف ضمنا اشارہ کیا تھا لیکن اپکے سوال کا شکریہ کہ اس پر مزید تفصیل سے بات ہو سکی۔

    آپ اس زمن میں خاصا کام کرچکے ہیں، اگر کوئی جامع تحقیقی مقالہ جات کا حوالہ دینا چاہیں تو ضرور بتائیں تاکہ قارئین کے علم میں اضافے کا باعث ہو۔

    Comment by عدنان مسعود — September 26, 2011 @ 5:27 pm

  3. بالکل ایسے ہی جیسے ہم یوٹیوب پرنائینٹیز کا کوئی گانا دیکھیں تو وہ ریکمنڈیشنز میں مزید نائینٹیز کے گانے ، خصوصا اسی فلم یا ہیرو یا ہیروئن کے شو کرتا ہے۔
    سر جی بہت زبردست اور آسان زبان میں لکھا آپ نے ،
    گزارش صرف اتنی ہے کہ جاری رکھئے گا چھوڑیئے گا مت کیونکہ معلومات ہو اور اردو میں ہو تو مزہ دوچند ہو جاتا ہے
    ایک بار پھر شکریہ۔
    اور یاں دوست بھائی کے تبصرے کی وضاحت بھی فرمادیں۔

    Comment by Zero G — September 25, 2011 @ 11:20 pm

  4. بلکل زیرہ جی صاحب، یو ٹیوب کا ریکیمنڈر سسٹم بھی مشین لرننگ کے الگارتھمز کے اصول پرہی کام کرتا ہے۔ نیٹ فلکس نے کچھ عرصہ پہلے ریکیمنڈر سسٹم کا ایک مقابلہ کروایا تھا جس میں ایک ملین ڈالر کا انعام ایسے سفارشی نظام کو دیا گیا جس نے بہترین کارکردگی کا مقابلہ کرتے ہوئے ٹیسٹ ڈیٹا سیٹ پر اعشاریہ آٹھ پانچ آر ایم ایس ای سے کم کا اسکور دیا تھا۔ اگر آپ کو اس مضمون سے شغف ہے تو ان تحقیقی مقالات کا مطالعہ سودمند ہوگا۔ مضمون کی پسندیدگی کا شکریہ۔

    Comment by عدنان مسعود — September 26, 2011 @ 5:17 pm

  5. شکریہ، مضمون بہت اچھا اور سادہ الفاظ میں ہے۔

    Comment by عامر شہزاد — September 26, 2011 @ 5:58 am

  6. عامر شہزاد صاحب، پسندیدگی کا شکریہ

    Comment by ابو عزام — September 26, 2011 @ 5:31 pm

  7. اُردو میں ایسے خاص تکنیکی مضامین کی شدید کمی ہے، آپ نے اسے موضوع کو آسان الفاظ میں بیان کر کے ایک نہایت عمدہ کوشش کی ہے، امید ہے آئندہ بھی اس طرح کے مضمون لکھتے رہیں گے۔
    والسلام

    Comment by محمد وارث — September 27, 2011 @ 3:30 am

  8. وارث صاحب، حوصلہ افزائی کا شکریہ۔ ان تکنیکی مضامین کو لکھنے میں سب سے بڑی دشواری یہ ہے کہ اصطلاحات تمام کی تمام انگریزی میں‌ ہوتی ہیں اور انکا بالجبر ترجمہ اکثر و بیشتر معنویت کھو دیتا ہے۔ جوں کا توں انگریزی میں‌ درج کردینے میں‌یہ امر آڑے آتا ہے کہ مضمون پھر کچھ ملغوبہ سا بن جاتا ہے اور قاری دلچسپی کھو دیتا ہے۔ آپ متعدد اللغات آدمی ہیں، اس سلسلے میں تجاویز سے آگاہ کرتے رہئے گا، رہنمائی کی درخواست ہے۔

    Comment by عدنان مسعود — September 27, 2011 @ 6:40 am

  9. شکریہ عدنان صاحب ذرّہ نوازی کیلیے۔

    اردو اصطلاحات کا مسئلہ کافی پچیدہ ہے اور بہت سے اربابِ حل و عقد کی سوچوں کا محور رہا ہے، حسنِ اتفاق سے حکومتِ پاکستان کی بھی ان میں شامل رہی ہے، نتیجہ وہی جو ایسے کاموں کا حکومتی سطح پر نکلتا ہے۔

    میرا ذاتی خیال یہ ہے کہ مخلتف علوم و فُنون مع سائنس کی جو اصطلاحات اردو میں رائج ہو چکی ہیں اور کثیر الاستعمال ہیں ان کا اردو ترجمہ نہیں کرنا چاہیئے کیونکہ عموماً ایسی اصطلاحات کا عربی ترجمہ کیا جاتا ہے جو الفاظ کو مزید ادق اور مشکل اور بعید الفہم بنا دیتا ہے، مثلاً ایک عام لفظ ہے لاؤڈ اسپیکر اس کا ترجمہ کیا گیا تھا آلہ صوت المکبر و علی ہذا القیاس۔ اسی طرح ایک دفعہ سکول کی سطح کی ایک سائنس کی اردو کتاب میرے ہاتھ لگی، یقین مانیے جو ایک بھی پیرا سمجھ میں آیا ہو، اس میں ایٹم اور مالیکول، نیوٹران وغیرہ وغیرہ کا بھی ترجمہ کر دیا گیا تھا جو بالکل سمجھ سے باہر تھا۔

    سو میرا خیال یہی ہے کہ کثیر الاستعمال اصطلاحات کا، آپ کے ہی الفاظ میں، بالجبر ترجمہ نہیں کرنا چاہیے باقی رہا مضمون تو اسکی بنت و بندش و اسلوب تحریر آسان اور سادہ اور عام فہم زبان میں ہو تو کیا کہنے یا اردو اصطلاح کے ساتھ اسکا انگریزی متبادل بھی ہو تو نورً علی نور والی بات ہے یا اگر سبک و رواں قسم کی اصطلاح مل جائے تو ضرور استعمال کی جائے مثلاً لاؤڈ اسپیکر کو ہی فارسی میں بلند گو کہا جاتا ہے لیکن افسوس اردو میں بلند گو کا بھی رواج نہیں ہے فقط لاؤڈ اسپیکر ہی چلتا ہے۔

    آپ بھی کہیں گے کہ میں لاؤڈ اسپیکر کو ہی لیکر بیٹھ گیا تو کیا کروں بھائی کل رات گھر کے باہر مولویں نے لاؤڈ اسپیکر پر باوجود پابندی کے وہ اودھم مچایا کہ میں مسلسل لاؤڈ اسپیکر بنانے والے پر صلوة بھیج رہا ہوں۔
    🙂
    والسلام مع الاکرام

    Comment by محمد وارث — September 28, 2011 @ 10:18 pm

RSS feed for comments on this post. TrackBack URL

Leave a comment

Powered by WordPress