হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page

Was this helpful?

  1. পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)

৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?

প্রশ্ন: কি শিখবো শুরুতে? ‘পাইথন’ না ‘আর’?

সত্যি কথা বলতে আমি নিজেও পাইথন দিয়ে কাজ করতে চেয়েছিলাম। আপনিই বলুন, নতুন করে একটা জিনিস কেই বা শিখতে চায়? তার ওপর 'আর' এর মত নতুন একটা প্রোগ্রামিং এনভায়রনমেন্ট। আমি নিজেই কমিউনিকেশনের লোক, পাইথনে অনেক কাজ করতে হয়েছে এই ফিল্ডে। বন্ধুরাও পাইথন জানে।

মেশিন লার্নিং শিখতে গিয়ে বুঝলাম, ব্যাপারটা সেরকম কিছু নয়। মেশিন লার্নিং এর মূলে রয়েছে এর ডাটাসেট ঠিকমতো চেনা। আর এই ডাটাকে চিনতে আর ঠিকমত বুঝতে প্রায় অনেক বছর ধরেই পরিসংখ্যানবিদরা ব্যবহার করে আসছেন এই 'আর' এনভায়রনমেন্ট। "আর" এর এই এনভায়রনমেন্ট এতোই সহজ যে এটা শিখতে হয় না কেচেগণ্ডূষ করে। প্রতিটাই যেন একটা আলাদা কমান্ড।

ফিরে আসি আমাদের প্রশ্নে। যারা ডাটা সায়েন্স অথবা মেশিন লার্নিং শিখতে চান, তাদের শুরুর এই প্রশ্নটা খুবই ‘কমন’। বলতে গেলে প্রশ্নটা “ফ্যাক”এর ‘এক’ নম্বর প্রশ্ন। ‘ফ্যাক’ হচ্ছে “ফ্রিকুয়েন্টলি আস্কড কোয়েস্চেন”, মানে এই প্রশ্নটাই আসে ঘুরে ফিরে। দেশে বিদেশের প্রশিক্ষণগুলোতেও শুনেছি এই প্রশ্ন হাজারো বার। এর উত্তর যে আমি দেইনি তা নয়। দিয়েছিও অনেক অনেকবার। তবে উত্তর শুনে আমার মনে হয় পিছিয়ে যান অনেকে। ব্যাপারটার অনেকটাই ধারণা করতে পারি প্রশ্নকর্তার হাবভাবে। অনেকে ‘কনফিউজড’ হয়ে যান আরো। আর যারা ধরতে পারেন আসল ব্যাপারটা - তাদের অনেকেই এখন প্রতিষ্ঠিত।

মজার ব্যাপারটা অন্যখানে। বছরখানিক পর উনাদের অনেকের সাথে দেখা হয় ইন্ডাস্ট্রির অনেক মিটিংয়ে। যারা ‘কনফিউজড’ ছিলেন তখন - অনেকেই শুরু করতে পারেননি এখনো। ‘কেন শুরু করেননি’ প্রশ্নের সদুত্তর নেই ওনাদের।

আমার উত্তর থাকতো তিনটা ‘কীওয়ার্ড’ নিয়ে।

১. "আর"। শুরু করুন ‘আর’ দিয়ে। ‘আর’ ডাটা সাইন্সকে চেনায় অনেকটা ‘স্টাটিস্টিক্সের’ ধারায়। পানির মতো করে। আজ আমরা দৌড়াদৌড়ি করছি যে 'মেশিন লার্নিং' নিয়ে, সেই জিনিস পরিসংখ্যানবিদরা করছেন বহুদিন ধরে। কম্পিউটারের প্রসেসিং ক্ষমতা (জিপিইউ সহ) বেড়ে যাওয়ায় স্টাটিস্টিক্সের ভবিষ্যৎ দেখার কাজ মেশিনকে হস্তগত করেছেন সবাই। কম্পিউটার বিলিয়ন বিলিয়ন রেকর্ড প্রসেস করতে পারে চোখের নিমিষে। সত্যিকার অর্থে 'আর' ডাটাকে উল্টে পাল্টে চেনার একটা অসাধারণ টুল, কোন প্রোগ্রামিং এনভায়রনমেন্ট নয়।

২. 'আর' এর ডাটাকে চেনার ক্ষমতা। ‘এক্সপ্লোরেটরি ডাটা অ্যানালাইসিস’এ যেটা ‘আর’ পারে এক লাইনে - সেটা ‘পাইথনে’ হয়তোবা লাগছে পাঁচ ছয় লাইন। মিসিং ভ্যালু, ডাটা ক্লিনিং, প্রি-প্রসেসিং আরেকটা বড় জায়গা। ডাটাকে আসল জায়গাতে লাগানোর আগে এই কাজগুলো করতে ঘাম ছুটে যায় আমাদের। আর যাই হোক ভুল ডাটা নিয়ে 'প্রেডিকশন' করা থেকে না করা অনেক ভালো।

৩. ‘আর’এর লার্নিং কার্ভ অনেক ভালো। টুল হিসেবে শিখতে লাগবে দুই দিন। বাকিটা শিখে যাবেন ‘ক্যাগল’ প্রতিযোগিতায়। চাপে পড়ে। যখন শেখাতে একটা ‘পারপাজ’ থাকে (যেমন ক্যাগলে আপনাকে জিততে হবে সবার সাথে) তখন মানুষ শেখে না বুঝেই যে সে শিখছে। অর্থাৎ নিজের অজান্তেই শিখে ফেলে অনেক কিছু। মেশিন লার্নিংএর প্রোডাকশন সিস্টেম তৈরি হতে হতে নিজেও বুঝে যাবেন ‘পাইথন’। পাইথন সমস্যা নয়, অসাধারণ প্রোগ্রামিং এনভায়রনমেন্ট। এর ব্যাপ্তি অনেক। হেন জিনিস নেই করা যায় না এ দিয়ে। তবে ডাটা সাইন্স শেখার শুরুতে নয়।

সমস্যা কোথায়? কেন মানুষ শিখতে পারে না ডাটা সাইন্স? অথবা হারিয়ে ফেলেন আগ্রহ? কাহিনী কি?

সমস্যা শুধু তাদেরই যারা আগে থেকে ধরে নিয়েছেন উনি শিখবেন ‘পাইথন’। বা শিখেছেন ‘পাইথন’। মানে শুধু ‘পাইথন’। আর কিছু নয়। এই মানসিকতাই তাকে ফেলে দেয় পেছনে। এই মানসিকতাটা একদম ঠিক নয়। আমি নিজে ‘ক্যাগল’ কম্পিটিশনে লিডারবোর্ডে ওপরে ওঠার জন্য যা দরকার শিখেছি ওই মুহূর্তে। কেন নয়? কেন মাথা বেশি খাটালাম অহেতুক? সত্যিকার অর্থে - প্রতিটা ‘লার্নিং’ কাজে লাগে এই লাইনে।

ডাটা সাইন্সের জন্য আমাদের দরকার তিনটা ‘কোর’ স্কিলসেট। ১. ডাটা ম্যানিপুলেশন (ডাটা সাইন্সের ৮৫% হচ্ছে এই জিনিস) ২. ডাটা ভিজ্যুয়ালাইজেশন (‘আর’ এর জিজিপ্লট২ এখনো সেরা) ৩. মেশিন লার্নিং। আপনারাই জানেন এই তিনটার জন্য কি সেরা। আমার কথা অন্য। আগে ঠিক করুন কি সমস্যা সমাধান করবেন। তারপর বাঁছাই করুন তার টুল। সেটার জন্য যতগুলো টুল দরকার শিখবেন ততোগুলিই। আর যাই শেখেন না কেন 'চাকরি বাঁচাতে' ডাটাকে চিনতে হবে নিজের মতো করে। চাকরি বাঁচাতে দরকার মেশিন লার্নিংএর মডেল তৈরিতে শুরু থেকে শেষ পর্যন্ত 'ক্লিয়ার আন্ডারস্ট্যান্ডিং'। সেটা 'পাইথন' আর 'আর' জানেন কিনা তার ওপর নয়।

নিজের অভিজ্ঞতা আর অন্যান্য ডেভেলপারদের সাথে কথা বললে একটা 'পার্সপেক্টিভে' পাওয়া যায় এ ব্যাপারে। ডাটার 'প্রি-প্রসেসিং' হচ্ছে সবচেয়ে কষ্টকর কাজ। এই জিনিসের ওপর নির্ভর করে পুরো মডেলের আউটকাম। যতো ভালো অ্যালগরিদমই ব্যবহার করি না কেন ডাটা যদি তার মতো উপযোগী করে তৈরি না করা হয় তাহলে সেটার ফলাফল অন্যরকম হবে। আর সেকারণে 'আর' অনেক স্মার্ট এই জায়গায়। ডাটার 'প্রি-প্রসেসিং'এ কি কি আসে? ১. ডাটাকে ঠিকমতো পাওয়া (আমাদের দেশে তো ডাটাই পাওয়া যায়না ঠিকমতো) ২. ডাটার মধ্যে যে 'নয়েজ' আছে সেই জিনিসগুলোকে যতটুকু সম্ভব পরিষ্কার মানে 'ক্লিন' করা ৩. ডাটাকে মডেলের মতো করে 'সাইজ' করে নিয়ে আসা ৪. ওই ডাটাগুলোকে ঠিকমতো 'ভ্যালিডেট' করা ৫. ওই বিষয়টার ওপর যিনি 'সাবজেক্ট ম্যাটার এক্সপার্ট' আছেন তার কাছ থেকে ফীচারগুলো বুঝে কোন ডাটাকে ঠিকমতো গুরুত্ব দিতে হবে সেটা বোঝা (ডোমেইন এক্সপার্ট লাগবে এখানে, যেমন ক্যান্সারের প্রেডিকশন করতে লাগবে আসল ডাক্তার)। এর পরেই না মডেলিং! ধরুন, আমরা জানি - 'র‌্যান্ডম ফরেস্ট অ্যালগরিদম' সহ্য করতে পারেনা কোন ধরণের মিসিং ভ্যালু। তাহলে সেটাকে এমন কিছু করতে হবে মানে এমন ফরম্যাটে আনতে হবে যাতে অ্যালগরিদমটা ঠিক মতো চলে। দেখা গেছে ৭৫-৮০% সময় চলে যায় এই জায়গায়। মানে, 'প্রি-প্রসেসিং'য়ে। ১০% সময় যায় ভিজ্যুয়ালাইজেশনে। ৫% যদি মডেলিংয়ে যায় তাহলে হয়তোবা বাকি ৫% যাবে বাকি জিনিসে।

মেশিন লার্নিংয়ের স্তর দুটো। ‘মডেল তৈরি’ আর ‘প্রেডিকশন’। মডেলটা তৈরি হয় ব্যাচ প্রসেসে। আসল কাজ ওখানেই। ফলে, মডেল তৈরিতে লাগে যতো প্রসেস ইনটেনসিভ কাজ। এদিকে প্রেডিকশন হয় নিমিষে। রিয়েল টাইমে। মানে, অ্যালগরিদমের পারফরমেন্স সেটা ‘পাইথন’ অথবা ‘আর’ হোক, খুব একটা সমস্যা হয় না এই দুই প্ল্যাটফর্মে। সমান সমান দুজনে।

দুটোর লাইব্রেরিও সেয়ানে সেয়ানে। ‘আর’এর লাইব্রেরির সাপোর্ট বহুদিন ধরে। ভর করা যায় এমন লাইব্রেরির কথা বলছি আমি। পাইথন পরে এলেও এর আছে অসাধারণ কিছু লাইব্রেরি।

গতি চায় না কে? বিশেষ করে ডেভেলপমেন্টের সময়। এটা ঠিক, ‘আর’এর কোর সফটওয়্যার বেশ ধীর ছিলো একসময়। এখন এর গতি আগুনের মতো। অবিশ্বাস্য! ডেভেলপাররা পুরো জিনিসটা লিখেছেন নাই মানে শুরু থেকে। সি ল্যাঙ্গুয়েজ দিয়ে। প্রসেসরের পুরো ক্ষমতা নেবার মতো করে। পাইথন হাই লেভেল ল্যাঙ্গুয়েজ হবার কারণে কিছুটা ধীর। তবে সমস্যা করার মতো ধীর নয়। ‘আর’ এখানে কিছুটা জয়ী।

Previous৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?Next৪.৫. মেশিন লার্নিং কমিউনিটি

Last updated 5 years ago

Was this helpful?