হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page

Was this helpful?

  1. পর্ব ৮: কি আছে সামনে?

৮.১. কি শিখলাম আমরা?

সত্যিকারের প্রজেক্ট নিয়ে কাজ করতে গিয়ে প্রায় সবকিছু দেখাতে পেরেছি আপনাদের। এটা ঠিক - মেশিন লার্নিং শিখতে যেই “সাতটা স্টেপ” লাগে তার প্রায় সবগুলোই স্পর্শ করেছি কোন না কোন পর্যায়ে। অনেকে বলবেন ৩ অথবা ৫ ধাপ - তবে আমার মতে শেখার জন্য দরকার ৭ ধাপ। একটু ভেতরে ঢুকে। একটা জিনিস বলে রাখা ভালো। আমাদের অনেক কাজ মানে ষ্টেপের ভেতরের কাজ চলেছে পাশাপাশি। এটা না হলে ওটা হবে না সেরকম ডিপেন্ডেন্সি থাকলেও সেটা কমিয়ে নিয়ে এসেছি এখানে। এক ষ্টেপের কাজ যে অন্য স্টেপে হয়নি সেটাও বলা যাবে না শক্ত করে। শেখানোর জন্য সেজন্য ব্যাপারগুলোকে রেখেছি কিছুটা ছাড়া ছাড়া অবস্থায়। আমাদের হিসেবে সোজা। শিখতে হবে আগে। সেটার আর যাই করেন - শেখাতে দয়া দাক্ষিণ্য করতে নেই। তাহলে ঠকবেন দিন শেষে।

১. ডাটা কালেকশন

ডাটা পেয়েছি আমরা ‘ক্যাগল’ সাইট থেকে। আলাদা করে ট্রেনিং আর টেস্ট ডাটাসেট। প্রতিটা ডাটা আপনারা দেখেছেন মাইক্রোসফট এক্সেলে। ধারণা পেয়েছেন প্রতিটা “অ্যাট্রিবিউট” নিয়ে।

২. ডাটা প্রিপারেশন

এটা একটা বিশাল পর্ব। আগেও বলেছি ব্যাপারটা নিয়ে। দেখা গেছে পুরো মেশিন লার্নিংএর ৭৫-৮০% সময় চলে যায় এই জায়গায়। আচ্ছা, ডাটার 'প্রি-প্রসেসিং'এ কি কি আসে? ১. ডাটাকে ঠিকমতো হাতে পাওয়া (আমাদের দেশে তো ‘ডাটা’ই পাওয়া যায়না ঠিকমতো) ২. যে ডাটাগুলো “মিসিং” আছে - সেগুলোকে নতুন করে তৈরি করা। মনে আছে আমাদের “বয়স” ভ্যারিয়েবল থেকে শুরু করে আরো বেশ কিছু ভ্যারিয়েবলে ডাটা মিসিং ছিলো আমাদের দেয়া দুটো ডাটাসেটে? সেগুলোকে নতুন করে তৈরি করে দিয়েছি “ডিসিশন ট্রি” আর গড় মান দিয়ে। "রিকার্সিভ পার্টিশনিং" মেথডও ব্যবহার করা হয়েছে বিভিন্ন জায়গায় ডাটাকে নতুন করে তৈরি করতে। ৩. পাশাপাশি ডাটাকে বিভিন্ন সাবসেটে ভাগ করে দেখেছি এর ভেতরের তথ্য। ৪. ওই ডাটাগুলোকে ‘ভ্যিজুয়ালাইজ’ করে ডিস্ট্রিবিউশনটা দেখা যায় ঠিকমতো। ক্যাগলে দেয়া ভ্যারিয়েবলগুলোর বাইরে তৈরি করেছি অনেকগুলো দরকারি ভ্যারিয়েবল - ‘ফিচার ইঞ্জিনিয়ারিং’ দিয়ে। যে যাই বলুক এটা একটা বড় ধাপ। এখানেই বেড়েছে আমাদের ‘অ্যাক্যুরেসি’।

৩. মডেল বাঁছাই করা

আমাদের মডেল হিসেবে শেষমেশ এসেছে ‘র‌্যান্ডম ফরেস্ট’ - যা কাজ করেছে বেশ ভালোভাবে। এখানে “ডিসিশন ট্রি”গুলোর ভেতরে বিভিন্ন ‘ফিচারসেট’ নিয়ে কাজ করেছি আমরা। মডেলের বিভিন্ন “হাইপার-প্যারামিটার” মানে মডেলকে ঠিকমতো টিউন করতে বেশ কিছু জিনিস নিয়েও কাজ করেছি আমরা। এর অনেক কাজ দেখতে পারবেন সপ্তম প্রেডিকশন চ্যাপ্টারে।

৪. ট্রেনিং

মডেলকে ট্রেনিং করিয়েছি আমাদের তৃতীয় প্রেডিকশন চ্যাপ্টার থেকে। একবার ট্রেনিং আর টেস্ট ডাটাসেট দুটোকে যোগ করেছিলাম কাজের মধ্যে সমন্বয়হীনতা দূর করতে। মিসিং ডাটাগুলোও ভর্তি করেছি সেটার সুযোগ নিয়ে। কাজ শেষে ভাগ করে দিয়েছি আগের মতো করে। ট্রেইন ডাটাসেটের জিনিসগুলোকে বের করেছি বিভিন্ন পরিসংখ্যানের জিনিস দিয়ে।

৫. ইভ্যালুয়েশন

মডেলকে ট্রেনিং করানোটা যতোটা ঝামেলা ছিলো সেটাকে ঠিক করে আনানো গেছে অনেকবার ক্যাগলে সাবমিট করে। একটা জিনিস বলে রাখা ভালো - ক্যাগলের কাছে কিন্তু আছে পুরো উত্তর সেট। সেখানে দেখেছি - ‘অ্যাক্যুরেসি’ এসেছে আস্তে আস্তে। প্রতিটা ভ্যারিয়েবলগুলোকে আলাদা করে টিউন করে করে। ইভ্যালুয়েশন করতে হয় একদম অচেনা ডাটা দিয়ে। সেকারণে আমরা মেলাইনি আমাদের ডাটাসেটগুলো শুরুতে। আমাদের মডেলও কিন্তু দেখেনি টেস্ট ডাটাসেট।

৬. প্যারামিটার টিউনিং

ইভ্যালুয়েশনের পাশাপাশি আমাদের প্যারামিটারগুলোকে টিউনিং করেছি দরকার মতো। মনে হতে পারে যেভাবে দরকার সেভাবে হয়নি, তবে অনেকটুকু টিউনিং করেছি আমাদের ফীচার ইঞ্জিনিয়ারিংএ। পাশাপাশি মডেল টিউনিং এ। ‘ডিসিশন ট্রি’তে ইচ্ছেমতো পাল্টেছি আমাদের বিভিন্ন আর্গুমেন্ট মানে প্যারামিটার। আমরা যদিও আলাপ করিনি ‘লার্নিং রেট’ নিয়ে তবে - সেটাই সবকিছু নয়। শুরুর জন্য আমরা বেশি ঝামেলা করিনি এখানে।

৭. প্রেডিকশন

সাত সাতটা প্রেডিকশন করেছি আমরা, ঠিক বলেছি তো? এখানেই আমাদের স্বার্থকতা। বাকিটা নিয়ে যাবেন আপনারা।

Previousপর্ব ৮: কি আছে সামনে?Next৮.২. কোথায় যাচ্ছি এর পর?

Last updated 5 years ago

Was this helpful?