হাতে কলমে মেশিন লার্নিং
  • হাতেকলমে মেশিন লার্নিং
  • উৎসর্গ
  • প্রথম পাতা
  • মুখবন্ধ
  • কৃতজ্ঞতা
  • কাদের জন্য বইটা?
  • কাদের জন্য নয়
  • কিভাবে পড়বেন বইটা?
  • পর্ব ১: পাল্টে যাবার ঘটনা
    • ১.১. সিডিসি’র ওয়ার্নিং
    • ১.২. ইন্টারকানেকশন কস্ট মডেলিং
    • ১.৩. মানুষের পাশে ডাটা
    • ১.৪. গুগল ফটোজ, টেক্সট টু স্পিচ
    • ১.৫. সরকারি ওপেন ডাটা
    • ১.৬ প্রাইভেট সেক্টর + পাবলিক সেক্টর (ডাটা শেয়ারিং)
    • ১.৭. আর্টিফিসিয়াল ইন্টেলিজেন্স - মেশিন লার্নিংএর প্রসার
    • ১.৮. মেশিন লার্নিং ব্যবহারে এগিয়ে যে ইন্ডাস্ট্রিগুলো
  • পর্ব ২: ডাটা থেকে ভবিষ্যৎ দেখার ধারণা
    • ২.১. মেশিন লার্নিং হ্যাক
    • ২.২. ভবিষ্যৎ দেখার ধারণা + ডাটার গল্প বলার ক্ষমতা
    • ২.৩. মৃত্যু অ্যালগরিদম
    • ২.৪. দেশের নীতিনির্ধারণী ড্যাশবোর্ড
  • পর্ব ৩: মেশিন লার্নিং কি? (৩০ মিনিট)
    • ৩.১. মেশিন লার্নিং জিনিসটা কি?
    • ৩.২. কেন দরকার মেশিন লার্নিং?
    • ৩.৩. মেশিন লার্নিং এর কিছু ভাগ
    • ৩.৪. শুরুর ধারণা - ডাটা নিয়ে
    • ৩.৫. ডাটার তত্ব আর তার প্রসেস
    • ৩.৬. কিভাবে শিখবেন?
  • পর্ব ৪: ক্যাগল প্রতিযোগিতা (৪ সপ্তাহ-৬ সপ্তাহ)
    • ৪.১. ‘ক্যাগল’ কি? আর দরকারই বা কেন?
    • ৪.২. কি করতে হবে ক্যাগলে?
    • ৪.৩. থিওরি বাদ, কেন প্রজেক্ট দিয়ে শুরু?
    • ৪.৪. কেন শুরুতেই ‘আর’ প্রোগ্রামিং এনভায়রনমেন্ট?
    • ৪.৫. মেশিন লার্নিং কমিউনিটি
    • ৪.৬. ক্যাগল কার্নাল এবং অনলাইন হোস্টেড স্ক্রিপ্ট
  • পর্ব ৫: "আর" এনভায়রনমেন্ট
    • ৫.১. "আর" + "আর" ষ্টুডিও
    • ৫.২. "আর" ষ্টুডিওর কিছু খুঁটিনাটি
    • ৫.৩. প্রজেক্ট টাইটানিক + 'আর' ষ্টুডিও
    • ৫.৪. প্রজেক্টের গিটহাব স্ক্রিপ্ট
  • পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং
    • ৬.১. টাইটানিকের গল্প
    • ৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
    • ৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট
    • ৬.৪. ক্যাগলের কোন কোন কার্নাল?
    • ৬.৫. "আর" স্টুডিওতে ডাটা লোড
    • ৬.৬. মেন্যু দিয়ে নাকি স্ক্রিপ্ট ভালো ?
  • পর্ব ৭: প্রেডিকশন
    • ৭.১. প্রথম প্রেডিকশন
    • ৭.২. ডাটা ভিজ্যুয়ালাইজেশন
    • ৭.৩. দ্বিতীয় প্রেডিকশন
    • ৭.৪. তৃতীয় প্রেডিকশন
    • ৭.৫. ডিসিশন ট্রি
    • ৭.৬. চতুর্থ প্রেডিকশন (মেশিন লার্নিং)
    • ৭.৭. পঞ্চম প্রেডিকশন (ফিচার ইঞ্জিনিয়ারিং)
    • ৭.৮. ডাটা প্রি-প্রসেসিং, ডাটা ক্লিনিং এবং ষষ্ঠ প্রেডিকশন
    • ৭.৯. সপ্তম প্রেডিকশন (র‌্যান্ডম ফরেস্ট)
  • পর্ব ৮: কি আছে সামনে?
    • ৮.১. কি শিখলাম আমরা?
    • ৮.২. কোথায় যাচ্ছি এর পর?
    • ৮.৩. সামনের বই
    • ৮.৪. যোগাযোগের মাধ্যম
  • পর্ব ৯: পাইথনে টাইটানিক প্রজেক্ট
    • জুপিটারে প্রজেক্ট টাইটানিক
  • একটা ট্রেনিং প্রোগ্রাম
Powered by GitBook
On this page
  • কেন প্রজেক্ট "টাইটানিক"?
  • ডাটা কোথায়?
  • কেন এই ডাটা সেট?

Was this helpful?

  1. পর্ব ৬: প্রজেক্ট টাইটানিক: বিপর্যয়ে মেশিন লার্নিং

৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?

Previous৬.১. টাইটানিকের গল্পNext৬.৩. ‘ট্রেনিং’ আর ‘টেস্ট’ ডাটা সেট

Last updated 5 years ago

Was this helpful?

কেন প্রজেক্ট "টাইটানিক"?

ডাটা সায়েন্টিস্টদের কথা, হাতে কলমে কাজ করতে আমাদের দরকার আসল "ডাটাসেট"। "ডাটাসেট" হচ্ছে মেশিন লার্নিংএর মূল চাবি কাঠি। প্রোগ্রামটা কিভাবে কাজ করবে সেটা বলে দেবে এই ডাটা সেট। সত্যি বললে - এই ডাটাসেটই শেখাবে আমাদের মডেলকে। আর সেটা আরো ভালো হয় যখন ডাটাসেটগুলো আসে সত্যিকারের ঘটনা থেকে। তাই আমরা হাজারো ডাটাসেট থেকে বেছে নিয়েছি টাইটানিক ডাটাসেট। গল্পটা জানেন সবাই। চেনেন গল্পের চরিত্র "রোজ" আর "জ্যাক"কে। কষ্ট কম সবারই। গল্পটা জানা থাকাতে কতো সুবিধা।

আসলেই তাই! এজন্যই এই প্রজেক্টটা এতো ডায়নামিক!

টাইটানিক কেন? এর ডাটাসেটটা বেশ ছোট। মাত্র কয়েকশো কিলোবাইট! আমার ভাঙ্গা কম্পিউটারে চললে আপনারটাতে চলবে বাতাসের বেগে। সত্যি বলছি! আসল কারণে আসি। ব্যবসার প্রথম এলিমেন্ট কী? একটা প্রোডাক্ট। তো বেচবেন কার কাছে? গ্রাহক মানে কাস্টমারের কাছে। আর কাস্টমার কে? সেই রাজা। তো যিনি তার কাস্টমারকে চেনেন ভালো, তার মতো বুদ্ধিমান নেই এই দুনিয়ায়। অ্যামাজনে গেলে গল্পটা পরিস্কার হবে বেশি। বউ থেকে আপনাকে চেনে বেশি এই সাইটগুলো। ভুল বললাম কী?

টাইটানিক ডাটাসেটটা আমাদের ব্যবসার কাস্টমার ডাটাবেসের একটা বিশাল প্রক্সি! বিশ্বাস হচ্ছে না? চেখেই দেখুন না আজ? আপনি যদি একটা মানুষের 'বাঁচা মরা' প্রেডিক্ট করতে পারেন, তাহলে অনেক কিছু জেনেই যাবেন মানুষের ব্যাপারে। সৃষ্টিকর্তা মানুষকে অনেক জ্ঞান দিয়েছেন, ভবিষ্যত দেখার ব্যাপারটা বাদ যাবে কেন?

ডাটা কোথায়?

মেশিন লার্নিংয়ের শুরুতেই দরকার ডাটা। আর সেই ডাটা আমরা কিন্তু নামিয়েছি লিংক থেকে। যেকোন ক্যাগল কম্পিটিশনের মতো এখানেও আমরা নামিয়েছি দুটো ডাটা সেট।

১. ‘ট্রেনিং’ (train.csv) আর

২. ‘টেস্ট’ ডাটা সেট (test.csv)।

দেখতে পাচ্ছেন তো ডাটা সেট দুটো? মাইক্রোসফট এক্সেলে? এখন আসি এই ডাটা সেটের গল্পে।ছবি: ক্যাগল সাইট ----> ডাটা ডাউনলোড

কেন এই ডাটা সেট?

ডাটা সায়েন্টিস্টদের মতে - যতো ডাটা ততো গুড়। একটা উদাহরন দেই বরং। ক্লাস ওয়ানে আপনার রোল ছিলো পাঁচ। এটা একটা ডাটা। মানে ছোটবেলায় ভালো ছাত্র ছিলেন আপনি। যদি আমরা জানতাম আপনার সব রোল অথবা পরীক্ষার মার্ক, মানে সব ওপরের দিকে - তখন বলা যেতো বরাবরই তুখোড় ছাত্র ছিলেন আপনি। এর মানে হচ্ছে যতো বেশি ডাটা, ততো ‘অ্যাক্যুরেট’ হবার সম্ভাবনা বেশি।

আমার কাজের কথা বলি। ধরুন, সাইবার অ্যাটাক হয়েছে একটা নেটওয়ার্কে। এক গিগাবাইট প্যাকেট ক্যাপচারে পাঁচ ছয়টা সিগনেচার পাওয়া গেলো ওই অ্যাটাকের। যদি ডাটা পাওয়া যেতো বিশ গিগাবাইট? কি হতো তখন? অনেকগুলো সিগনেচার দেখে বোঝা যেতো একটা প্যাটার্ন। বোঝা যেতো কাহিনী কি?

এমনও হয় অনেক সময়, ধরুন - যদি না পাওয়া যায় ‘সিগনেচার’ ওই বিশ গিগাবাইটে? তখন স্কেলআপ করে যেতে হবে আরো বেশি ডাটায়। পঞ্চাশ গিগায়। আশায় - যদি পাওয়া যায় ওই সিগনেচার? বেশি ডাটা মানে মেশিনকে শেখানো যায় নির্ভুলভাবে। বেশি পাশ দিলে বিদ্যান হবার মতো। বেশি ডাটা, বেশি অ্যাক্যুরেসি।

https://www.kaggle.com/c/titanic/data