৬.২. কেন প্রজেক্ট" টাইটানিক "? ডাটা কোথায়?
Last updated
Last updated
ডাটা সায়েন্টিস্টদের কথা, হাতে কলমে কাজ করতে আমাদের দরকার আসল "ডাটাসেট"। "ডাটাসেট" হচ্ছে মেশিন লার্নিংএর মূল চাবি কাঠি। প্রোগ্রামটা কিভাবে কাজ করবে সেটা বলে দেবে এই ডাটা সেট। সত্যি বললে - এই ডাটাসেটই শেখাবে আমাদের মডেলকে। আর সেটা আরো ভালো হয় যখন ডাটাসেটগুলো আসে সত্যিকারের ঘটনা থেকে। তাই আমরা হাজারো ডাটাসেট থেকে বেছে নিয়েছি টাইটানিক ডাটাসেট। গল্পটা জানেন সবাই। চেনেন গল্পের চরিত্র "রোজ" আর "জ্যাক"কে। কষ্ট কম সবারই। গল্পটা জানা থাকাতে কতো সুবিধা।
আসলেই তাই! এজন্যই এই প্রজেক্টটা এতো ডায়নামিক!
টাইটানিক কেন? এর ডাটাসেটটা বেশ ছোট। মাত্র কয়েকশো কিলোবাইট! আমার ভাঙ্গা কম্পিউটারে চললে আপনারটাতে চলবে বাতাসের বেগে। সত্যি বলছি! আসল কারণে আসি। ব্যবসার প্রথম এলিমেন্ট কী? একটা প্রোডাক্ট। তো বেচবেন কার কাছে? গ্রাহক মানে কাস্টমারের কাছে। আর কাস্টমার কে? সেই রাজা। তো যিনি তার কাস্টমারকে চেনেন ভালো, তার মতো বুদ্ধিমান নেই এই দুনিয়ায়। অ্যামাজনে গেলে গল্পটা পরিস্কার হবে বেশি। বউ থেকে আপনাকে চেনে বেশি এই সাইটগুলো। ভুল বললাম কী?
টাইটানিক ডাটাসেটটা আমাদের ব্যবসার কাস্টমার ডাটাবেসের একটা বিশাল প্রক্সি! বিশ্বাস হচ্ছে না? চেখেই দেখুন না আজ? আপনি যদি একটা মানুষের 'বাঁচা মরা' প্রেডিক্ট করতে পারেন, তাহলে অনেক কিছু জেনেই যাবেন মানুষের ব্যাপারে। সৃষ্টিকর্তা মানুষকে অনেক জ্ঞান দিয়েছেন, ভবিষ্যত দেখার ব্যাপারটা বাদ যাবে কেন?
মেশিন লার্নিংয়ের শুরুতেই দরকার ডাটা। আর সেই ডাটা আমরা কিন্তু নামিয়েছি https://www.kaggle.com/c/titanic/data লিংক থেকে। যেকোন ক্যাগল কম্পিটিশনের মতো এখানেও আমরা নামিয়েছি দুটো ডাটা সেট।
১. ‘ট্রেনিং’ (train.csv) আর
২. ‘টেস্ট’ ডাটা সেট (test.csv)।
দেখতে পাচ্ছেন তো ডাটা সেট দুটো? মাইক্রোসফট এক্সেলে? এখন আসি এই ডাটা সেটের গল্পে।ছবি: ক্যাগল সাইট ----> ডাটা ডাউনলোড
ডাটা সায়েন্টিস্টদের মতে - যতো ডাটা ততো গুড়। একটা উদাহরন দেই বরং। ক্লাস ওয়ানে আপনার রোল ছিলো পাঁচ। এটা একটা ডাটা। মানে ছোটবেলায় ভালো ছাত্র ছিলেন আপনি। যদি আমরা জানতাম আপনার সব রোল অথবা পরীক্ষার মার্ক, মানে সব ওপরের দিকে - তখন বলা যেতো বরাবরই তুখোড় ছাত্র ছিলেন আপনি। এর মানে হচ্ছে যতো বেশি ডাটা, ততো ‘অ্যাক্যুরেট’ হবার সম্ভাবনা বেশি।
আমার কাজের কথা বলি। ধরুন, সাইবার অ্যাটাক হয়েছে একটা নেটওয়ার্কে। এক গিগাবাইট প্যাকেট ক্যাপচারে পাঁচ ছয়টা সিগনেচার পাওয়া গেলো ওই অ্যাটাকের। যদি ডাটা পাওয়া যেতো বিশ গিগাবাইট? কি হতো তখন? অনেকগুলো সিগনেচার দেখে বোঝা যেতো একটা প্যাটার্ন। বোঝা যেতো কাহিনী কি?
এমনও হয় অনেক সময়, ধরুন - যদি না পাওয়া যায় ‘সিগনেচার’ ওই বিশ গিগাবাইটে? তখন স্কেলআপ করে যেতে হবে আরো বেশি ডাটায়। পঞ্চাশ গিগায়। আশায় - যদি পাওয়া যায় ওই সিগনেচার? বেশি ডাটা মানে মেশিনকে শেখানো যায় নির্ভুলভাবে। বেশি পাশ দিলে বিদ্যান হবার মতো। বেশি ডাটা, বেশি অ্যাক্যুরেসি।