৩.৫. ডাটার তত্ব আর তার প্রসেস

মেশিন লার্নিং আর ডাটার কিছু “প্রিন্সিপাল” মানে তত্ত্ব নিয়ে আলাপ করি। জানি - তত্ব পছন্দ করেন না কেউ, তবে শুরুতে সেটা জরুরি। সেটাও করবো অল্প সময়ের জন্য।

প্রথমত:

১. ডাটা হচ্ছে “স্ট্রাটেজিক” অ্যাসেট

যেহেতু ডাটা থেকে শুরু হয় সবকিছু, একে লম্বা সময় ধরে রাখা জরুরী। মানে, কতটুকু রাখবেন আর কতটুকু ফেলে দেবেন সেখানে দরকার একটা ব্যালান্স। তবে সেখানে দুটো প্রশ্ন করতে পারেন নিজেকে। বিশেষ করে এ ব্যাপারে।

ক. আমরা সব ডাটা কি নিতে পারছি আমাদের দরকারে? আবার, সব ডাটা কি ব্যবহার করতে পারছি আমাদের প্রয়োজনে? কতটুকু হচ্ছে আসলে কতটুকু?

খ. প্রতিটা ডাটা থেকে কি নিতে পারছি দরকারী ‘জ্ঞান’? নাকি একেবারেই পারছি না?

স্বভাবতই এর উত্তর “না”। স্টোরেজের দাম কমাতে ব্যাপারটা গায়ে না লাগলেও ডাটাকে ফেলতে হবে আমাদের দরকারী “স্ট্রাটেজিক” অ্যাসেট হিসেবে। সে কারণে আমরা ব্যাপারটা রাখবো মাথায় - একটা লম্বা সময় ধরে। ডাটা কিন্তু সময়ই ডাটা। আগের আমলে আমরা দুর্গকে বলতাম স্ট্রাটেজিক অ্যাসেট। ব্যাপারটা সেরকম। তাকে ঘিরেই তৈরি করতে হবে আমাদের ভবিষ্যত সব প্ল্যানিং। কতোটুকু আসলে রাখবো - আবার সেই ডাটা তখন পাবো কি না?

২. ডাটা থেকে “সিস্টেম্যাটিক” ভাবে জ্ঞান আহরণ

ডাটাকে অনেকদিন ধরে হাজির করলাম আমাদের সিস্টেমে। আবার - সেগুলোকে স্টোর করলাম অনেক দিন ধরে। এখন - এই ডাটাগুলো থেকে জ্ঞান বের করা দরকার। কিভাবে সেই জ্ঞান বের করবো সেটার একটা “সিস্টেম্যাটিক প্রসেস” থাকা দরকার। একেক সময়ে একেক রকম না। পুরোপুরি একটা ডিফাইন্ড প্রসেস। আজকে মনে হলো - করলাম একটা। আরেকদিন করলাম আরেকটা - সেটা হবে না। ডাটা মাইনিংএর জন্য এধরনের ক্রস ইন্ডাস্ট্রি প্রসেসগুলো তৈরি করা আছে আগে থেকে। জানতে হবে - আছে কোথায় সেটা? মানতে হবে সেই জিনিস।

৩. ডাটার সাথে ভালবাসার সম্পর্ক তৈরি করা

ডাটা নিয়ে যাদের নাওয়া, খাওয়া-দাওয়া, ঘুমানো সবকিছু, তাদেরকে নিয়ে আসতে হবে এক জায়গায়। দিতে হবে কাজের স্পেস। দিতে হবে সেরকম এনভায়রনমেন্ট। তাদের ভেতরের সেই রসায়ন তৈরি হবার সময় দিতে হবে ডাটার সাথে। ডাটা ডাটা এবং ডাটা। মানে শুধু ডাটা। যারা চিন্তা করে শুধু ডাটা নিয়ে। আনতে হবে তাদেরকে এক ছাদের নিচে। সেই মানুষগুলোই কিন্তু যোগসুত্র করতে পারবে ব্যবসা এবং ডাটার সাথে। বুঝতে হবে পুরো ইকোসিস্টেম।

৪. কাঁটাতে হবে ডাটার অনিশ্চয়তা

অনেক গল্প আছে ডাটা নিয়ে। ডাটা এটা করতে পারে - ওটা করতে পারে। সবই বুঝলাম, তাই বলে ডাটা তো সর্বেসর্বা নয়। ভুল হতে পারে ডাটার। মানে, ঠিকমতো ডাটাকে না ইন্টারর্প্রেট করতে পারলে। সে জায়গাটা হচ্ছে 'হিউম্যান এলিমেন্ট'। আসলেই মানুষের কাজ সেটা। মানুষের ভুলে দোষ পড়ে মেশিন লার্নিংয়ের ওপর। মনে রাখতে হবে ডাটা একটা টুল, সিদ্ধান্ত নেবার একটা সহায়ক জিনিস। ভুল হতে পারে ডাটার ঠিক ফিচারটা না বুঝতে পারলে। ডাটার পাশাপাশি ব্যবহার করতে হবে সাধারণ জ্ঞানটাকেও। কে যেন বলেছিলো ফেইল ফার্স্ট, লার্ন ফার্স্ট - মানে যতো তাড়াতাড়ি এক্সপেরিমেন্ট করা যায় ততো ভালো। শেখা যায় কি ভুল করছিলাম নিজের কাজে। তাড়াতাড়ি।

৫. "বিজনেস-অ্যানালাইটিক্স-বিজনেস" তত্ব

সবচেয়ে বড় তত্ব হচ্ছে এই জিনিস। মেশিন লার্নিং অথবা তার এলগরিদম সবকিছু নয়। আসলে এগুলোই অল্প অংশ। যেগুলো নিয়ে আমরা আলাপ করছি। দরকার ব্যবসাটা বোঝা। আসলেই সবচেয়ে বড় অংশ হচ্ছে সেই ব্যবসাটা বোঝা। হৃদয় দিয়ে। আগাগোড়া ধরে। আমি ই-কমার্স ব্যবসায় থাকলে সেটার ইকোসিস্টেম বোঝা জরুরি। এলগরিদম অথবা মেশিন লার্নিং ততো নয়। মেশিন লার্নিং সিস্টেম জানতে সময় লাগে না - লাগে সেই ব্যবসাটার এন্ড টু এন্ড ইকোসিস্টেম বুঝতে। এখানেই ভুল করেন বেশিরভাগ মানুষ। বুঝতে ব্যবসার আসল ইকুয়েশন। মেশিন লার্নিং নয়। পরে দোষ হয় মডেলের। দোষ হয় যান্ত্রিক শিক্ষার।

Last updated