বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, টোকেনাইজেশন এবং ভেক্টরাইজেশন
বাংলা নাচারাল ল্যাঙ্গুয়েজ প্রসেসিং
মেশিন লার্নিং বা ডিপ লার্নিং মডেলের যেকোন ভাষাকে বুঝতে হলে তাকে শুরুতে মানুষের মতো হাটি হাটি পা পা করে বুঝতে হয়। আমি এখানে শুরুতে অক্ষরের কথা বলবো না কারণ মেশিন সংখ্যা ছাড়া বোঝেনা। তবে, এর জন্য শুরুতে একটা বড় বাক্যকে ভেঙ্গে ছোট ছোট মিনিংফুল শব্দে ভাগ করে নিতে হয়, যাতে একেকটা শব্দের সাথে আরেকটা শব্দের সম্পর্ক বুঝতে পারে। এই যে বড় বড় বাক্যকে ভেঙ্গে ছোট ছোট মিনিংফুল ইউনিটে ভাগ করাকে আমরা বলছি টোকেনাইজেশন।
যেহেতু মেশিন সংখ্যা ছাড়া বোঝেনা, সেখানে এই ছোট ছোট ইউনিটে ভাগ করা শব্দগুলোকে আমরা পাল্টে ফেলব অঙ্কের সংখ্যাতে। এটাকে আমরা বলছি ভেক্টরাইজেশন।
১. টোকেনাইজেশন
২. ভেক্টরাইজেশন
sentences = ['আমি মাঝে মধ্যেই ফিরে যাই পুরানো কিছু ক্লাসিক বইয়ে', 'বিশেষ করে বেসিক ঝালাই করার জন্য']import nltk
nltk.download('punkt')[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data] Package punkt is already up-to-date!
Truefrom sklearn.feature_extraction.text import CountVectorizer
# ট্রান্সফরমেশন তৈরি করি
vectorizer = CountVectorizer()
# টোকেনাইজ এবং ভোকাবুলারি তৈরি করি
vectorizer.fit(sentences)
# সামারি দেখি
vectorizer.vocabulary_{'আম': 0, 'কর': 1, 'জন': 2, 'বইয়': 3, 'মধ': 4}import warnings
warnings.filterwarnings("ignore")# ইউনিকোডে দেখুন নিচের লিঙ্কে
# https://jrgraphix.net/r/Unicode/0980-09FF
from nltk import word_tokenize
vectorizer = CountVectorizer(encoding='utf-8', tokenizer=word_tokenize)
vectorizer.fit(sentences)
vectorizer.vocabulary_{'আমি': 0,
'করার': 1,
'করে': 2,
'কিছু': 3,
'ক্লাসিক': 4,
'জন্য': 5,
'ঝালাই': 6,
'পুরানো': 7,
'ফিরে': 8,
'বইয়ে': 9,
'বিশেষ': 10,
'বেসিক': 11,
'মধ্যেই': 12,
'মাঝে': 13,
'যাই': 14}print(vectorizer.vocabulary_){'আমি': 0, 'মাঝে': 13, 'মধ্যেই': 12, 'ফিরে': 8, 'যাই': 14, 'পুরানো': 7, 'কিছু': 3, 'ক্লাসিক': 4, 'বইয়ে': 9, 'বিশেষ': 10, 'করে': 2, 'বেসিক': 11, 'ঝালাই': 6, 'করার': 1, 'জন্য': 5}vectorizer.transform(sentences).toarray()array([[1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1],
[0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0]])vec = CountVectorizer()
x = vec.fit_transform(sentences).toarray()
print(x.shape)
print(vec.get_feature_names())(2, 5)
['আম', 'কর', 'জন', 'বইয়', 'মধ']# ইউনিকোডে দেখুন নিচের লিঙ্কে
# https://jrgraphix.net/r/Unicode/0980-09FF
vectorizer = CountVectorizer(encoding='utf-8', token_pattern=r'[\u0980-\u09ff]+')
vectorizer.fit(sentences)
vectorizer.vocabulary_{'আমি': 0,
'করার': 1,
'করে': 2,
'কিছু': 3,
'ক্লাসিক': 4,
'জন্য': 5,
'ঝালাই': 6,
'পুরানো': 7,
'ফিরে': 8,
'বইয়ে': 9,
'বিশেষ': 10,
'বেসিক': 11,
'মধ্যেই': 12,
'মাঝে': 13,
'যাই': 14}from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer =TfidfVectorizer(encoding='utf-8', tokenizer=word_tokenize)
vectorizer.fit(sentences)
vectorizer.vocabulary_{'আমি': 0,
'করার': 1,
'করে': 2,
'কিছু': 3,
'ক্লাসিক': 4,
'জন্য': 5,
'ঝালাই': 6,
'পুরানো': 7,
'ফিরে': 8,
'বইয়ে': 9,
'বিশেষ': 10,
'বেসিক': 11,
'মধ্যেই': 12,
'মাঝে': 13,
'যাই': 14}vectorizer.transform(sentences).toarray()array([[0.33333333, 0. , 0. , 0.33333333, 0.33333333,
0. , 0. , 0.33333333, 0.33333333, 0.33333333,
0. , 0. , 0.33333333, 0.33333333, 0.33333333],
[0. , 0.40824829, 0.40824829, 0. , 0. ,
0.40824829, 0.40824829, 0. , 0. , 0. ,
0.40824829, 0.40824829, 0. , 0. , 0. ]])print(vectorizer.idf_)[1.40546511 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511
1.40546511 1.40546511 1.40546511 1.40546511 1.40546511 1.40546511
1.40546511 1.40546511 1.40546511]vector = vectorizer.transform([sentences[0]])
# এনকোডেড ভেক্টরকে সামারাইজ করি
print(vector.shape)
print(vector.toarray())(1, 15)
[[0.33333333 0. 0. 0.33333333 0.33333333 0.
0. 0.33333333 0.33333333 0.33333333 0. 0.
0.33333333 0.33333333 0.33333333]]cities = ['ঢাকা', 'বার্লিন', 'কুমিল্লা', 'শিকাগো', 'সিঙ্গাপুর']
cities['ঢাকা', 'বার্লিন', 'কুমিল্লা', 'শিকাগো', 'সিঙ্গাপুর']from sklearn.preprocessing import LabelEncoderencoder = LabelEncoder()
city_labels = encoder.fit_transform(cities)
city_labelsarray([1, 2, 0, 3, 4])from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=False)
city_labels = city_labels.reshape((5, 1))
encoder.fit_transform(city_labels)array([[0., 1., 0., 0., 0.],
[0., 0., 1., 0., 0.],
[1., 0., 0., 0., 0.],
[0., 0., 0., 1., 0.],
[0., 0., 0., 0., 1.]])Previousঅ্যান্ড্রয়েডে ফ্যাশন 'এমনিস্ট' অ্যাপ (৪)Nextএমবেডিং, ওয়ার্ড এমবেডিং, শব্দ এবং সংখ্যার কাছাকাছি এনকোডিং
Last updated
Was this helpful?