আগের ধাপে আমরা স্ক্যান করা পাতা থেকে শব্দগুলোকে আলাদা করতে পেরেছি। বাংলা শব্দে বর্ণগুলো যেহেতু মাত্রা দিয়ে যুক্ত থাকে, সেহেতু বর্ণগুলোকে সহজেই আলাদা করা যায় না। ইংরেজী বা ল্যাটিন হরফের ক্ষেত্রে এই ঝামেলা নেই। এখন আমরা যদি শব্দ থেকে কোন দাগটি মাত্রা তা নির্ণয় করতে পারি তাহলে পরে বর্ণগুলোকে আলাদাভাবে চিহ্নিত করতে সুবিধা হয়। কারণ মাত্রাটা বাদ দিয়ে ফেললে, ইংরেজীর মত করেই বর্ণগুলোকে আলাদা করা সম্ভব হবে!
তো এই মাত্রা নির্ণয় করতে কি করলাম একটু আগে, সেটাই এখানে লিখি।
আমাদের স্ক্যান করা পাতাটা এমন
এখান থেকে আগের পর্বে আমরা কিছু ঘসা মাজা করে একটা ইনভার্টেড সাদাকালো ছবি তৈরি করেছিলাম। ঐ ছবিটাই এই ধাপের ইনপুট।
মাত্রা নির্ণয়ের অপারেশনটা পরে প্রতিটি শব্দের জন্য আলাদা আলাদা ভাবে করবো। আপাতত দ্রুত প্রোটোটাইপ বানানোর জনে। পুরো ছবিতেই এক সঙ্গে করছি। ব্যাপারটা স্রেফ একটু চালাকি। যেমন এই ছবিটাকে যদি ধরে ডানেবামে ঘসাঘসি করি তাহলে মাত্রার অংশটা নিজের সাদার উপরেই থাকবে। তাই তার গাড়ত্ব কমবে বাড়বে না। ওদিকে মাত্রা ব্যতিত অন্য দাগগুলো যেহেতু আনুভূমিক নয়, এরা ডানেবামে ঘসা খেলে ঝাপসা হয়ে যাবে। আমরা এখানে আনুভুমিক ভাবে ৯ পিক্সেল পর্যন্ত ঘসাঘসি করলাম ফলে ছবিটা দাঁড়ালো অনেকটা এমন,
ছবিটার উপর ক্লিক করে বড় করে দেখলে লক্ষ্য করবেন যে মাত্রার অংশ অন্য অংশের তুলনায় বেশি সাদা। এখন একটা নির্দিষ্ট থ্রেশহোল্ডের নিচে সবকিছুকে কালো করে দিলে পাবো
কী চমৎকার ভাবে মাত্রাগুলো পেয়ে গেছি! এখন বোঝার জন্য আমাদের আগের ইনপুটের ছবির উপর এই মাত্রাগুলো ভিন্ন রঙএ আঁকি।
বাস! হয়ে গেলো। আমরা আগের ধাপে প্রতিটি শব্দকে লাল বাক্স দিয়ে ঘিরে দিয়েছিলাম। এখন এই পার্পল দাগগুলো পেয়ে যাওয়ায়, পুরো মাত্রা ঠিক ঠিক বের করে ফেলবো। টুকি টাকি খুত এখানে কোনো বাধাই সৃষ্টি করবে না।
তার মানে এখন এই মাত্রাজ্ঞান ব্যবহার করে শব্দের বর্ণগুলোকে কেটে ফেলতে হবে। আর তার পর সেই কাটা অংশগুলো চিহ্নিত করতে পারলেই হয়ে গেল! আমাদের "দৃশ্যমান অক্ষর চিহ্নিতকরণ প্রকল্প" তার প্রোটো টাইপ স্তর পারকরবে তখন।
তবে সাধারণ ব্যবহারকারীদের জন্য সফ্টওয়্যার হিসাবে তৈরি করতে যেতে হবে অনেকদূর। অত দূর আমি ভাবতে পারি না।
এখন শুধু একটাই চিন্তা। পরের ধাপে কী করা যায়!
তো এই মাত্রা নির্ণয় করতে কি করলাম একটু আগে, সেটাই এখানে লিখি।
আমাদের স্ক্যান করা পাতাটা এমন
এখান থেকে আগের পর্বে আমরা কিছু ঘসা মাজা করে একটা ইনভার্টেড সাদাকালো ছবি তৈরি করেছিলাম। ঐ ছবিটাই এই ধাপের ইনপুট।
মাত্রা নির্ণয়ের অপারেশনটা পরে প্রতিটি শব্দের জন্য আলাদা আলাদা ভাবে করবো। আপাতত দ্রুত প্রোটোটাইপ বানানোর জনে। পুরো ছবিতেই এক সঙ্গে করছি। ব্যাপারটা স্রেফ একটু চালাকি। যেমন এই ছবিটাকে যদি ধরে ডানেবামে ঘসাঘসি করি তাহলে মাত্রার অংশটা নিজের সাদার উপরেই থাকবে। তাই তার গাড়ত্ব কমবে বাড়বে না। ওদিকে মাত্রা ব্যতিত অন্য দাগগুলো যেহেতু আনুভূমিক নয়, এরা ডানেবামে ঘসা খেলে ঝাপসা হয়ে যাবে। আমরা এখানে আনুভুমিক ভাবে ৯ পিক্সেল পর্যন্ত ঘসাঘসি করলাম ফলে ছবিটা দাঁড়ালো অনেকটা এমন,
ছবিটার উপর ক্লিক করে বড় করে দেখলে লক্ষ্য করবেন যে মাত্রার অংশ অন্য অংশের তুলনায় বেশি সাদা। এখন একটা নির্দিষ্ট থ্রেশহোল্ডের নিচে সবকিছুকে কালো করে দিলে পাবো
কী চমৎকার ভাবে মাত্রাগুলো পেয়ে গেছি! এখন বোঝার জন্য আমাদের আগের ইনপুটের ছবির উপর এই মাত্রাগুলো ভিন্ন রঙএ আঁকি।
বাস! হয়ে গেলো। আমরা আগের ধাপে প্রতিটি শব্দকে লাল বাক্স দিয়ে ঘিরে দিয়েছিলাম। এখন এই পার্পল দাগগুলো পেয়ে যাওয়ায়, পুরো মাত্রা ঠিক ঠিক বের করে ফেলবো। টুকি টাকি খুত এখানে কোনো বাধাই সৃষ্টি করবে না।
তার মানে এখন এই মাত্রাজ্ঞান ব্যবহার করে শব্দের বর্ণগুলোকে কেটে ফেলতে হবে। আর তার পর সেই কাটা অংশগুলো চিহ্নিত করতে পারলেই হয়ে গেল! আমাদের "দৃশ্যমান অক্ষর চিহ্নিতকরণ প্রকল্প" তার প্রোটো টাইপ স্তর পারকরবে তখন।
তবে সাধারণ ব্যবহারকারীদের জন্য সফ্টওয়্যার হিসাবে তৈরি করতে যেতে হবে অনেকদূর। অত দূর আমি ভাবতে পারি না।
এখন শুধু একটাই চিন্তা। পরের ধাপে কী করা যায়!
তবে কি খুব শিঘ্রী আমরা আমরা একটা বাংলা ওসিআর পেতে যাচ্ছি?
ReplyDeleteশুভ কামনা রইল আপনার জন্য।
-- কাজী ফয়সাল