Sunday, December 27, 2015

ஃப்ரீ பேசிக்ஸ்(Free Basics) Vs நெட் நியூட்ராலிட்டி(Net Neutrality)

முகநூல், வாட்ஸப் போன்றவற்றில் Facebook கொண்டு வரும்
ஃப்ரீ பேசிக்ஸ் (Free Basics) க்கு ஆதரவளிக்கும்படி நண்பர்கள் வேண்டி வருகின்றனர். அதே சமயம் நெட் நியூட்ராலிட்டி (Net Neutrality) குறித்தும் சிலர் எழுதுகின்றனர். இரண்டையும் குழப்பிக் கொண்டு எதை ஆதரிப்பது? எதை எதிர்ப்பது என புரிந்துகொள்ளாமலே நண்பர்கள் பலர் பகிரக் காண்கிறோம்.

அடிப்படைகள் சிலவற்றை பார்த்துவிடலாம்.

ஃப்ரீ பேசிக்ஸ் (Free Basics) என்றால் என்ன?
ஃப்ரீ பேசிக்ஸ் என்பது ஒரு திறன் பேசி பயனாளர் டேட்டா பேக் போடாமல் இருந்தாலும் சில இணைய தளங்களை, சில சேவைகளை இலவசமாக பயன்படுத்திக் கொள்ளலாம். பயனாளர் எந்த இணைய தளத்தை பயன்படுத்துகிறார்களோ அந்த இணைய தளமே தொலை தொடர்பு நிறுவனத்துக்கு கட்டணத்தை செலுத்திவிடும்.


நெட் நியூட்ராலிட்டி (Net Neutrality) என்றால் என்ன?
நெட் நியூட்ராலிட்டி என்பது ஒரு வகையில் மக்களாட்சி போன்றது. ஆடு மேய்க்கும் அங்குராசுவுக்கும் ஒரு ஓட்டு, ரிலையன்ஸ் அதிபர் அம்பானிக்கும் ஒரே ஓட்டுதான். அது போல முக நூல் வலைத் தளமானலும் சரி, அல்லது எங்கோ ஒரு சிறு கிராமத்தில் இருக்கும் மகளிர் சுய உதவிக் குழுவின் வலைத் தளமாக இருந்தாலும் சரி இரண்டு தளங்களையும் உங்களால் பயன் படுத்த இயலும். பயன்பாட்டுக்கு கட்டணம் ஒன்றே.


இலவச ஃப்ரீ பேசிக்ஸ் (Free Basics) நல்லதுதானே, இதை ஏன் எதிர்க்க வேண்டும்?
ஆரம்பத்தில் இணைய சேவை இலவசமாக அனைவருக்கும் கிடைப்பது மகிழ்ச்சியே. இந்த இலவச சேவையானது Differential pricing எனப்படும் மாறுபட்ட விலை விதிப்பின் ஒரு வடிவமே.  இன்று முகநூல் பயன்பாடு இலவசம் என்பவர்கள் ஒரு நாள் அதற்கு பல மடங்கு கட்டணம் விதிக்க மாட்டார்கள் என்பதற்கு என்ன உத்திரவாதம்?
தீபாவளி, பொங்கலுக்கு பல மடங்கு கட்டணம் விதிக்கும் ட்ராவல்ஸ் பேருந்து நிறுவனங்களை நாம் இன்றும் பார்க்கிறோம் அல்லவா? சென்னையில் வெள்ளம் வந்தபோது பால் ஒரு பாக்கெட் 150ரூபாய்க்கு விற்றவர்களையும் பார்த்தோமே!

தற்பொழுது கூகுள் போன்ற இணைய தேடுதலில் நீங்கள் தேடும் தகவல் இருக்கும் எல்லா வலைத்தளங்களும் பாரபட்சமின்றி காட்டப்படும். ஆனால் ஃப்ரீ பேசிக் சேவையில் தொலை தொடர்பு நிறுவனங்களுக்கு கட்டணம் செலுத்தும் வலைத்தளங்கள் மட்டுமே உங்களுக்கு காட்டப்படும். கட்டணம் செலுத்த இயலாத ஒரு தளம் உங்களுக்கு மிகவும் தேவையான தகவலை கொண்டிருந்தாலும் அதை உங்களால் தேடி அடைய முடியாது.

ஆக, நமக்கு தேவையானது ஃப்ரீ பேசிக்ஸ் (Free Basics) அல்ல நெட் நியூட்ராலிட்டி (Net Neutrality) மட்டுமே.

Sunday, August 30, 2015

Google OCR

      நீங்கள் மொழி தெரியாத ஒரு நாட்டில் உங்களுக்கு வழி சொல்ல யாரும் இல்லாத இடத்தில் சிக்கிக் கொண்டீர்கள். அங்கு இருக்கும் ஒரே திசை காட்டி தகவல் பலகையும் உங்களுக்கு புரியாத மொழியில் இருக்கிறது. அம்மொழி தெரியாததால் நீங்கள் எப்பக்கம் செல்வது என முடிவு செய்ய இயலாமல் தவிக்கிறீர்கள். இந்நிலையில் உங்கள் கைப்பேசியில் உள்ள ஒரு செயலியின் மூலம் அந்த பலகையை படம் எடுத்தால் சில வினாடிகளில் அதில் உள்ள தகவல்கள் உங்களுக்கு விருப்பமான மொழியில் அல்லது தமிழில் தெரிந்தால் எவ்வளவு நன்றாக இருக்கும்? யாருடைய உதவியும் இல்லாமல் திசையை தெரிந்து கொண்டு உங்கள் பயணத்தை தடங்கல் இல்லாமல் தொடரலாம் தானே?
     இதையே இன்னொரு மாதிரி யோசிப்போம். தமிழே தெரியாத ஒருவர் தமிழ்நாட்டில் ஏதோ ஒரு மூலையில் உள்ள பழங்கால கோயிலின் தமிழ் கல்வெட்டு/தகவல் பலகையின் முன் இருக்கிறார். அங்கு அவருக்கு மொழிபெயர்த்து சொல்ல யாருமே இல்லை. அவர் தன் கைப்பேசியில் அப் பலகையை படம் எடுக்கிறார், உடனே அந்த தமிழில் உள்ள தகவல்கள், அவர் விருப்ப மொழிக்கு மாற்றப்பட்டு தெரிகின்றது. அவர் எந்த சிரமுமின்றி அத் தகவலை தெரிந்து கொள்கிறார்.
    மேற் சொன்ன இரண்டும் மொழிபெயர்ப்பி (Translator), எழுத்துரு படிப்பான் (Optical Character Recognition, OCR) என்ற இரண்டும் இணைந்தால் சாத்தியமே. இப்பொழுது ஆங்கில மொழிக்கும், வேறு சில மொழிகளுக்கும் இந்த இரண்டு நுட்பங்களுமே மிக முன்னேறிய அளவில் இருக்கின்றன ( கூகுள் இமேஜ் தேடல் இந்த OCR நுட்பத்தை(யும்) பயன் படுத்துகிறது). ஆனால் இந்திய மொழிகளுக்கு, குறிப்பாக தமிழுக்கு இந்த OCR நுட்பம் இன்னும் பரந்துபட்ட அளவில் வரவில்லை.
    கணினிப் பயன்பாட்டில் வேறெந்த இந்திய மொழிகளைக் காட்டிலும் தமிழ் அதிக பயன்பாட்டில் உள்ளது. இருந்தாலும் சில வருடங்ளுக்கு முன்பு வரையில் அச்சு ஊடகங்கள் (பத்திரிக்கைகள், செய்தித் தாள்கள்), அரசு நிறுவனங்கள் தமிழை கணினிமயப் படுத்திய போது TISCI, TAM, TAB, PAANINI என வெவ்வேறு தரங்களை(Standards) பயன்படுத்தின. இதனால் சிறிது காலம் முன்பு வரையிலும் இணையத்தில் தமிழில் இருக்கும் பல பக்கங்கள் தேடுபொறிகளின் கண்களுக்கு தெரியாமலே இருந்தது. யுனிகோடு தமிழ் பயன்பாட்டுக்கு வந்ததில் இருந்து நாம் உள்ளிடும் பெரும்பாலான தகவல்கள் கூகுள் போன்ற தேடுபொறிகளின் மூலம் தேடப்படும் சாத்தியம் கூடியுள்ளது. இருந்தாலும் நாம் கடந்த காலங்களில் காகித்தில் அச்சடித்து வைத்த நூல்கள், தனி நபர்கள் (அ) தன்னார்வ குழுக்கள் ஆகியவற்றால் ஒளி வருடப்பட்டு (Scan) மின்னூல்கள்/pdf ஆக மாற்றப் பட்டிருக்கும் தமிழ் புத்தகங்கள் project madhurai, padippakam.comthamizham.netscribd.com போன்ற வலைத்தலங்களில் இருந்தாலும், கூகுள் தேடுபொறியால் அவற்றை கண்டடைவதென்பதும், அவ்வாறே கண்டடைந்தாலும் அவற்றில் ஏதாகிலும் வார்த்தைகளை தேடுவதென்பதும் இன்னும் கடினமான பணியாகவே இருந்து வந்திருக்கிறது. காரணம் அதில் உள்ள தமிழ் எழுத்துக்களை கணினி படிப்பதற்க்குண்டான நுட்பம் இன்னும் கைவராமலே இருந்தது. அல்லது சந்தையில் இருக்கும் சில நுட்பங்களின் விலையும், தரமும் உவப்பானதாக இல்லை.
    இச்சூழ்நிலையில் தான் கூகுள் வெளியிட்டுள்ள தமிழ் OCR மிக முக்கியத்துவம் வாய்ந்ததாகிறது.
      எந்த மொழிக்குறியதாக இருந்தாலும் OCR நுட்பத்தின் எனக்குத் தெரிந்த பொதுவான பயன்பாடுகள்:
1) போட்டோக்கள், படங்கள் (jpeg,png,tif) என எந்த வடிவத்தில் இருந்தாலும் அவற்றில் உள்ள அந்த குறிப்பிட்ட மொழி எழுத்துக்களை கண்டறிவதும் அவற்றை கணினி படிக்கக் கூடிய ASCII குறியீடுகளாக மாற்றுவது.
2) ஒளி வருடப்பட்டு படங்களாக சேகரிக்கப் பட்ட பழைய தரவுகளில் உள்ள எழுத்துக்களை கண்டறிந்து அவற்றை யுனிகோடுக்கு மாற்றுவதன் மூலம் கணினிமயத் தேடுதலை சாத்தியப் படுத்துவது. (தற்பொழுது தேடு பொறிகள் இத்தகைய தரவுகளுக்கு கொடுக்கப் பட்டுள்ள லேபில்கள், மற்றும் கீவோர்டுகள் மூலமே தேடுகின்றன.)
3) விண்ணப்பங்கள், படிவங்கள் முதலியவற்றில் நிரப்பப் பட்டுள்ள விவரங்களை, கணினி படிக்கும் தகைவில் (machine readable format) அல்லது டேட்டா பேஸில் சேமிக்கும் வகையில் மாற்றுவது. இதன் மூலம் தரவுகளை கணினிமயப் படுத்தும் வேகம் அதிகரிக்கும். விவரங்களை மனிதர்கள் உள்ளிடும் போது நிகழும் மனிதத் தவறுகளை தடுப்பது. ( உங்கள் பெயர் வாக்காளர் பட்டியலில்/ குடும்ப அட்டையில் தவறாக அச்சாகும் சாத்தியம் குறையும்)
4) எழுத்துகள்( ஒரு எழுத்து, ஒரு பத்தி, ஒரு பக்கம், அல்லது ஒரு முழு நூல்) படங்களாக சேமிக்கப் படும்போது வன்தட்டில் அதிக இடம் பிடிக்கும். அதே தகவல்கள் ASCII க்கு மாற்றப் பட்டு சேமிக்கப்படும் போது மிகக் குறைந்த இடத்தையே அடைக்கும். அதே நேரத்தில் இவற்றை ஈ புக் ரீடர்களிலும், திறன் பேசிகளிலும், அளவில் சிறிதாக இருப்பதால், எளிதாக படிக்க இயலும்.
5) ஒரு படத்தில் இருக்கும் தகவல்களை படித்து புரிந்து கொண்டு அதை வேறொரு மொழிக்கு மொழிபெயர்ப்பது. (கூகுள் டிரான்லேட் போன்றவை இப்பொழுது இப்பொழுது நாம் ASCIIஇல் உள்ளிடும் வார்த்தைகளை மொழி பெயர்க்கிறது. ஒரு இமேஜ்-ல் இருக்கும் எழுத்தை படிக்காது)

மேற் குறிப்பிட்ட எல்லா பயன்களையும் தமிழ் எழுத்துகள் இருக்கும் படங்கள், பிடிஎஃப் கோப்புகள், வேறு தட்டச்சுத் தரத்தில் இருக்கும் மின்மயப் படுத்தப் பட்ட தரவுகள் ஆகியவற்றில் இருந்து பெற தமிழ் OCR உதவுகிறது.

இந்த நுட்பம் ஆகச் சிறந்ததா? தவறே இழைக்காதா? என்றால் அதற்க்கு 'இல்லை' என்பதே பதிலாக இருக்க முடியும்.
1) இது ஒரு வளர்ந்து வரும் நுட்பமே. எழுத்துகளை கண்டறிவதில் தவறுகள் நேர வாய்ப்புகள் உள்ளது. Accuracy குறைவு.
2) ஒளி துல்லியம்(image resolution) குறைந்த படங்களை படிக்கும் திறன் எப்படி இருக்கின்றது என்பதை பொறுத்தும், மேற் சொன்ன accuracy அளவுமே இதன் வெற்றி தோல்வியை தீர்மானிக்கும்.
3) கையால் எழுதப்படும் ஆங்கில எழுத்துக்களை படிப்பதற்கு இவ்வளவு முதிர்ந்த ஆங்கில OCRஏ திணறுகிறது. இந்நிலையில் இப்பொழுதுதான் வளர்ந்து வரும் தமிழ் OCR எந்த அளவு கையால் எழுதப்படும் தமிழ் எழுத்துக்களை படிக்கும் என்பது கேள்வியாகவே இருக்கிறது.
கூகுள் இந்த வேலையை செய்வதால் இருக்கும் நன்மைகள்:
1) சிறு நிறுவனங்களை விட கூகுள் இதை எடுத்துச் செய்வதால், அவர்களின் முந்தைய பயனிகளின்/செயலிகளின் தரத்தை பார்க்கும் போது, இதன் தரம் சிறந்ததாகவும் இலவசமாக பயன்படுத்தும் வகையிலும் இருக்கும்.

2) கணினியில் மட்டும் இதன் பயன்பாடு நின்று விடாமல், ஆன்டிராய்டு திறன் பேசிகளிளும் பயன்படுத்தக்கூடிய வகையில் இதை மேம்படுத்த வாய்ப்புகள் அதிகம். அவ்வாறு நடந்தால் நான் கட்டுரையின் ஆரம்பத்தில் சொன்ன கற்பனை நிகழ்வுகள் இரண்டும் வெகு விரைவில் சாத்தியப் பட்டுவிடும்.
smile emoticon
"இதனால் ஏதும் உடனடிப் பயன் உள்ளதா?" என்றால் ஒரு சிலருக்கு மட்டும் என்பதே பதிலாக இருக்கும். உதாரணமாக, உங்கள் கையில் ஒரு துண்டுப் பிரசுரம்/ புத்தகத்தின் ஒரு பக்கம் உள்ளது. அதை உங்கள் வலைத்தளத்திலோ, முகநூல் பக்கத்திலோ பதிய விரும்புகிறீர்கள். இன்று உங்களுக்கு இருக்கும் இரண்டு வழிகள்
1) அந்த துண்டு பிரசுரம்/பக்கத்தை ஸ்கேன் செய்து அப்படியே படமாக (image) பதிவது. ஆனால் அதில் இருக்கும் எழுத்துகள், வார்த்தைகள் முதலியவை தேடு பொறியினால் தேட முடியாது. லேபிள்கள், கீவோர்டுகள் முதலியவை நாமாக குறிப்பிட வேண்டும்.
2) அந்த துண்டு பிரசுரம்/பக்கத்தில் உள்ள தகவலை மீண்டும் (நேரம் செலவளித்து) தட்டச்சி பதிவது. இந்த முறையில் அதில் உள்ள வரைகலை(format) சிதைந்துவிடும். ஆனால் தேடு பொறிகள் இலகுவாக உங்கள் தகவலை தேட இயலும்.
கூடிய சீக்கிரம் கூகுள் OCR இந்த இரு முறைகளின் நன்மைகளையும் கொடுக்கும் என நம்புகிறேன். அதாவது, நீங்கள் பதிந்த படத்தில் (image) இருக்கும் தகவல்களை தேடு பொறிகளால் தேட இயலும். அதில் உள்ள வார்த்தை/வாக்கியங்களை காப்பி/பேஸ்ட் செய்ய இயலும்.