മലയാളം കമ്പ്യൂട്ടിങ്ങ്/യുണീക്കോഡ്

ലോകഭാഷകളിലെ ലിപികളുടെ കമ്പ്യൂട്ടറുകളിലുള്ള ആവിഷ്കാരത്തിനായി നിർമ്മിച്ചിരിക്കുന്ന ഒരു മാനദണ്ഡമാണ് യൂണികോഡ്. ഇംഗ്ലീഷ് അറിയുന്നവർക്കുള്ളതാണ് കമ്പ്യൂട്ടറെന്ന അബദ്ധധാരണ പൊളിച്ചെഴുതിയതാണ് യൂണീകോഡിന്റെ നേട്ടം. പുതിയ പല ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റങ്ങളും, എക്സ്.എം.എൽ., ജാവാ തുടങ്ങിയ സാങ്കേതിക വിദ്യകളും യൂണീകോഡിനെ പിന്തുണക്കുന്നുണ്ട്. യൂണികോഡ് കൺസോർഷ്യം എന്ന ലാഭരഹിത സംഘടനയാണ് യൂണീകോഡിന്റെ നിർമ്മാണത്തിനു പിന്നിൽ. ലോകത്ത് നിലനിൽക്കുന്ന എല്ലാഭാഷകളേയും ഒരുമിച്ചവതരിപ്പിക്കുക എന്നതാണ് ഈ സംഘടനയുടെ പ്രഖ്യാപിത ലക്ഷ്യം. എല്ലാ പ്രാദേശിക ഭാഷാ ഉപയോക്താക്കൾക്കും അവരവരുടെ ഭാഷകളിൽ കമ്പ്യൂട്ടർ ഉപയോഗിക്കാനുള്ള അവസരം സൃഷ്ടിച്ചതാണ് യൂണീകോഡിന് പിന്നിൽ പ്രവർത്തിക്കുന്ന യൂണീകോഡ് കൺ‌സോർഷ്യത്തിന്റെ സംഭാവന. ഈ സംഘടനയുടെ ഔദ്യോഗിക സൈറ്റാണ് യൂണീകോഡ് ഡോട്ട് ഓർഗ്. കാലാകാലങ്ങളിൽ യൂണിക്കോഡിനെ യൂണികോഡ് കൺസോർഷ്യം പരിഷ്ക്കരിക്കാറുണ്ട്. പുതിയ അക്ഷരങ്ങൾ കൂട്ടിച്ചേർത്തും നിലവിലുള്ള പ്രശ്നങ്ങൾ പരിഹരിക്കുകയുമാണ് അവർ ചെയ്തുവരുന്നത്. ഇപ്പോൾ യൂണിക്കോഡിന്റെ വെർഷൻ 6.1 ആണ്.

എന്തുകൊണ്ട് യുണിക്കോഡ്

ഏതുരീതി ഉപയോഗിച്ചായാലും അക്ഷരങ്ങളെ (characters) ഏതെങ്കിലും ഒരു സംഖ്യ ഉപയോഗിച്ചു രേഖപ്പെടുത്തുന്നതിന് ‘ ക്യാരക്ട്ർ എൻകോഡിങ്ങ് ‘ (character encoding) എന്നു പറയുന്നു, പ്രസ്തുത അക്ഷരങ്ങളുടെ സംഖ്യാരൂപത്തിന് ' ക്യാരക്ട്ർ കോഡ് ' (character code) എന്നും പറയുന്നു. ലോകത്തിൽ കുറെയധികം ക്യാരക്ടർ കോഡുകൾ ഉപയോഗത്തിലുണ്ട്. മിക്ക ക്യാരക്ടർ എൻകോഡിങ് രീതികൾക്കും ഒരു സാമ്യത ഉണ്ട്, 0 മുതൽ 127 വരെ ഉള്ള സംഖ്യകൾ ഒരേ അക്ഷരങ്ങളെയായിരിക്കും അടയാളപ്പെടുത്തുന്നത്. ഈ അക്ഷരങ്ങൾ ആംഗലേയ അക്ഷരമാലയിലെ 26 അക്ഷരങ്ങൾ, അവയുടെ വലിയക്ഷരങ്ങൾ (Capital Letters), 0 തൊട്ട് 9 വരെയുള്ള സംഖ്യകൾ, ചിഹ്നങ്ങൾ എന്നിവയാ‍ണ്. 0 തൊട്ട് 127 വരെയുള്ള സംഖ്യകൾ മാത്രം ഉപയോഗിച്ചുള്ള ക്യാരക്ടർ എൻകോഡിങ്ങ് രീതിക്ക് ആസ്‌കി (എ.സ്.സി.ഐ.ഐ - ASCII) എന്നു പറയുന്നു.

പക്ഷേ ആസ്‌കി ഉപയോഗിച്ച് തൽക്കാലം ആംഗലേയഭാഷമാത്രമേ അടയാളപ്പെടുത്തുവാൻ സാധിക്കൂ, ഉദാഹരണത്തിന് ഫ്രഞ്ചു ഭാഷയിലെ ചില അക്ഷരങ്ങൾ (é , ô) രേഖപ്പെടുത്തുവാനുള്ള വിസ്താരം ആസ്‌കിക്കില്ല. ആ സ്ഥിതിക്ക് 127 നു മുകളിലോട്ട് സംഖ്യകളുള്ള ഒരു എൻകോഡിങ്ങ് രീതി ആവശ്യമാണ് കൂടുതൽ അക്ഷരങ്ങൾ അടയാളപ്പെടുത്തുവാനായി. ഇങ്ങനെ ഒരു സമസ്യ വന്നപ്പോൾ ഉണ്ടാക്കപ്പെട്ട ഒരു ക്യാരക്ടർ എൻകോഡിങ്ങ് രീതിയാണ് ലാറ്റിൻ 1 (Latin 1). ഈ രീതിയിൽ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ചാണ് എൻകോഡിങ്ങ് ചെയ്യുന്നത്, 0 തൊട്ട് 127 വരെ ആസ്‌കി അക്ഷരങ്ങൾ തന്നെയാണ്, 128 തൊട്ട് 255 വരെയുള്ള സംഖ്യകളുപയോഗിച്ച് ആവശ്യമായ ലാറ്റിൻ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിരിക്കുന്നു. ഇവിടെയും പ്രശ്നങ്ങളുണ്ട് ലാറ്റിൻ 1 ഉപയോഗിച്ച് പടിഞ്ഞാറൻ യൂറോപ്പിയൻ ഭാഷകളായ ആംഗലേയം, ഫ്രെഞ്ച്, സ്പാനിഷ്, ജർമ്മൻ എന്നീ ഭാഷാക്ഷരങ്ങൾ മാത്രമേ രേഖപ്പെടുത്തുവാൻ സാധിച്ചിരുന്നുള്ളൂ. മദ്ധ്യ-കിഴക്കൻ യൂറോപ്പിയൻ പ്രദേശങ്ങളിലെ ഭാഷകൾക്കും, ഗ്രീക്ക്, സിറില്ലിക്, അറബിക്, എന്നീ ഭാഷകൾക്കും വേണ്ടി ലാറ്റിൻ 2 (Latin 2) എന്ന എൻകോഡിങ്ങ് രീതി നിലവിലുണ്ട്. ഏതെങ്കിലും ഒരു ഭാഷ ഉപയോഗിക്കുമ്പോൾ ആ ഭാഷയിലെ അക്ഷരങ്ങളും ചിഹ്നങ്ങളും അടയാളപ്പെടുത്തിയിട്ടുള്ള എൻകോഡിങ്ങ് രീതി നാം തെരഞ്ഞെടുക്കണം. ക്യാരക്ടർ എൻകോഡിങ്ങ് രീതികൾ ആവശ്യമനുസരിച്ച് മാറ്റുവാനുള്ള സംവിധാനം മിക്ക സോഫ്റ്റ്വെയറുകളിലും ഉണ്ട്.

പക്ഷേ പ്രശ്നം ഉണ്ടാവുക ഒരേ സമയത്ത് വിവിധ ഭാഷകൾ ഉപയോഗിക്കേണ്ടി വരുമ്പോളാണ്. ഉദാഹരണത്തിന് ഫ്രഞ്ചും ഗ്രീക്കും ഒരു സ്ഥലത്ത് വേണമെന്നു കരുതുക, ഫ്രെഞ്ചിനെ പിന്താങ്ങുന്ന എൻകോഡിങ്ങ് രീതി ലാറ്റിൻ 1 ആണ് എന്നാൽ ഗ്രീക്ക് അക്ഷരങ്ങൾ ലാറ്റിൻ 2 എൻകോഡിങ്ങിലേ കാണുകയുള്ളൂ. ഒരേ പ്രമാണത്തിൽ രണ്ട് എൻകോഡിങ്ങ് രീതികൾ ഉപയോഗിക്കാൻ സാധ്യമല്ല, അപ്പോൾ പിന്നെ 0 തൊട്ട് 255 വരെയുള്ള സംഖ്യകൾ ഉപയോഗിച്ച് വിവിധ ഭാഷകൾക്ക് വേണ്ടി വ്യത്യസ്ത എൻകോഡിങ്ങ് രീതികൾ വികസിപ്പിക്കുന്നത് ശാ‍ശ്വതമല്ല എന്നു വേണം പറയാൻ.

മറ്റൊരു പ്രശ്നം കൂടിയുണ്ട് കണക്കിലെടുക്കാൻ, ചൈനീസ്, ജാപ്പനീസ് പോലുള്ള ഭാഷകളിലുള്ള അക്ഷരങ്ങളുടെ എണ്ണം വളരെക്കൂടുതലാണ്, 256 ൽ അവ ഒതുങ്ങില്ല.

ഈ പ്രശ്നങ്ങൾക്കുള്ള ഒരു പോംവഴി എല്ലാഭാഷകളിലേയും ഓരോ അക്ഷരവും ചിഹ്നവും, അനന്യമായ ഒരു സംഖ്യയാൽ അടയാളപ്പെടുത്താൻ പറ്റിയ ഒരു എൻകോഡിങ്ങ് രീതി വികസിപ്പിക്കുകയാണ്. ഈ സംഖ്യ ഏതെങ്കിലും ഭാഷയെയോ, ഫോണ്ടിനെയോ, സോഫ്റ്റ്വെയറിനെയോ, ഓപ്പറേറ്റിങ്ങ് സിസ്റ്റത്തെയോ, ഉപകരണത്തെയോ അടിസ്ഥാനപ്പെടുത്തിയുള്ളതാവില്ല. ഇതൊരു സാർവത്രികമായ സംഖ്യയായിരിക്കും. ലോകത്തിൽ ഇപ്പോൾ നിലവിലുള്ള എല്ലാ ഭാഷകളും ഉൾക്കൊള്ളുന്നതും, അവയുടെ ഭാവിയിൽ വരാവുന്ന എല്ലാ ആവശ്യങ്ങൾക്കും ഉതകുന്നതുമായിരിക്കണം ഇത്. ഈ പറഞ്ഞപ്രകാരമുള്ള ഒരു എൻകോഡിങ്ങ് രീതിയാ‍ണ് യുണിക്കോഡ്.

മലയാളം യുനീക്കോഡിൽ

മലയാളഅക്ഷരങ്ങൾ യുണീക്കോഡിൽ സ്ഥാനം പിടിക്കുന്നത് ജൂൺ 1993-ൽ വെർഷൻ 1.1-ൽ ആണ്. ISCII എന്ന ഇന്ത്യൻ എൻകോഡിംഗ് സ്റ്റാന്റേഡിനെ യുണീക്കോഡിലേയ്ക്ക് പകർത്തുകയാണ് അന്നുണ്ടായത്.

മലയാളം ഭാഷ കംപ്യൂട്ടറിൽ ഉപയോഗിക്കുന്നുണ്ടായിരുന്നെങ്കിലും ലിപിവ്യവസ്ഥകളിൽ പൊതുമാനദണ്ഡം ഇല്ലായിരുന്നു. അതിനാൽ ഓരോ കംപ്യൂട്ടറിലും അതിൻറെ വ്യവസ്ഥയും ഫോണ്ടും അനുസരിച്ചുമാത്രമേ മലയാളം ഉപയോഗിക്കാൻ കഴിഞ്ഞിരുന്നുള്ളൂ. മലയാളം ഇന്റർനെറ്റിൽ വ്യാപിക്കാൻ ഇതു തടസ്സമായി. ഈ പരിമിതിയെ അതിജീവിക്കാൻ ലിപിവ്യവസ്ഥയിൽ ഒരു പൊതുമാനദണ്ഡം ആവശ്യമായി വന്നു. ഇതിനായി ഭാഷാസ്നേഹികളുടെ കൂട്ടായ പരിശ്രമഫലമായാണ് മലയാളം യൂണികോഡ് രൂപം കൊണ്ടത്. 2004ൽആണ് മലയാളം യൂണികോഡ് എന്ന ഏകീകൃതലിപിവ്യവസ്ഥ നിലവിൽ വന്നത്. ഇതോടെ ലോകത്തെവിടെനിന്നും ഇൻറർനെറ്റില് മലയാളം പോസ്റ്റുചെയ്യാനും വായിക്കാനും സാദ്ധ്യമാവുന്ന അവസ്ഥ നിലവിൽവന്നു. വിവരസാങ്കേതികരംഗത്തും സാഹിത്യരംഗത്തും മലയാളത്തിൽ ഒരു കുതിച്ചുചാട്ടത്തിനുതന്നെ ഇതു കാരണമായി.

അതിനുശേഷം, മാർച്ച് 2008-ൽ വെർഷൻ 5.1-ൽ, ഋ, ഌ, എന്നിവയുടെയും അവയുടെ ദീർഘങ്ങളുടേയും ചിഹ്നങ്ങളും, ൿ ഉൾപ്പെടെയുള്ള മലയാളം ചില്ലക്ഷരങ്ങളും, പ്രശ്ലേഷവും, പ്രാചീനസംഖ്യാചിഹ്നങ്ങളും ചേർക്കുകയുണ്ടായി.[1] രണ്ടുകൊല്ലത്തിനുശേഷം, ഒക്ടോബർ 2010-ൽ കുത്തിട്ടെഴുതുന്ന ർ-എന്ന ചില്ലും ഏ.ആർ.രാജരാജവർമ്മ ഉപയോഗിച്ചിരുന്ന 'റ്റ' എന്നതിന്റെ പകുതിയും, 'നന'-എന്നതിലെ രണ്ടാമത്തെ ന-യും യുണീക്കോഡിലെത്തി. 'ഈ' എന്നതിന്റെ പ്രാചീനരൂപവും എൻകോഡിംഗിന്റെ പാതയിലാണ്.

കൂടുതലറിയാൻ ഈ പി.ഡി.എഫ്. കാണുക: www.unicode.org/charts/PDF/U0D00.pdf