«
استاندارد
یونىکد » استاندارد جهانى کدگذارى نویسههاست که براى ارائهى
متون براى پردازش کامپیوترى بهکار مىرود. این استاندارد با ویرایش دوم استاندارد
بینالمللى ISO/IEC1:2000-10646 کاملاً
سازگار است و همان نویسهها و کدهاى ISO/IEC10646 را دارد. استاندارد یونىکد
اطلاعات بیشترى نیز در مورد نویسهها و کاربردهایشان فراهم کرده است،
پس در واقع هر پیادهسازى سازگار با یونىکد، با ISO/IEC10646 نیز سازگار است .
یونىکد
امکان کدگذارى همهى نویسههاى مورد استفاده در نوشتن زبانهاى
دنیا را فراهم مىسازد. این استاندارد از کدگذارى ۱۶بیتىاى استفاده
مىکند که براى بیش از ۰۰۰'۶۵ نویسه جا فراهم مىکند. اگر چه ۰۰۰'۶۵
نویسه براى کدگذارى اکثر نویسههایى که در زبانهاى مهم دنیا استفاده
مىشود کافى است، یونىکد و ISO10646 شیوهى گسترشى بهنام UTF-16 فراهم
کردهاند که امکان اضافه کردن حدود یک میلیون نویسهى دیگر را نیز مىدهد.
این دامنه براى کلیهى نویسههاى عالم، از جمله پوشش کامل همهى
خطهاى باستانى نیز کافى است .
یونىکد
براى کلیههاى نویسههاى مورد استفاده در زبانهاى عمدهى دنیا
کد تعیین کرده است. بهعلت فراخ بودن فضاى تخصیص نویسه، این استاندارد
بسیارى از نمادهاى لازم براى حروفچینى با کیفیت بالا را نیز در بر
گرفته است. از خطهاى مورد پشتیبانى این استاندارد مىتوان به
لاتین (در بر گیرندهى اکثر زبانهاى اروپایى ) ، سیریلیک (روسى، صربى،
)، یونانى، عربى (شامل عربى، فارسى، اردو، کردى، ) ، عبرى، هندى، ارمنى،
آسورى، چینى، کاتاکانا و هیراگانا (ژاپنى ) ، و هانگول (کرهاى)
اشاره کرد.
بهعلاوه،
تعداد زیادى نماد ریاضى و فنى، علائم نقطهگذارى، پیکان، و علامتهاى
متفرقه در این استاندارد وجود دارد. این استاندارد براى علامتهاى
ترکیبشونده یا اعرابها نیز کدهایى در نظر گرفته است که از جملهى آنها
علامتهایى چون «˜» هستند که در ترکیب با حروف پایه، حروف تغییرلحنیافتهاى
چون «ñ» را
مىسازند. آخرین نسخهى یونىکد، در مجموع، ۱۹۴'۴۹ نویسه دارد. بهعلاوه،
۴۰۰'۶ کد نیز براى مصرف خصوصى در نظر گرفته شده است که برنامهنویسان
مىتوانند از آنها براى نویسهها و نمادهاى خودشان استفاده کنند .
بهطور
کلى، اصول یونىکد به شرح زیرند :
•نویسههاى شانزدهبیتى
• ترتیب مفهومى (در مقابل دیدارى )
• کارایى
• یکىسازى (اختصاص یک کد به نویسههاى مشترک در
چند زبان مختلف
)
• نویسه، نه شکل (یک «ع»، و نه چهارتا : « ﻋ»، «ﻌ»،
«ﻊ»، «ﻉ »)
• ترکیب پویا
• بار معنایى (حرف بودن، مقدار عددى، ...)
• دنبالههاى معادل (امکان ذخیرهسازى یک متن به
دو شکل مختلف ولى معادل )
• متن ساده (و نه مفاهیمى مثل تغییر قلم، جدولبندى،
و صفحهآرایى )
• قابلیت تبدیل (هر متن موجود در قالب یک مجموعهنویسهى
سنّتى باید بدون از بین رفتن معنا قابل تبدیل به یونىکد باشد )
یونىکد
شیوهاى نیز براى کدگذارى ۸بیتى متون مشخص کرده است که نویسهها
را پس از اعمال یک تابع خاص به کدشان، بهصورت دنبالههایى که از
یک تا چهار بایت دارند نگه مىدارد. این شیوه که با نام UTF-8 شناخته
مىشود، به این خاطر که نویسههاى اسکى را عیناً حفظ مىکند و در
نتیجه، هم برنامههاى قدیمى راحتتر با آن کنار مىآیند و هم طول
پروندههاى لاتین را زیاد نمىکند، بسیار محبوب است .
در
واقع بسیارى از سیستمهایى که ادعاى پشتیبانى یونىکد را مىکنند،
تنها UTF-8
را
پشتیبانى مىکنند و پروندههاى یونىکدى، اعم از کاربردهاى اینترنتى
یا موارد استفادهى محلى، عمدتاً در قالب UTF-8
ذخیره
شدهاند .
در
استاندارد یونىکد، نویسههاى فارسى در بلوک مربوط به خط عربى قرار دارند.
این بلوک براى دربرگرفتن نویسههاى زبانهایى که از خط عربى استفاده
مىکنند، مثل فارسى، اردو، پشتو، سندى، و کردى گسترش یافته است. این
بلوک نشانههاى قرآنى از قبیل نشانههاى سجده و پایان آیه، و علائم
وقف را نیز در بر دارد .
در
یونىکد با وجود یکىسازى کدهاى حروف مشترک، براى حروف فارسىاى که
بار معنایى یا نمایشى متفاوت با حروف عربى دارند، نویسههاى جداگانه
در نظر گرفته شده است. یعنى کلیهى حروف خاص فارسى (پ،
چ، ژ، گ) و نیز « ک» و «ى»ى فارسى که با حرف مشابه در عربى تفاوت
نمایشى دارند، مکان جداگانهاى به خود اختصاص دادهاند. کلیهى اعرابهاى
متداول حضور دارند و میان شکل فارسى/اردو و عربى ارقام نیز بهعلت
شکل و رفتار متفاوت تفاوتهایى منظور گشته است .
از
طرف دیگر، علائم نقطهگذارىاى چون نقطه و فاصله که شکل یکسانى در
خطهاى لاتین و عربى دارند، کد یکسان دارند. علائمى چون پرانتز نیز،
بسته به جهت متن، آینهاى مىشوند، یعنى بهطور مثال، نویسهى 0028 نمایندهى
«پرانتز باز» است، و نه «پرانتز سمت چپ». یونىکد اتصال مجازى و فاصلهى
مجازى را نیز تحت نامهاى «اتصال با عرض صفر» و «بىاتصالى با عرض
صفر» به رسمیت مىشناسد. بهخاطر سازگارى با استانداردهاى موجود در بعضى
از کشورهاى عربى، ISO10646 و
نتیجتاً یونىکد بلوک جداگانهاى را نیز به شکلهاى مختلف حروف عربى
اختصاص داده است که استفاده از آنها شدیداً منع شده است. این
بلوک معمولاً فقط براى تعیین جاى شکلهاى مختلف حروف در قلمها بهکار
مىرود .
همچنین
این استاندارد توضیحات مفصل و دقیقى دربارهى شیوههاى پیادهسازى، از
جمله شیوهى « متصلسازى حروف» و «نمایش متون راستبهچپ و دوجهته» دارد
که برنامهنویس را از مراجعه به راهنماى محلى بىنیاز مىسازد. از آنجا
که توضیح این دو، در حوصلهى این گزارش نیست، خواننده را به متن اصلى
در کتاب یونىکد ارجا