Какво е кодировка и как да изберем правилната
Когато кирилицата става "маймуница"...
Случвало ли ви се е да попаднете на страница с неразбираеми символи (примерно �筠�戟龜克), които би трябвало да са кирилица? Този проблем се дължи на различните кодировки, които са използвани съответно от автора на страницата и от браузъра ви. Често можете все пак да прочетете страницата ако ръчно смените кодировката на страницата - изберете от менюто на браузъра View, после encoding и накрая пробвайте подред всички видове кодировка, които може да се използват за кирилица като Windows-1251 и UTF-8 докато налучкате правилната. Със сигурност бихте искали да спестите на посетителите на сайта си това разхождане по менюта. В такъв случай е добре да използвате правилната кодировка за страниците си.
Кодировка - преводач между хора и компютри
Проблемът с кодировката започва от различния начин, по който хората и компютрите възприемат графичните символи като например букви и цифри. Компютрите могат да боравят само с числа и за тях всеки знак - "а", "5" или "$" се представя със свой определен код-число.
Кодировката е просто указание на кое число (код) какъв знак да съответства. Така че когато пишете примерно e-mail от клавиатурата, на екрана се показват букви, но в паметта на компютъра писмото се запазва като низ от числа. Например на посланието Hello! съответстват следните ASCII кодове:72 101 108 108 111 33
Именно тези числа ще бъдат използвани, когато например изпратите писмото по интернет на свой приятел. Неговият компютър ще използва отново кодировка, но този път в обратна посока и ще превърне низа от числа (кодове) в разбираеми за човека символи. Неприятностите започват, когато двата компютъра използват различни кодировки и на един и същи код съответстват съвсем различни знаци. За да се избегне този проблем, е нужно уеднаквяване на кодировката и въвеждане на някакъв стандарт.
ASCII - стандартна кодировка, но само за латиница
Един от най-старите стандарти за такова представяне на графични символи с числа се нарича ASCII - American Standard Code for Information Interchange и логично отразява нуждите на създалите го англоезични хора. В ASCII има 128 кода, които съответстват на цифрите 0-9, малките и главните букви от английската азбука и някои често използвани символи като "+", "-", ",", "%". Тези 128 знака могат да се кодират от 7 бита (2^7=128), но компютрите обикновено боравят с байтове, като 1 байт съдържа 8 бита и следователно може да кодира 256 знака. Това означава, че половината от потенциала на ASCII не е използван.
Най-после стандарт и за кирилица, но...
Именно тези оставащи 128 знака започват да използват хора извън англоезичния свят, за да включат знаци - например кирилицата, които не са указани от ASCII. Понеже процесът е хаотичен и различни хора указват различни символи, които да съответстват на кодовете 129-256, днес имаме толкова много кодировки. Това е причината на един и същи код да съответстват съвсем различни символи в различните кодировки и логично когато компютърът извежда на екрана дадено съобщение, използвайки кодировка различна от тази за написването на съобщението, се получава непонятна бърканица.
Обърнете внимание, че почти всички кодировки, базирани на ASCII, запазват в основата си първите 128 знака. Това означава, че съобщение, написано с латиница има голям шанс да пристигне в понятен вид, дори кодировката да не е съобразена (случвало ли ви се е да не можете да разчетете писмо, писано на латиница?). Използващите кирилица обаче не могат да си спестят работата по дефиниране на правилната кодировка.
От хаоса - към единство в многообразието: UTF-8
В опит да се внесе ред в този хаос се въведе кодировката UTF-8, която използва 1 до 4 байта и следователно може да кодира милиони знаци - напълно достатъчно за повечето езици, включително и използващите голям брой символи (китайски, японски, корейски). UTF-8 постепенно се налага и в момента измества ASCII от позицията най-популярна кодировка. Съвременните интернет стандарти изискват поддръжка за UTF-8, като това важи както за интернет страници, така и за съобщения във формат на електронна поща.
Как да укажем кодировка в HTML
За да имате четими от всички посетители страници, трябва да укажете кодировката, която сте използвали при написването им. Това се прави в head частта на HTML документа по следния начин:
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1251" />
На мястото на "Windows-1251" сложете реалната кодировка, която сте използвали. Ако сте писали страницата на Word по всяка вероятност текстът ви е бил кодиран точно като Windows-1251.
Смяна на кодировката в Word
Поради все по-широката подкрепа за UTF-8, както и възможността да използват на страницата си всякакви езици и символи, все повече хора избират UTF-8 като кодировка за сайтовете си. Можете да смените кодировката на Word файл в UTF-8 по следния начин:
В Word за Windows --> от TOOLS менюто изберете OPTIONS
В Word 2001 или по-стари верции --> от FILE менюто изберете PREFERENCES
За Word X и 2004 --> от WORD меню изберете PREFERENCES
Останалите стъпки са еднакви за Mac и Windows.
От таба GENERAL изберете WEB OPTIONS
Кликнете на ENCODING и от падащото меню изберете UTF-8.
Ако искате да запазите всички следващи страници в тази кодировка изберете ALWAYS SAVE WEB PAGES IN THE DEFAULT ENCODING.
Кликнете ОК.
Други текстови редактори обикновено имат също възможности за смяна на кодировката, но мястото им в менютата може да е малко различно. А за любителите на полезни програми, ето линк към страница, предлагаща безплатен конвертор от една на друга кодировка:
Encoding-converter
Надявам се, че след прочетеното няма да имате проблеми с използването на правилната кодировка за вашите страници и посланията ви ще достигат безпроблемно до посетителите на сайта ви. Успех!
Ако решите, че "как се прави сайт" ръководството може да бъде полезно и за други хора, моля гласувайте за сайта: