ASCII, UTF-8, ISO-8859… Μπορεί να έχετε δει αυτά τα παράξενα παρατσούκλια να επιπλέουν, αλλά τι σημαίνουν στην πραγματικότητα; Διαβάστε παρακάτω καθώς εξηγούμε τι είναι η κωδικοποίηση χαρακτήρων και πώς σχετίζονται αυτά τα ακρωνύμια με το απλό κείμενο που βλέπουμε στην οθόνη.



Βασικά δομικά στοιχεία

Όταν μιλάμε για γραπτή γλώσσα, μιλάμε για τα γράμματα που είναι τα δομικά στοιχεία των λέξεων, οι οποίες στη συνέχεια δημιουργούν προτάσεις, παραγράφους κ.λπ. Τα γράμματα είναι σύμβολα που αντιπροσωπεύουν ήχους. Όταν μιλάτε για γλώσσα, μιλάτε για ομάδες ήχων που ενώνονται για να σχηματίσουν κάποιο νόημα. Κάθε γλωσσικό σύστημα έχει ένα περίπλοκο σύνολο κανόνων και ορισμών που διέπουν αυτές τις έννοιες. Αν έχετε μια λέξη, είναι άχρηστη, εκτός αν ξέρετε από ποια γλώσσα προέρχεται και τη χρησιμοποιείτε με άλλους που μιλούν αυτήν τη γλώσσα.

(Σύγκριση σεναρίων Grantha, Tulu και Malayalam, Εικόνα από Βικιπαίδεια )

Στον κόσμο των υπολογιστών χρησιμοποιούμε τον όρο χαρακτήρας. Ένας χαρακτήρας είναι ένα είδος αφηρημένης έννοιας, που ορίζεται από συγκεκριμένες παραμέτρους, αλλά είναι η θεμελιώδης μονάδα νοήματος. Το λατινικό «Α» δεν είναι το ίδιο με ένα ελληνικό «άλφα» ή ένα αραβικό «αλίφ», επειδή έχουν διαφορετικά συμφραζόμενα – προέρχονται από διαφορετικές γλώσσες και έχουν ελαφρώς διαφορετική προφορά – επομένως μπορούμε να πούμε ότι είναι διαφορετικοί χαρακτήρες. Η οπτική αναπαράσταση ενός χαρακτήρα ονομάζεται γλύφος και τα διαφορετικά σύνολα γλυφών ονομάζονται γραμματοσειρές. Οι ομάδες χαρακτήρων ανήκουν σε ένα σύνολο ή ένα ρεπερτόριο.

Όταν πληκτρολογείτε μια παράγραφο και αλλάζετε τη γραμματοσειρά, δεν αλλάζετε τις φωνητικές τιμές των γραμμάτων, αλλάζετε την εμφάνιση τους. Είναι απλώς καλλυντικό (αλλά όχι ασήμαντο!). Ορισμένες γλώσσες, όπως η αρχαία αιγυπτιακή και η κινεζική, έχουν ιδεογράμματα. Αυτά αντιπροσωπεύουν ολόκληρες ιδέες αντί για ήχους, και η προφορά τους μπορεί να ποικίλλει ανάλογα με το χρόνο και την απόσταση. Εάν αντικαταστήσετε έναν χαρακτήρα με έναν άλλο, αντικαθιστάτε μια ιδέα. Είναι κάτι περισσότερο από απλώς αλλαγή γραμμάτων, αλλάζει ένα ιδεόγραμμα.

Κωδικοποίηση χαρακτήρων

(Εικόνα από Βικιπαίδεια )

Όταν πληκτρολογείτε κάτι στο πληκτρολόγιο ή φορτώνετε ένα αρχείο, πώς ξέρει ο υπολογιστής τι να εμφανίσει; Αυτός είναι ο σκοπός της κωδικοποίησης χαρακτήρων. Το κείμενο στον υπολογιστή σας δεν είναι στην πραγματικότητα γράμματα, είναι μια σειρά από ζευγαρωμένες αλφαριθμητικές τιμές. Η κωδικοποίηση χαρακτήρων λειτουργεί ως κλειδί για το ποιες τιμές αντιστοιχούν σε ποιους χαρακτήρες, όπως ακριβώς το πώς η ορθογραφία υπαγορεύει ποιοι ήχοι αντιστοιχούν σε ποια γράμματα. Ο κώδικας Μορς είναι ένα είδος κωδικοποίησης χαρακτήρων. Εξηγεί πώς ομάδες μεγάλων και σύντομων μονάδων, όπως τα μπιπ, αντιπροσωπεύουν χαρακτήρες. Στον κώδικα Μορς, οι χαρακτήρες είναι απλώς αγγλικά γράμματα, αριθμοί και τελείες. Υπάρχουν πολλές κωδικοποιήσεις χαρακτήρων υπολογιστή που μεταφράζονται σε γράμματα, αριθμούς, σημεία τονισμού, σημεία στίξης, διεθνή σύμβολα κ.λπ.

Διαφήμιση

Συχνά σε αυτό το θέμα, χρησιμοποιείται επίσης ο όρος κωδικοσελίδες. Είναι ουσιαστικά κωδικοποιήσεις χαρακτήρων όπως χρησιμοποιούνται από συγκεκριμένες εταιρείες, συχνά με μικρές τροποποιήσεις. Για παράδειγμα, η κωδικοσελίδα των Windows 1252 (παλαιότερα γνωστή ως ANSI 1252) είναι μια τροποποιημένη μορφή του ISO-8859-1. Χρησιμοποιούνται κυρίως ως εσωτερικό σύστημα για να αναφέρονται σε τυπικές και τροποποιημένες κωδικοποιήσεις χαρακτήρων που είναι συγκεκριμένες για τα ίδια συστήματα. Αρχικά, η κωδικοποίηση χαρακτήρων δεν ήταν τόσο σημαντική επειδή οι υπολογιστές δεν επικοινωνούσαν μεταξύ τους. Με το Διαδίκτυο να αναδεικνύεται στο προσκήνιο και τη δικτύωση να είναι συνηθισμένο φαινόμενο, έχει γίνει όλο και πιο σημαντικό στην καθημερινότητά μας χωρίς καν να το συνειδητοποιούμε.

Πολλοί διαφορετικοί τύποι

ειδικοί χαρακτήρες

(Εικόνα από Σάρα Σόσιακ )

Υπάρχουν πολλές διαφορετικές κωδικοποιήσεις χαρακτήρων εκεί έξω, και υπάρχουν πολλοί λόγοι για αυτό. Ποια κωδικοποίηση χαρακτήρων θα επιλέξετε να χρησιμοποιήσετε εξαρτάται από τις ανάγκες σας. Εάν επικοινωνείτε στα ρωσικά, είναι λογικό να χρησιμοποιήσετε μια κωδικοποίηση χαρακτήρων που υποστηρίζει καλά το κυριλλικό. Αν επικοινωνείτε στα Κορεάτικα, τότε θα θέλετε κάτι που να αντιπροσωπεύει καλά το Χανγκούλ και τη Χάντζα. Εάν είστε μαθηματικός, τότε θέλετε κάτι που να έχει όλα τα επιστημονικά και μαθηματικά σύμβολα να αντιπροσωπεύονται καλά, καθώς και τους ελληνικούς και λατινικούς γλυφούς. Αν είσαι φαρσέρ, ίσως θα ωφεληθείς ανάποδο κείμενο . Και, αν θέλετε όλα αυτά τα είδη εγγράφων να προβάλλονται από οποιοδήποτε άτομο, θέλετε μια κωδικοποίηση που είναι αρκετά κοινή και εύκολα προσβάσιμη.

Ας ρίξουμε μια ματιά σε μερικά από τα πιο κοινά.

(Απόσπασμα πίνακα ASCII, Εικόνα από asciitable.com )

    ASCII– Ο Αμερικανικός Πρότυπος Κώδικας για Ανταλλαγή Πληροφοριών είναι μια από τις παλαιότερες κωδικοποιήσεις χαρακτήρων. Αρχικά επινοήθηκε με βάση τηλεγραφικούς κώδικες και εξελίχθηκε με την πάροδο του χρόνου για να περιλαμβάνει περισσότερα σύμβολα και μερικούς πλέον ξεπερασμένους μη τυπωμένους χαρακτήρες ελέγχου. Είναι πιθανώς τόσο βασικό όσο μπορείτε να βρείτε όσον αφορά τα σύγχρονα συστήματα, καθώς περιορίζεται στο λατινικό αλφάβητο χωρίς τονισμένους χαρακτήρες. Η κωδικοποίησή του στα 7 bit επιτρέπει μόνο 128 χαρακτήρες, γι' αυτό υπάρχουν πολλές ανεπίσημες παραλλαγές που χρησιμοποιούνται σε όλο τον κόσμο. ISO-8859– Η πιο ευρέως χρησιμοποιούμενη ομάδα κωδικοποιήσεων χαρακτήρων του Διεθνούς Οργανισμού Τυποποίησης είναι ο αριθμός 8859. Κάθε συγκεκριμένη κωδικοποίηση χαρακτηρίζεται από έναν αριθμό, ο οποίος συχνά προτίθεται από ένα περιγραφικό παρατσούκλι, π.χ. ISO-8859-3 (Λατινικά-3), ISO-8859-6 (Λατινικά/Αραβικά). Είναι ένα υπερσύνολο του ASCII, που σημαίνει ότι οι πρώτες 128 τιμές στην κωδικοποίηση είναι ίδιες με το ASCII. Είναι 8-bit, ωστόσο, και επιτρέπει 256 χαρακτήρες, επομένως δημιουργείται από εκεί και περιλαμβάνει μια πολύ ευρύτερη σειρά χαρακτήρων, με κάθε συγκεκριμένη κωδικοποίηση να εστιάζει σε διαφορετικό σύνολο κριτηρίων. Το Latin-1 περιελάμβανε μια δέσμη τονισμένα γράμματα και σύμβολα, αλλά αργότερα αντικαταστάθηκε με ένα αναθεωρημένο σύνολο που ονομάζεται Latin-9, το οποίο περιλαμβάνει ενημερωμένα γλυφά όπως το σύμβολο του ευρώ.

θιβετιανή γραφή

(Απόσπασμα Θιβετιανής γραφής, Unicode v4, από unicode.org )

    Unicode– Αυτό το πρότυπο κωδικοποίησης στοχεύει στην καθολικότητα. Αυτή τη στιγμή περιλαμβάνει 93 σενάρια οργανωμένα σε πολλά μπλοκ, με πολλά άλλα να βρίσκονται υπό κατασκευή. Το Unicode λειτουργεί διαφορετικά από άλλα σύνολα χαρακτήρων, καθώς αντί να κωδικοποιεί απευθείας μια γλυφή, κάθε τιμή κατευθύνεται περαιτέρω σε ένα σημείο κώδικα. Αυτές είναι δεκαεξαδικές τιμές που αντιστοιχούν σε χαρακτήρες, αλλά οι ίδιες οι γλυφές παρέχονται με αποσπασμένο τρόπο από το πρόγραμμα, όπως το πρόγραμμα περιήγησής σας. Αυτά τα σημεία κώδικα συνήθως απεικονίζονται ως εξής: U+0040 (που μεταφράζεται σε '@' ). Οι ειδικές κωδικοποιήσεις σύμφωνα με το πρότυπο Unicode είναι UTF-8 και UTF-16. Το UTF-8 προσπαθεί να επιτρέψει τη μέγιστη συμβατότητα με το ASCII. Είναι 8-bit, αλλά επιτρέπει όλους τους χαρακτήρες μέσω ενός μηχανισμού αντικατάστασης και πολλαπλών ζευγών τιμών ανά χαρακτήρα. Το UTF-16 καταργεί την τέλεια συμβατότητα ASCII για μια πιο ολοκληρωμένη συμβατότητα 16-bit με το πρότυπο. ISO-10646– Δεν πρόκειται για πραγματική κωδικοποίηση, απλώς για ένα σύνολο χαρακτήρων Unicode που έχει τυποποιηθεί από το ISO. Είναι κυρίως σημαντικό επειδή είναι το ρεπερτόριο χαρακτήρων που χρησιμοποιείται από την HTML. Λείπουν ορισμένες από τις πιο προηγμένες λειτουργίες που παρέχονται από το Unicode που επιτρέπουν τη σελιδοποίηση και τη δημιουργία δέσμης ενεργειών από δεξιά προς τα αριστερά μαζί με το σενάριο από αριστερά προς τα δεξιά. Ωστόσο, λειτουργεί πολύ καλά για χρήση στο Διαδίκτυο, καθώς επιτρέπει τη χρήση μιας μεγάλης ποικιλίας σεναρίων και επιτρέπει στο πρόγραμμα περιήγησης να ερμηνεύει τους γλυφούς. Αυτό διευκολύνει κάπως τον εντοπισμό.

Τι κωδικοποίηση πρέπει να χρησιμοποιήσω;

Λοιπόν, το ASCII λειτουργεί για τους περισσότερους αγγλόφωνους, αλλά όχι για πολλά άλλα. Πιο συχνά θα βλέπετε το ISO-8859-1, το οποίο λειτουργεί για τις περισσότερες δυτικοευρωπαϊκές γλώσσες. Οι άλλες εκδόσεις του ISO-8859 λειτουργούν για κυριλλικά, αραβικά, ελληνικά ή άλλα συγκεκριμένα σενάρια. Ωστόσο, εάν θέλετε να εμφανίσετε πολλά σενάρια στο ίδιο έγγραφο ή στην ίδια ιστοσελίδα, το UTF-8 επιτρέπει πολύ καλύτερη συμβατότητα. Λειτουργεί επίσης πολύ καλά για άτομα που χρησιμοποιούν σωστά σημεία στίξης, μαθηματικά σύμβολα ή χαρακτήρες χωρίς περιστροφές, όπως π.χ. τετράγωνα και πλαίσια ελέγχου .

ειδήσεις από το Γκουτζαράτ

(Πολλές γλώσσες σε ένα έγγραφο, Στιγμιότυπο οθόνης του gujaratsamachar.com )

Ωστόσο, υπάρχουν μειονεκτήματα σε κάθε σετ. Το ASCII είναι περιορισμένο στα σημεία στίξης του, επομένως δεν λειτουργεί απίστευτα καλά για τυπογραφικά σωστές επεξεργασίες. Πληκτρολογήσατε ποτέ copy/paste από το Word μόνο για να έχετε κάποιο περίεργο συνδυασμό γλυφών; Αυτό είναι το μειονέκτημα του ISO-8859, ή πιο σωστά, η υποτιθέμενη διαλειτουργικότητά του με κωδικοσελίδες ειδικά για το λειτουργικό σύστημα (εξετάζουμε ΕΣΑΣ, Microsoft!). Το κύριο μειονέκτημα του UTF-8 είναι η έλλειψη κατάλληλης υποστήριξης στην επεξεργασία και τη δημοσίευση εφαρμογών. Ένα άλλο πρόβλημα είναι ότι τα προγράμματα περιήγησης συχνά δεν ερμηνεύουν και απλώς εμφανίζουν το σημάδι σειράς byte ενός κωδικοποιημένου χαρακτήρα UTF-8. Αυτό έχει ως αποτέλεσμα την εμφάνιση ανεπιθύμητων γλυφών. Και φυσικά, η δήλωση μιας κωδικοποίησης και η χρήση χαρακτήρων από έναν άλλο χωρίς τη σωστή δήλωση/αναφορά σε αυτούς σε μια ιστοσελίδα δυσκολεύει τα προγράμματα περιήγησης να τους αποδώσουν σωστά και τις μηχανές αναζήτησης να τους ευρετηριάσουν κατάλληλα.

Διαφήμιση

Για τα δικά σας έγγραφα, χειρόγραφα και ούτω καθεξής, μπορείτε να χρησιμοποιήσετε ό,τι χρειάζεστε για να ολοκληρώσετε τη δουλειά. Όσον αφορά τον Ιστό, ωστόσο, φαίνεται ότι οι περισσότεροι άνθρωποι συμφωνούν στη χρήση μιας έκδοσης UTF-8 που δεν χρησιμοποιεί σήμα σειράς byte, αλλά αυτό δεν είναι απολύτως ομόφωνο. Όπως μπορείτε να δείτε, κάθε κωδικοποίηση χαρακτήρων έχει τη δική της χρήση, το πλαίσιο και τα δυνατά και αδύνατα σημεία της. Ως τελικός χρήστης, πιθανότατα δεν θα χρειαστεί να ασχοληθείτε με αυτό, αλλά τώρα μπορείτε να κάνετε το επιπλέον βήμα προς τα εμπρός εάν το επιλέξετε.

ΔΙΑΒΑΣΤΕ ΤΗ ΣΥΝΕΧΕΙΑ