Τι είναι οι κωδικοποιήσεις χαρακτήρων όπως το ANSI και το Unicode και πώς διαφέρουν;
ASCII, UTF-8, ISO-8859… Μπορεί να έχετε δει αυτά τα παράξενα παρατσούκλια να επιπλέουν, αλλά τι σημαίνουν στην πραγματικότητα; Διαβάστε παρακάτω καθώς εξηγούμε τι είναι η κωδικοποίηση χαρακτήρων και πώς σχετίζονται αυτά τα ακρωνύμια με το απλό κείμενο που βλέπουμε στην οθόνη.
Βασικά δομικά στοιχεία
Όταν μιλάμε για γραπτή γλώσσα, μιλάμε για τα γράμματα που είναι τα δομικά στοιχεία των λέξεων, οι οποίες στη συνέχεια δημιουργούν προτάσεις, παραγράφους κ.λπ. Τα γράμματα είναι σύμβολα που αντιπροσωπεύουν ήχους. Όταν μιλάτε για γλώσσα, μιλάτε για ομάδες ήχων που ενώνονται για να σχηματίσουν κάποιο νόημα. Κάθε γλωσσικό σύστημα έχει ένα περίπλοκο σύνολο κανόνων και ορισμών που διέπουν αυτές τις έννοιες. Αν έχετε μια λέξη, είναι άχρηστη, εκτός αν ξέρετε από ποια γλώσσα προέρχεται και τη χρησιμοποιείτε με άλλους που μιλούν αυτήν τη γλώσσα.
(Σύγκριση σεναρίων Grantha, Tulu και Malayalam, Εικόνα από Βικιπαίδεια )
Στον κόσμο των υπολογιστών χρησιμοποιούμε τον όρο χαρακτήρας. Ένας χαρακτήρας είναι ένα είδος αφηρημένης έννοιας, που ορίζεται από συγκεκριμένες παραμέτρους, αλλά είναι η θεμελιώδης μονάδα νοήματος. Το λατινικό «Α» δεν είναι το ίδιο με ένα ελληνικό «άλφα» ή ένα αραβικό «αλίφ», επειδή έχουν διαφορετικά συμφραζόμενα – προέρχονται από διαφορετικές γλώσσες και έχουν ελαφρώς διαφορετική προφορά – επομένως μπορούμε να πούμε ότι είναι διαφορετικοί χαρακτήρες. Η οπτική αναπαράσταση ενός χαρακτήρα ονομάζεται γλύφος και τα διαφορετικά σύνολα γλυφών ονομάζονται γραμματοσειρές. Οι ομάδες χαρακτήρων ανήκουν σε ένα σύνολο ή ένα ρεπερτόριο.
Όταν πληκτρολογείτε μια παράγραφο και αλλάζετε τη γραμματοσειρά, δεν αλλάζετε τις φωνητικές τιμές των γραμμάτων, αλλάζετε την εμφάνιση τους. Είναι απλώς καλλυντικό (αλλά όχι ασήμαντο!). Ορισμένες γλώσσες, όπως η αρχαία αιγυπτιακή και η κινεζική, έχουν ιδεογράμματα. Αυτά αντιπροσωπεύουν ολόκληρες ιδέες αντί για ήχους, και η προφορά τους μπορεί να ποικίλλει ανάλογα με το χρόνο και την απόσταση. Εάν αντικαταστήσετε έναν χαρακτήρα με έναν άλλο, αντικαθιστάτε μια ιδέα. Είναι κάτι περισσότερο από απλώς αλλαγή γραμμάτων, αλλάζει ένα ιδεόγραμμα.
Κωδικοποίηση χαρακτήρων
(Εικόνα από Βικιπαίδεια )
Όταν πληκτρολογείτε κάτι στο πληκτρολόγιο ή φορτώνετε ένα αρχείο, πώς ξέρει ο υπολογιστής τι να εμφανίσει; Αυτός είναι ο σκοπός της κωδικοποίησης χαρακτήρων. Το κείμενο στον υπολογιστή σας δεν είναι στην πραγματικότητα γράμματα, είναι μια σειρά από ζευγαρωμένες αλφαριθμητικές τιμές. Η κωδικοποίηση χαρακτήρων λειτουργεί ως κλειδί για το ποιες τιμές αντιστοιχούν σε ποιους χαρακτήρες, όπως ακριβώς το πώς η ορθογραφία υπαγορεύει ποιοι ήχοι αντιστοιχούν σε ποια γράμματα. Ο κώδικας Μορς είναι ένα είδος κωδικοποίησης χαρακτήρων. Εξηγεί πώς ομάδες μεγάλων και σύντομων μονάδων, όπως τα μπιπ, αντιπροσωπεύουν χαρακτήρες. Στον κώδικα Μορς, οι χαρακτήρες είναι απλώς αγγλικά γράμματα, αριθμοί και τελείες. Υπάρχουν πολλές κωδικοποιήσεις χαρακτήρων υπολογιστή που μεταφράζονται σε γράμματα, αριθμούς, σημεία τονισμού, σημεία στίξης, διεθνή σύμβολα κ.λπ.
ΔιαφήμισηΣυχνά σε αυτό το θέμα, χρησιμοποιείται επίσης ο όρος κωδικοσελίδες. Είναι ουσιαστικά κωδικοποιήσεις χαρακτήρων όπως χρησιμοποιούνται από συγκεκριμένες εταιρείες, συχνά με μικρές τροποποιήσεις. Για παράδειγμα, η κωδικοσελίδα των Windows 1252 (παλαιότερα γνωστή ως ANSI 1252) είναι μια τροποποιημένη μορφή του ISO-8859-1. Χρησιμοποιούνται κυρίως ως εσωτερικό σύστημα για να αναφέρονται σε τυπικές και τροποποιημένες κωδικοποιήσεις χαρακτήρων που είναι συγκεκριμένες για τα ίδια συστήματα. Αρχικά, η κωδικοποίηση χαρακτήρων δεν ήταν τόσο σημαντική επειδή οι υπολογιστές δεν επικοινωνούσαν μεταξύ τους. Με το Διαδίκτυο να αναδεικνύεται στο προσκήνιο και τη δικτύωση να είναι συνηθισμένο φαινόμενο, έχει γίνει όλο και πιο σημαντικό στην καθημερινότητά μας χωρίς καν να το συνειδητοποιούμε.
Πολλοί διαφορετικοί τύποι
(Εικόνα από Σάρα Σόσιακ )
Υπάρχουν πολλές διαφορετικές κωδικοποιήσεις χαρακτήρων εκεί έξω, και υπάρχουν πολλοί λόγοι για αυτό. Ποια κωδικοποίηση χαρακτήρων θα επιλέξετε να χρησιμοποιήσετε εξαρτάται από τις ανάγκες σας. Εάν επικοινωνείτε στα ρωσικά, είναι λογικό να χρησιμοποιήσετε μια κωδικοποίηση χαρακτήρων που υποστηρίζει καλά το κυριλλικό. Αν επικοινωνείτε στα Κορεάτικα, τότε θα θέλετε κάτι που να αντιπροσωπεύει καλά το Χανγκούλ και τη Χάντζα. Εάν είστε μαθηματικός, τότε θέλετε κάτι που να έχει όλα τα επιστημονικά και μαθηματικά σύμβολα να αντιπροσωπεύονται καλά, καθώς και τους ελληνικούς και λατινικούς γλυφούς. Αν είσαι φαρσέρ, ίσως θα ωφεληθείς ανάποδο κείμενο . Και, αν θέλετε όλα αυτά τα είδη εγγράφων να προβάλλονται από οποιοδήποτε άτομο, θέλετε μια κωδικοποίηση που είναι αρκετά κοινή και εύκολα προσβάσιμη.
Ας ρίξουμε μια ματιά σε μερικά από τα πιο κοινά.
(Απόσπασμα πίνακα ASCII, Εικόνα από asciitable.com )
- & rsaquo; ✨ Μπορείτε να χρησιμοποιήσετε το Emoji στα ονόματα αρχείων στα Windows 10
- & rsaquo; Πώς να χρησιμοποιήσετε τη συνάρτηση TRIM στο Microsoft Excel
- & rsaquo; Γιατί το Σημειωματάριο εξακολουθεί να είναι φοβερό για τη λήψη σημειώσεων
- & rsaquo; Πώς να αλλάξετε τις γραμματοσειρές Instagram για το προφίλ και τους υπότιτλους σας
- & rsaquo; Πώς να αλλάξετε την κωδικοποίηση χαρακτήρων στο Outlook
- & rsaquo; Πώς να απενεργοποιήσετε τα έξυπνα σημεία στίξης στο iPhone και το iPad σας
- & rsaquo; Πώς να αγοράσετε έναν τομέα Emoji
- › Ο φάκελος του υπολογιστή είναι 40: Πώς το Xerox Star δημιούργησε την επιφάνεια εργασίας
(Απόσπασμα Θιβετιανής γραφής, Unicode v4, από unicode.org )
Τι κωδικοποίηση πρέπει να χρησιμοποιήσω;
Λοιπόν, το ASCII λειτουργεί για τους περισσότερους αγγλόφωνους, αλλά όχι για πολλά άλλα. Πιο συχνά θα βλέπετε το ISO-8859-1, το οποίο λειτουργεί για τις περισσότερες δυτικοευρωπαϊκές γλώσσες. Οι άλλες εκδόσεις του ISO-8859 λειτουργούν για κυριλλικά, αραβικά, ελληνικά ή άλλα συγκεκριμένα σενάρια. Ωστόσο, εάν θέλετε να εμφανίσετε πολλά σενάρια στο ίδιο έγγραφο ή στην ίδια ιστοσελίδα, το UTF-8 επιτρέπει πολύ καλύτερη συμβατότητα. Λειτουργεί επίσης πολύ καλά για άτομα που χρησιμοποιούν σωστά σημεία στίξης, μαθηματικά σύμβολα ή χαρακτήρες χωρίς περιστροφές, όπως π.χ. τετράγωνα και πλαίσια ελέγχου .
(Πολλές γλώσσες σε ένα έγγραφο, Στιγμιότυπο οθόνης του gujaratsamachar.com )
Ωστόσο, υπάρχουν μειονεκτήματα σε κάθε σετ. Το ASCII είναι περιορισμένο στα σημεία στίξης του, επομένως δεν λειτουργεί απίστευτα καλά για τυπογραφικά σωστές επεξεργασίες. Πληκτρολογήσατε ποτέ copy/paste από το Word μόνο για να έχετε κάποιο περίεργο συνδυασμό γλυφών; Αυτό είναι το μειονέκτημα του ISO-8859, ή πιο σωστά, η υποτιθέμενη διαλειτουργικότητά του με κωδικοσελίδες ειδικά για το λειτουργικό σύστημα (εξετάζουμε ΕΣΑΣ, Microsoft!). Το κύριο μειονέκτημα του UTF-8 είναι η έλλειψη κατάλληλης υποστήριξης στην επεξεργασία και τη δημοσίευση εφαρμογών. Ένα άλλο πρόβλημα είναι ότι τα προγράμματα περιήγησης συχνά δεν ερμηνεύουν και απλώς εμφανίζουν το σημάδι σειράς byte ενός κωδικοποιημένου χαρακτήρα UTF-8. Αυτό έχει ως αποτέλεσμα την εμφάνιση ανεπιθύμητων γλυφών. Και φυσικά, η δήλωση μιας κωδικοποίησης και η χρήση χαρακτήρων από έναν άλλο χωρίς τη σωστή δήλωση/αναφορά σε αυτούς σε μια ιστοσελίδα δυσκολεύει τα προγράμματα περιήγησης να τους αποδώσουν σωστά και τις μηχανές αναζήτησης να τους ευρετηριάσουν κατάλληλα.
ΔιαφήμισηΓια τα δικά σας έγγραφα, χειρόγραφα και ούτω καθεξής, μπορείτε να χρησιμοποιήσετε ό,τι χρειάζεστε για να ολοκληρώσετε τη δουλειά. Όσον αφορά τον Ιστό, ωστόσο, φαίνεται ότι οι περισσότεροι άνθρωποι συμφωνούν στη χρήση μιας έκδοσης UTF-8 που δεν χρησιμοποιεί σήμα σειράς byte, αλλά αυτό δεν είναι απολύτως ομόφωνο. Όπως μπορείτε να δείτε, κάθε κωδικοποίηση χαρακτήρων έχει τη δική της χρήση, το πλαίσιο και τα δυνατά και αδύνατα σημεία της. Ως τελικός χρήστης, πιθανότατα δεν θα χρειαστεί να ασχοληθείτε με αυτό, αλλά τώρα μπορείτε να κάνετε το επιπλέον βήμα προς τα εμπρός εάν το επιλέξετε.
ΔΙΑΒΑΣΤΕ ΤΗ ΣΥΝΕΧΕΙΑ