uni2ascii i ascii2uni konwersji między UTF-8 Unicode i żadnej z różnych 7-bitowe odpowiedniki ASCII, w tym: szesnastkowym i dziesiętnych, HTML wskazuje cyfrę U-ucieczek, standardowym systemie szesnastkowym i surowego szesnastkowym.
Takie odpowiedniki ASCII są przydatne, gdy w tym tekst Unicode w źródła programu, podczas wprowadzania tekstu do programów internetowych, które mogą obsługiwać zestaw znaków Unicode, ale nie są 8-bitowe bezpieczny i podczas debugowania.
Dostępne są w Unicode ucieka:
- HTML szesnastkowym odniesienia cyfrę (np)
- HTML dziesiętne odniesienia znaków numerycznych (np ȳ)
- U wymyka, używane w Pythonie (np u00E9)
- u wymyka obrębie BMP i U-ucieczek poza BMP, np u00E9 ale U00010024.
- U -escapes (np U 00E9)
- U-ucieka (np U00E9)
- U wymyka (np u00E9)
- U ucieka w nawiasach kątowych (np)
- X-ucieka (np x00E9)
- X-ucieka z szelkami (np x {00E9})
- Standardowy szesnastkowym (np 0x00E9)
- Raw szesnastkowym (np 00E9)
uni2ascii akceptuje flagi linii poleceń ustalenia, czy do generowania dużych liter AF lub małymi literami af jako cyfr szesnastkowych ponieważ niektóre niektóre programy akceptują tylko jednego lub drugiego. ascii2uni akceptuje albo.
W przypadku uni2ascii Domyślnie tylko znaki spoza zakresu ASCII są konwertowane. Nawet jeśli znaki ASCII są konwertowane, znaki nowej linii są zachowane, chyba że ich konwersja żądaniu. Spacje są również zachowane chyba konwersji żądaniu. W przypadku trzech nie-ASCII znaków spacji (etiopski kosmicznych słowo, kosmicznych Ogham i ideograficzne kosmicznych), jeśli spacje nie są konwertowane, są one zastępowane przestrzeni ASCII (0x20), tak aby utrzymać produkcję w ciągu 7- nieco zakres ASCII.
Ten pakiet zawiera cztery programy. Główny program jest uni2ascii. Jest napisany w C i musi być skompilowany. uni2html.py jest poprzednik uni2ascii. Jak jest napisane w Pythonie, to nie musi być skompilowany i powinien działać na niemal każdym bieżącym komputerze. uni2ascii jest inaczej przełożonego, że:
- Generuje szerszy zakres formatów wyjściowych.
- To jest około 20 razy szybciej.
- Zajmuje się wejście w pełnym 32-bitowym zakresie Unicode. W przeciwieństwie do tego, tylko uni2html uchwyty
Podstawowe wielojęzyczny Samolot (Samolot 0), ponieważ w chwili obecnej Python reprezentuje tekst Unicode zakodowane wewnętrznie za pomocą 16-bitowe liczby całkowite. Jeśli masz tekst w, powiedzmy, Linear B lub ugarycki, musisz uni2ascii.
To nie lepiej błędów sprawozdawczych. Jeżeli wystąpi błąd w wejściu, na przykład mal uformowane UTF-8, zgłasza lokalizację błędu, zarówno w odniesieniu do liczby znaków od początku pliku (rozpoczynając od 0) i w odniesieniu do liczby bajtów od początku pliku (również rozpoczynając od 0). (Liczy się liczy znaków i bajtów na ogół nie są takie same, ponieważ kodowanie UTF-8 znak zajmuje od jednego do czterech bajtów.) Tylko w wersji Pythona raporty liczba znaków. uni2ascii dostarcza również informacje o rodzaju błędu.
Trzeci program ascii2uni jest odwrotnością uni2ascii. Akceptuje tekst zawierający wiele reprezentacji ASCII znaków Unicode i generuje UTF-8 Unicode.
Czwarty program, ascii2uni.py, czyta 7-bitowego ASCII zawierający u-uciekł Unicode, używane w Pythonie i Tcl, i konwertuje go na UTF-8 Unicode. Jest to autorski program, którego ascii2uni jest uogólnieniem
Co nowego w tym wydaniu:.
- Naprawiono błąd w uni2ascii w którym w niektórych przypadkach liczba subsitution był zbyt wysoki, ustalenie Debian bug # 626268.
- Poprawione obsłużyć sytuację w NetBSD któremu brakuje getline.
- sklarowane semantyki czystej opcji jako konwersji znaków ASCII w zakresie innym niż spacja i nowa linia. Naprawiono błąd, w którym nie było wykonywane w sposób prawidłowy dla typów UTF8.
Co nowego w wersji 4.17:
- Dodane do uni2ascii następujące konwersje do najbliższego odpowiednika ASCII: U +2022 kula "o" średniej U + 00B7 do okresu, kropki U + 0085 następnej linii z linią, U + 2028 do linii rozdzielającej nowej linii.
Co nowego w wersji 4.16:
- Format Q działa ponownie w ascii2uni .
- Dodane DOUBLE U + 2033 PRIME do znaków konwertowane na ich najbliższego odpowiednika pod ASCII w formacie e w uni2ascii.
Co nowego w wersji 4.15:
- Zmiana nazwy endian.h do u2a_endian.h wyeliminować konflikt z Zewnętrzne endian.h.
- Usunięto kopię GNU getline z ascii2uni.c jak to jest standardem od POSIX2008.
Co nowego w wersji 4.14:
- Naprawiono błąd, który zakłócane z wykorzystaniem formatu Q w uni2ascii.
- Naprawiono błąd, w którym ascification U + 2502 + 2503 i U dodany do wyjścia podwójny cudzysłów.
- Naprawiono błąd, w którym opcja -a S generowane & quot; tak wiele znaków Budynek & quot; Linia dla każdego znaku z powodu pozostawienia w debugowanie kodu.
Co nowego w wersji 4.13:
- Naprawiono błąd, który powodował nadmierną ilość znaków ASCII, aby zmienić na być zgłaszane.
Co nowego w wersji 4.12:
- Oba programy pozwalają teraz nazwa pliku wejściowego do określenia w linii poleceń bez przekierowania.
Co nowego w wersji 4.11:
- W tej wersji dodano wsparcie dla & lt; XX & gt; & lt; XX & gt; oraz% uXXXX.
Co nowego w wersji 4.10:
- To wydanie naprawia błąd, który powodował argument Y, aby -a Flaga ascii2uni no-op, i koryguje strony podręcznika i pomocy argumentów Y i Q do -a flagi dla obu programów.
- argumentem Y jest obecnie błędu uni2ascii.
- Informacje o wersji i działania są bardziej pouczające.
podsumowania
Komentarze nie znaleziono