sh-ul și tz-ul nostru cel de toate zilele

Discuții legate de revizuirea din anul 2004 a standardului
drac
membru
membru
Mesaje: 11
Membru din: 22 Mai 2003 23:29
Contact:

sh-ul și tz-ul nostru cel de toate zilele

Mesaj de drac »

Am observat cu stupoare cât de "bun" este suportul pentru sh și tz în fonturile windoze și în tex.

Păi la ce mă refer? mă refer la faptul că sh și tz trebuie să fie cu virgulă dedesubt și nu cu sedilă (șenilă? mama iei). Cele cu sedilă au codul unicode 015E și 015F, respectiv 0162 și 0163. Uitați ce zic băieții în pdf-ul lor (băieții fiind http://www.unicode.org) despre aceste minunate caractere:
- la sh: * Turkish, Ajerbaijiani, Romanian, ...
* this character is used in both Turkish and Romanian data
* a gliph variant with comma below is preffered for Romanian
- la tz: * Romanian, Semitic transliteration, ...
* this character is used in Romanian data
* a glyph variant with comma bellow is preferred for romanian

Se pare că cineva a făcut gât și ... au băgat și versiunea cu virgulă în standard, ea se găsește în setul Latin Extended B setul 0180-024F, caracterele sunt situate la 0218, 0219, 021A și 021B și fac parte din "Additions for Romanian".

Asa și? pai fonturile machosoft (am pachetul web de fonturi, pentru ca sunt pe linux, nu știu cele de pe xp cum sunt) nu sunt consistente, nici un font nu are caracterele adiționale, unele sunt cu sedilă altele cu virgulă, am văzut unele chiar și cu de amândouă (sh cu sedilă și tz cu virgulă).
Singura familie de fonturi care are caracterele adiționale este Bistream Vera (se pot lua gratuit de la http://www.gnome.org/fonts ); poate am sărit calul (sper) și mai sunt și alte fonturi pe care nu le am eu.

Din câte am văzut maparea iso-8859-2 se face la primul set de caractere unicode menționat, nu știu cum este iso-8859-16.

Am încercat să folosesc în LaTeX diacriticele românești, am vrut sa pot scrie caractere românești (în format unicode utf-8 ) și să nu folosesc "\u a" și alte chestii pentru diacritice. Am reușit, există pe ctan un pachet pentru așa ceva. Numai că nu sunt folosite caracterele care trebuie, iar la codurile pentru caracterele care trebuie nu sunt definite codurile necesare mapării...

Jenantă situație... tastatura făcuta cu curul, fonturile făcute aiurea... treburi făcute "bun și asa" ... zic asta pentru ca am observat folosirea caracterelor aiurea în subtitrarea de la "Matrix reloaded" (văzut la cinema). Nu văd de ce îmi fac probleme când eu ar trebui să-i număr "oole" lu' de alde Năstase și compania.

Și acestea ar fi unele motive să rămân "forever" pe Linux (tastatura ok, fonturi ok), va trebui să-mi rezolv problema cu LaTeX-ul... :(

Noroc bun,
Cristi.
Avatar de utilizator
secarica
admin secarica.ro
admin secarica.ro
Mesaje: 256
Membru din: 06 Mai 2003 03:00
Localitate: București, Pământ
Contact:

Mesaj de secarica »

drac a scris:[...] mă refer la faptul că sh și tz trebuie să fie cu virgulă dedesubt și nu cu sedilă (șenilă? mama iei). Cele cu sedilă au codul unicode 015E și 015F, respectiv 0162 și 0163.
Știu. Dacă ai chef de lectură citește articolul de aici.
Este un articol care a stat la baza unei discuții pe care am avut-o la sediul Microsoft România. Concluzia este că ce spun eu acolo nu are nici o valoare atât timp cât nu există nici o reglementare scrisă referitoare la virgula de sub ș și ț.
Singura speranță ar fi implementarea standardului ISO-8859-16, lucru care ar duce în mod automat la actualizarea fonturilor și completarea pozițiilor lipsă.
drac a scris:Jenantă situație... tastatura făcuta cu curul, fonturile făcute aiurea... treburi făcute "bun și așa" ...
Da, e o varză totală.
Și varza este întreținută și de alții - vezi mai jos.
drac a scris:păi fonturile machosoft (am pachetul web de fonturi, pentru că sunt pe linux, nu știu cele de pe xp cum sunt) nu sunt consistente, nici un font nu are caracterele adiționale, unele sunt cu sedilă altele cu virgulă, am văzut unele chiar și cu de amandouă (sh cu sedila și tz cu virgulă).
Aproape toate fonturile din Windows au ț-ul cu virgulă. Ce să zic, pare avantajos pentru "noi".
Până de curând credeam că greșeala asta se datorează Microsoft-ului, dar am realizat acum că de fapt Adobe e cauza.

Cei de la Adobe țin un "gliph list", un fel de indexul aspectului caracterelor.
Iată ce am întrebat eu și ce răspuns am primit. Thread-ul este luat de pe forumul Adobe, din secțiunea Typography.
from: Cristian Secara
date: 05:26pm May 29, 2003 Pacific
subject: There is a confusion between Unicode charts and Adobe glyph list



Regarding the Adobe Glyph List here
http://partners.adobe.com/asn/developer ... phlist.txt
and the Adobe Glyph List For New Fonts here
http://partners.adobe.com/asn/developer ... glfn13.txt

There is a confusion between Unicode charts and Adobe glyph list regarding characters 0162, 0163, 021A and 021B (Unicode names: Latin capital letter T with cedilla, Latin small letter T with cedilla, Latin capital letter T with comma below and Latin small letter T with comma below).

On the Adobe glyphlist, code 0162 is assigned to Tcedilla (correct), but also to Tcommaaccent (wrong). At the same time, code 021A reference is missing (which should point to Tcommaaccent).
Subsequently, the same apply to 0163: this one is assigned to tcedilla (correct), but also to tcommaaccent (wrong), whereas code 021B reference is missing (which should point to tcommaaccent).

On the Adobe Glyph List For New Fonts, code 0162 says "Tcommaaccent;LATIN CAPITAL LETTER T WITH CEDILLA".
Subsequently, code 0163 says "tcommaaccent;LATIN SMALL LETTER T WITH CEDILLA".
(???)

On the other hand, there is a similar approach which *is* correct, with codes 015E, 015F, 0218 and 0219 (the same as with T, but with S).
All the Unicode references for Scedilla, Scommaaccent, scedilla and scommaaccent are correct in all Adobe glyph lists.

Why is the T... wrong ?

Thank you.
Best wishes,
Cristi
from: Thomas Phinney
date: 07:36pm May 29, 2003 Pacific



Actually, this is a case where Unicode itself was previously wrong. Adobe deals with the error in a way that is compatible with existing implementations.

The glyph name used by Adobe correctly reflects the correct form of the character. The standard Unicode description for 0162/0163 refers to a T with cedilla, however, there is no known language on our planet which requires a T with cedilla. However, there are languages which require a T with comma accent below, such as Romanian.

Later, the Unicode Consortium realized their error, and added new codepoints (021A, 021B) for T with comma accent. However, the previous Unicode codepoints had already been in use for years in defining codepages for the relevant languages.

Therefore, to get the right form of the letter in all cases, Adobe chooses to map the glyphs Tcommaaccent and tcommaaccent to two codepoints each. Since there is no use for a T with cedilla, this should not cause problems--except for people who read the Unicode specification. :)

Regards,

T

Thomas Phinney
Fonts Program Mgr.
Adobe Systems
Puse toate cap la cap, după părerea mea, cea mai corectă soluție pare a fi ca orice font nou creat să conțină ș-urile și ț-urile și din Latin Extended A (cu sedilă) și din Latin Extended B (cu virgulă), iar referința să fie standardul Unicode, cu ignorarea totală a Adobe Glyph List (care de fapt nu este nici un standard).

Cristi
... cea mai bună armă este adevărul – cu condiția să știi să-l folosești
drac
membru
membru
Mesaje: 11
Membru din: 22 Mai 2003 23:29
Contact:

Mesaj de drac »

Nu văzusem articolul de pe sit :(, oricum e bine de știut. Chestia cu standardele este destul de nasoală când pe ăștia mari cum ar fi Adobe îi doare undeva de ele.

Am așa o impresie că nu o să se întâmple nimic... cine îi explica lu' nea ministru Dan Nica despre asta? :)
sergiu

ș și ț

Mesaj de sergiu »

Salut,

Eu am o idee și mai bună:
atunci când tastezi ț să îți apară tz, iar în loc de ș sh.
Și am rezolvat și problemele astea.

Hai noroc.
Avatar de utilizator
secarica
admin secarica.ro
admin secarica.ro
Mesaje: 256
Membru din: 06 Mai 2003 03:00
Localitate: București, Pământ
Contact:

Re: ș și ț

Mesaj de secarica »

sergiu a scris:Eu am o idee și mai bună: atunci când tastezi ț să îți apară tz, iar în loc de ș sh.
Dacă e să batem câmpii, pe internet circulă o poantă (veche) care se potrivește perfect cu ce zici tu aici:
Euro English

The European Commission has just announced an agreement whereby English will be the official language of the EU rather than German, which was the other possibility.

As part of the negotiations, Her Majesty's Government conceded that English spelling had some room for improvement and has accepted a five-year-phase in plan that would be known as 'EuroEnglish':

In the first year, 's' will replace the soft 'c'. Sertainly, this will make the sivil servants jump with joy. Also, the hard 'c' will be dropped in favor of the 'k'. This should klear up konfusion and keyboards kan have 1 less letter.

There will be growing publik enthusiasm in the sekond year, when the troublesome 'ph' will be replaced with the 'f'. This will make words like 'fotograf' 20 percent shorter.

In the third year, publik akseptanse of the new spelling kan be expekted to reach the stage where more komplikated changes are possible. Governments will enkorage the removal of double letters, which have always ben a deterent to akurate speling. Also, al wil agre that the horible mes of the silent 'e' in the language is disgraceful, and it should go away.

By the fourth yer, peopl wil be reseptiv to steps such as replasing 'th' with 'z' and 'w' with 'v'.

During ze fifz year, ze unesesary 'o' kan be dropd from vords kontaning 'ou' and similar changes vud of kors be aplid to ozer kombinations of leters.

After zis fifz yer, ve vil hav a reli sensibl riten styl. Zer vil be no mor trubls or difikultis and evrivun vil find it ezi to understand ech ozer.

Ze drem vil finali kum tru!!
Cristi
... cea mai bună armă este adevărul – cu condiția să știi să-l folosești
Bogdan Enache
membru
membru
Mesaje: 7
Membru din: 25 Mai 2004 22:30

Re: sh-ul și tz-ul nostru cel de toate zilele

Mesaj de Bogdan Enache »

drac a scris:Singura familie de fonturi care are caracterele adiționale este Bistream Vera (se pot lua gratuit de la http://www.gnome.org/fonts ); poate am sărit calul (sper) și mai sunt și alte fonturi pe care nu le am eu.
Care e faza ? Am băgat Bitstream Vera și au doar S cu sedilă, iar T n-au nici cu virguliță nici cu sedilă !!! :( De fapt fonturile alea nu prea au mai nimic, parcă ar fi o versiune de beta-test...

PS: Am verificat cu Character Map din Windows XP.
Sorin Paliga
membru
membru
Mesaje: 17
Membru din: 15 Octombrie 2003 19:31
Localitate: București
Contact:

s/t cu virgula sau cu sedila

Mesaj de Sorin Paliga »

Salutare,

Vin si eu si zic: problema lui s/t cu sedila, unde Unicode zice ca tcedilla ar fi folosit pt transcrieri semitice, este o gaselnita care sa justifice de ce l-au pus acolo. Nu exista nici o situatie cand tcedilla ar fi folosit ca standard/norma pt transcrieri semitice (adica ebraica/arameica). Evident, diferenta dintre s/tcedilla si s/tcommabelow este minima, arata asemanator, problema este ca, de fapt, Unicode Consortium a specificat de mult, de ani buni, ca pt romana TREBUIE s/tcommabelow, fapt implementat de MAC OS de la bun inceput (in MAC OS n-a fost niciodata s/tcedilla).
Destule fonturi, e drept relativ putine, au si s/tcommabelow si s/tcedilla, mai toate din MAC OS (tot mai multe), cateva doar din Windows. O pagina cu link-uri la multe fonturi, intre care si unele mari, cu multe caractere, se afla pe
http://www.redlers.com/downloadfont.html
Gentium, GentiumAlt, Titus, Alphabetum (asta e 15 euro, dar e superb) ar fi cele mari. Notati ca uriasul MS Arial Unicode nu are (sau nu avea, pe vremea cand era gratuit) s/tcommabelow.
Nu fara vina este aici, de-a lungul anilor, Academia Romana (absolut deloc preocupata de chestiune, decat doar cand o trage de maneca cineva, adica Cristi) precum si Comitetul Roman de Standardizare, cre a publicat standardul foarte tarziu, in 1998. Pai credeti ca MS, Apple si altii au timp sa ne astepte? Daca pe noi nu ne intereseaza sau suntem prea lenti, ce vina au ei?
Asta e istorie. Acum, chestiunea e simpla: standardul exista, el va fi revizuit (minimal). Cum s-a facut deja istorie in uzul (incorect) al s/tcedilla, problema va fi cum se vor aduce la zi (1) fonturile (asta nu e chiar complicat), (2) claviaturile Windows si Linux (in MAC OS nu-i nevoie de nici o actualizare, a fost, cum ziceam, s/tcommabelow de la inceput), (3) bazele de date (e simplu, teoretic, dar sunt miliarde de pagini care folosesc s/tcedilla).
Oricum, mai bine mai tarziu decat niciodata. Suntem un popor poetic, indragostit de natura, cu ministri (indiferent de culoarea politica) preocupati de chestiuni ample, precum NATO, UE, nu de banalitati precum standardul limbii romane.
Sorin
Bogdan Enache
membru
membru
Mesaje: 7
Membru din: 25 Mai 2004 22:30

Mesaj de Bogdan Enache »

Am mai găsit eu unul, FreeFont Pro, de la http://www.fontlab.com/html/fontlab.html, secțiunea downloads, în pagină.
Bogdan Enache
membru
membru
Mesaje: 7
Membru din: 25 Mai 2004 22:30

Mesaj de Bogdan Enache »

drac, dacă mai citești pe aici, să știi că se poate scrie și în Latex cu virguliță (eu am încercat în MikTex 2.4 sub Windows):

Cod: Selectați tot

\documentclass{article}
\usepackage[T1]{fontenc}
\usepackage[latin10]{inputenc}
\begin{document}

Demonstraţie:

ş ţ Ş Ţ


\end{document}
Ideea că în sursă scrii cu sedilă direct de la tastatură, dar le pune pe cele cu virguliță. Dacă scrii \c s în loc de ș n-o să meargă.

Și până una-alta :P , n-ar fi o idee rea să ne apucăm să modificăm fonturile actuale folosind FontLab, unde e cazul. Sau să trimitem un email la Microsoft în care să le cerem să facă update la toate versiunile de fonturi: să bage ș ț Ș Ț și să modifice să pună corect variantele cu sedilă la cele vechi să nu mai iște confuzie. Dacă nu le convine, le amenințăm cu procesul, că doar au vândut Office Romanian în care de fapt nu poți să scrii în română. Ar cam fi cazul.
drac
membru
membru
Mesaje: 11
Membru din: 22 Mai 2003 23:29
Contact:

Mesaj de drac »

Bogdan Enache a scris:drac, dacă mai citești pe aici, să știi că se poate scrie și în Latex cu virguliță (eu am încercat în MikTex 2.4 sub Windows):

Cod: Selectați tot

\documentclass{article}
\usepackage[T1]{fontenc}
\usepackage[latin10]{inputenc}
\begin{document}

Demonstraţie:

ş ţ Ş Ţ

\end{document}
Ideea că în sursă scrii cu sedilă direct de la tastatură, dar le pune pe cele cu virguliță. Dacă scrii \c s în loc de ș n-o să meargă.

Și până una-alta :P , n-ar fi o idee rea să ne apucăm să modificăm fonturile actuale folosind FontLab, unde e cazul. Sau să trimitem un email la Microsoft în care să le cerem să facă update la toate versiunile de fonturi: să bage ș ț Ș Ț și să modifice să pună corect variantele cu sedilă la cele vechi să nu mai iște confuzie. Dacă nu le convine, le amenințăm cu procesul, că doar au vândut Office Romanian în care de fapt nu poți să scrii în română. Ar cam fi cazul.
Am aflat și eu de faza cu latin10 (10 în hexa este 16 adică iso-8859-16 :D ) din LaTeX și am folosit-o în niște proiecte. Suportul de latin10 a fost adăugat relativ recent în LaTeX, cred că MikTex este singura distribuție cu așa ceva, dar se poate downloada de pe ctan.

Pentru editare de fonturi eu aș recomanda: fontforge.
Scrie un răspuns