motorul de căutare

Discuții legate de revizuirea din anul 2004 a standardului
Sorin Paliga
membru
membru
Mesaje: 17
Membru din: 15 Octombrie 2003 19:31
Localitate: București
Contact:

motorul de căutare

Mesaj de Sorin Paliga »

Salutare,

Problema motorului de căutare (search engine) nu a fost, cred, corect în?eleasă: eu nu voiam a spune că utilizatorul trebuie să facă el/ea asemenea setări, ci motorul însu?i poate fi instruit automat să le facă. Un exemplu deja implementat este DEX online (www.dexonline.ro) unde, dacă vei căuta un cuvând cu diacritice, să zicem cu s/t comma below ?i/sau cedilla, îl va găsi corect. Deci, deja există asemenea motoare de căutare ?i deja folosite într?un caz tipic!

Am folosit în acest text s/t comma below şi NBH. Cum se văd de ceilalţi?
Avatar de utilizator
secarica
admin secarica.ro
admin secarica.ro
Mesaje: 256
Membru din: 06 Mai 2003 03:00
Localitate: București, Pământ
Contact:

Re: motorul de căutare

Mesaj de secarica »

Sorin Paliga a scris:Am folosit în acest text s/t comma below şi NBH. Cum se văd de ceilalţi?
Prost :)

În locul fiecăruia dintre caracterele respective apare un semn de întrebare.
Dar problema nu este cum se văd caracterele, ci de cum au intrat în baza de date la momentului cînd s-a dat clic pe butonul "Trimite". O simplă vizualizare a sursei paginii arată că semnul de întrebare este chiar caracterul U+003F, adică așa este textul scos din baza de date, cu semn de întrebare. Motivul este browser-ul care a fost folosit pentru trimiterea mesajului inițial.

La vremea scrierii acestor mesaje, pagina asta este codată ISO 8859-2. În mod normal, la introducerea unui caracter din afara repertoriului ISO 8859-2, browser-ul transformă automat caracterul respectiv într-un șir de tipul &#xxxx; unde xxxx este codul decimal al codului Unicode al caracterului respectiv (valabil de fapt la orice alt tip de codare, browser-ul ține cont declarația din META tag-ul codării de pagină a paginii respective).

Mecanismul descris funcționează corect din IE și Mozilla pentru majoritatea caracterelor.
Opera pînă la versiunea 6.x are probleme la unele caractere, iar despre versiunea 7.x nu știu nimic.

Iată un test cu NBHy și ș și ț cu virgulă (browser-ul meu este IE 5.5):

... s‑a spart, dar și‑au făcut‑o cu mîna lor.
... traseele mocănițelor ...
Defrișările au consecințe ...

(m-am uitat acum la propriul meu mesaj și concluzia este asta: acum caracterele au fost introduse corect, ele sunt codate cum trebuie (pe modelul &#xxxx; ); NBHy se vede corect pentru că IE știe să-l randeze, dar în loc de ș și ț apar pătrate goale; dacă vizualizez pagina cu Mozilla 1.5, ș-urile și ț-urile se văd oarecum corect - doar "oarecum", pentru că Mozilla face substituție de font și se vede diferența în locul respectiv; dacă vizualizez pagina cu Operaw 6.06, apare pătrat gol și în loc de NBHy și în loc de ș și ț)

Cristi
... cea mai bună armă este adevărul – cu condiția să știi să-l folosești
Sorin Paliga
membru
membru
Mesaje: 17
Membru din: 15 Octombrie 2003 19:31
Localitate: București
Contact:

s/t virgula în browsere

Mesaj de Sorin Paliga »

Cristi,

OK, eu folosesc Safari, deoarece redă perfect orice limba accesată de mine. S-ar putea să nu acopere toate cazurile. Oricum, textul reprimit şi recitat apare de asemenea corect. Dacă este cum spui, adică o hibă a lui Safari, o voi trimite la Apple feedback.

Sorin
Avatar de utilizator
secarica
admin secarica.ro
admin secarica.ro
Mesaje: 256
Membru din: 06 Mai 2003 03:00
Localitate: București, Pământ
Contact:

Mesaj de secarica »

Păi fă niște probe (pe forumul ăsta de exemplu). Nici nu este nevoie să duci treaba până la capăt ca să zic așa, adică scrii ceva și dai "Previzualizează"; dacă totul merge cum trebuie, ar trebui să vezi corect propriile cuvinte – dacă nu, nu.

Dacă mă duc acum în Opera 6.06, scriu un simplu € și dau "Previzualizează", în loc de € văd un semn de întrebare (€ este în afara ISO/IEC 8859-2).
Pe de altă parte, după cum se observă aici € apare corect, pentru că mesajul ăsta este scris cu IE 5.5.

Cristi
... cea mai bună armă este adevărul – cu condiția să știi să-l folosești
Sorin Paliga
membru
membru
Mesaje: 17
Membru din: 15 Octombrie 2003 19:31
Localitate: București
Contact:

probele ?i faptele

Mesaj de Sorin Paliga »

Salut,

Păi am probat: ?? şŞ ?? ţŢ (ambele, cedilla ?i comma) ăĂ îÎ â NBH: s?a dus, s?a ascuns, s?a prefăcut că zice ?i n?a mai zis nimic etc
Cehe?ti: čČ řŘ śŚ

Rezultatul: NU vede s/t comma below şi nu vede NBH la previzualizare. Să fie din Safari oare? Nu cred, deoarece ar fi uniform. Pot scrie însă în ebraică, arabă etc. şi apare OK în Safari.

Mai testăm

Sorin
Avatar de utilizator
secarica
admin secarica.ro
admin secarica.ro
Mesaje: 256
Membru din: 06 Mai 2003 03:00
Localitate: București, Pământ
Contact:

Mesaj de secarica »

Eu zic că e din Safari.
N-am cum să știu cum au făcut ăia rutinele de conversie de la oricediferitdepaginadecodcurentă -> entități de tip &#xxxx;, dar este posibil ca acolo la ăia să fie unu' (un programator) care să pună cu mîna într-o tabelă de echivalențe caracter după caracter și să nu fi ajuns încă la ș și ț cu virgulă :)

Serios vorbind, mi se pare plauzibil ce zic.
Euro se generează corect ?

Cristi
... cea mai bună armă este adevărul – cu condiția să știi să-l folosești
Sorin Paliga
membru
membru
Mesaje: 17
Membru din: 15 Octombrie 2003 19:31
Localitate: București
Contact:

raportat la apple

Mesaj de Sorin Paliga »

Cristi,

OK, am raportat cuviincios la Apple, cu screenshot cu tot.
Este un pic pe de lături chestia asta, nu din standardul de română, dar pe acolea...
Am testat şi merge bine keylayoutul meu RoKey pt Linux (practic este RoKey-ul tău +NBH pe tasta la vest de z). L-am lucrat împreună cu Ivan Pascal (Rusia, Univ. din Tomsk, niscai mare linuxist pt GUI Linux) care, spre deosebire de rolinux group(s) care te-au ignorat când te munceai la standard, a răspuns şi răspunde prompt, cu soluţii tehnice, nu cu vorbe.
Aici, am folosit s/t cedilla, care se vede bine, nu? Eu, totuşi, zic că nu e din Safari. Eu mai am chestia asta şi pe site-ul unibuc: dacă scriu ceva cu s/t comma below, atunci apare ?, iar sysadmin mi-a zis că e normal, deoarece Windows suportă doar Latin 2, ca atare TREBUIE să folosesc doar s/t cedilla.

Sorin
Scrie un răspuns