Detectado javascript desactivado

Tienes el javascript desactivado en este momento. Muchas funciones podrían no funcionar. Por favor reactiva el javascript para obtener una funcionalidad completa.

Escapar contenido HTML

Comenzado por Delphius , oct 13 2015 01:31

html carácteres especiales escapar

Por favor identifícate para responder

9 respuestas en este tema

#1 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 13 octubre 2015 - 01:31

Buenas,

Estoy leyendo el contenido HTML y me he dado cuenta que necesito "escapar" los "carácteres especiales" a su valor textual de algunas partes del código. Por ejemplo reemplazar la palabra Trámite por trámite, o VILLAFA?E por VILLAFAÑE.

Imaginé que ya existe algo que lo haga en Lazarus pero hasta el momento mi búsqueda me ha llevado a la nada.

¿Alguien por casualidad sabe si hay algo así? ¿O en donde podría consultar la lista de estos carácteres para al menos implementar algo propio? Según veo, los únicos que necesitaría leer son los carácteres textuales (letras) ya que los símbolos (<, >, etc) no creo que aparezcan dentro del contenido que necesito recuperar.

Saludos,

Volver arriba

#2 Héctor Randolph

501st Legion

Moderadores
664 mensajes

LocationMéxico

Escrito 13 octubre 2015 - 02:44

Hola Delphius

Aquí puedes consultar información de estos símbolos HTML Entities

Se dividen en grupos cada uno de ellos bastante extenso

Currency Symbols

Mathematical Operators

Arrows

Greek and Coptic

Miscellaneous Symbols

Saludos

Volver arriba

#3 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 13 octubre 2015 - 03:13

Hola Delphius

Aquí puedes consultar información de estos símbolos HTML Entities

Se dividen en grupos cada uno de ellos bastante extenso

Currency Symbols

Mathematical Operators

Arrows

Greek and Coptic

Miscellaneous Symbols

Saludos

Gracias Héctor por el dato. Por lo que estuve viendo es posible que sólo necesite de los que hacen a téxtos ya que los demás símbolos no son de esperarse para mi caso. En el mismo sitio encontré la lista que necesito.

Aunque ahora que me fijo en esa lista a la Ñ dice que es Ñ pero en mis HTML de muestra la veo como ? Mi explicación es que quizá sea cosa del charset... El componente que empleo es el TidHHTP y según estuve haciendo pruebas el HTML que regresa es UTF8 independientemente (y si fuera incluso otro, yo me encargo de convertirlo a éste. Lazarus ya cuenta con funciones de conversión de encode) del que se haya definido en el "código fuente" (iso-8859-1 en mi caso) de la página.

Saludos,

Volver arriba

#4 enecumene

Webmaster

Administrador
7.419 mensajes

LocationRepública Dominicana

Escrito 13 octubre 2015 - 03:22

Pues en Delphi (no sé en Lazarus) cuenta una unidad llamada HTTPApp, y una de sus funciones es HTMLDecode que decodifica las entidades html como el ejemplo que mencionaste de trámite, y para el segundo ejemplo Lazarus cuenta con Utf8ToAnsi, pruebalo.

Saludos.

Volver arriba

#5 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 13 octubre 2015 - 04:19

Pues en Delphi (no sé en Lazarus) cuenta una unidad llamada HTTPApp, y una de sus funciones es HTMLDecode que decodifica las entidades html como el ejemplo que mencionaste de trámite, y para el segundo ejemplo Lazarus cuenta con Utf8ToAnsi, pruebalo.

Saludos.

Pues la verdad amigo, ya me hace dudar que es lo que está pasando... O si es que el paso de UTF8 a ANSI resolverá el problema.

El caso al menos que he visto con el ejemplo es puntualmente con la Ñ, que en el código HTML devuelvo por el TidHTTP en lugar se der Ñ es simplemente el signo de cierre de pregunta (es decir ?). Lo vi porque el texto que estuve leyendo es un apellido con Ñ.

Procedo a explicar lo que hice:

Tengo una app en pruebas, e implementé este código entre mis tantas pruebas:

php

procedure TForm1.Button13Click(Sender: TObject);
var param, html1, html2: TStringList;
    encode: string;
begin
  param := TStringList.Create;
  html1 := TStringList.Create;
 
  param.Add(XXX); // no puedo dar detalles
  param.Add(XXX); // de los parámetros
  param.Add(XXX); // por cuestiones de seguridad
 
  html1.Text := idHTTP1.Post(MYURL, param);
  encode := GuessEncoding(html1.Text);
  if encode <> EncodingUTF8
     then begin
            html2 := TStringList.Create;
            html2.Text := ConvertEncoding(html1.Text, encode, EncodingUTF8);
            html2.SaveToFile(MYARCHIVO);
            ShowMessage('Se ha convertido a UTF8');
 
            FreeAndNil(html2);
          end
     else begin
            html1.SaveToFile(MYARCHIVO);
            ShowMessage('El html de origen es UTF8');
          end;
 
  freeAndNil(param);
  freeAndNil(html1);
end;

En mi prueba lo que hago es evaluar si ya de por si el contenido HTML devuelto por el TidHTTP es UTF8, de no serlo lo convierto. La prueba hecha en Windows es que efectivamente ya está en UTF8.

Luego abriendo el archivo y explorando noté que entre el contenido que me interesa recuperar, en una ocasión aparece la famosa ? Pero si navego el sitio con cualquier navegador muestra la Ñ. Me dije "bueno, si veo el código fuente que genera el navegador (probé con FF y Chome )quizá también vea ese símbolo de pregunta" pero no... me lo muestra como Ñ.

En FF es posible establecer el tipo de codificación al mostrar el fuente... asi que probé tanto en unicode como en occidental y ni caso... muestra Ñ. Sólo el componente TIdHTTP me pone en lugar de la Ñ el signo de pregunta.

Esta es una muestra de lo que regresa justamente el componente (TidHHTP) para el caso de la Ñ:

html5

<td align="center" bgColor="ghostwhite" colspan="5"><b><font face="Arial, Helvetica, sans-serif" size="1" > VILLAFA?E BLANCA                                  	</font> </b></td>

Pero como pueden ver, a otras entidades lo muestra como &algo:

html5

<td align="center" bgColor="gray"><font color="#FFFFFF" size="1" face="Arial, Helvetica, sans-serif">C&oacute;digo</font></td>

html5

<td align="center" bgColor="gray"><font face="Arial, Helvetica, sans-serif" size="1" color="#FFFFFF">Tipo Tr&aacute;mite  </font></td>

El sitio en cuestión está definido como iso-8859-1:

html5

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

Por eso no se que pensar.

Le daría unos cuantos golpes al que diseñó el sitio, porque se nota que lo hizo tan "caseramente" que tiene algunas faltas de etiquetas que sino fuera porque los navegadores son perfectamente inteligentes y lo corrigen al vuelo el sitio se mostraría una mierda. Pero esto es otro cantar.

Inicialmente pensé en emplear un Parser para hacer todo el trabajo pero me di cuenta justamente que por estos defectos de diseño las cosas no funcionan... además el uso de los parsers que estuve viendo exploran todo, requieren etiquetado completo y no necesito de tanto. Además como lo mio es un trabajo por demanda y necesito consultar varias veces el mismo sitio pero con diferentes parámetros el HTML en si no varía, y sólo me bastaria con detectar los "patrones" de interes y pum... trabajo hecho. Usar el parser me obliga a estar parseando cada vez que se consulta y es una pérdida de tiempo y recursos.

Saludos,

Volver arriba

#6 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 13 octubre 2015 - 04:34

Agrego:

Entre algunas de las tantas pruebas que estoy aplicando hice esto:

delphi

procedure TForm1.Button11Click(Sender: TObject);
begin
  ShowMessage(GetDefaultTextEncoding);
end;

La función en cuestión regresa el default encode empleado por el SO. Naturalmente en Windows regresa cp1252, que representa Windows-1252.

Pero internamente Lazarus ya opera en UTF8 por defecto. Y los componentes, al menos hasta el momento todos los que he empleado, así lo hacen.

Yo en modo "por las dudas", hice esa prueba de conversión en caso de que TidHTTP no regrese el HTML en UTF8 y aplica perfectamente su trabajo. La prueba arroja el cartelito de que ya está en UTF8 y no hizo falta.

Sólo por las dudas abro el texto HTML guardado con Notepad++ en lugar del bloc de notas a ver si no hay por ahi algún engaño pero no... se ve claro el símbolo de pregunta en el HTML devuelto por el componente y que éste identifica la codificación: UTF8 sin BOM.

El otro motivo por el cual se busca seguir UTF8 es porque es un formato "universal".

Lo que me quedaría por probar es diseñar una página HTML básica y listar diferentes caracteres y poner al TIdHTTP a navegar y ver que genera... asi podría descartar otras sorpresas.

Saludos,

Volver arriba

#7 enecumene

Webmaster

Administrador
7.419 mensajes

LocationRepública Dominicana

Escrito 13 octubre 2015 - 05:57

La falla está en la web ya que el charset está asignado como ISO-8859-1 y su base de datos está codificada como UTF8 ahí está la contradicción, el signo ? está doble codificada.

Saludos.

Volver arriba

#8 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 13 octubre 2015 - 06:15

La falla está en la web ya que el charset está asignado como ISO-8859-1 y su base de datos está codificada como UTF8 ahí está la contradicción, el signo ? está doble codificada.

Saludos.

¡Jodeme! ¡Santa torre de Babel! 8o|

Entonces... ¿como podría prevenir cualquier metida de pata desde ese lado? Porque si con la Ñ hace eso, ya me estoy imaginando lo que sucederá con apellidos como D'Andrea, Lapegüe, Zvitövich (este me lo inventé ) No se si forzar a hacer un ISO_8859_1ToUTF8() al HTML generado medio solucionará la cosa. Seguro que ya me apagaron el server y deberé esperar hasta mañana para hacer más pruebas.

Lo que encontré en esta página alemana me ha dejado carburando que quizá la lectura de las entidades es idependiente como dicen. Y en los casos en lo que el contenido a leer sea extraído desde la base de datos (lo que en realidad más me interesa recuperar) habrá que jugar con algo más...

Tengo unas ganas de ir a darle una visita nada amigable al encargado de dicho sitio (y de toda el área de sistemas de la organización) 8o| ... lo peor de todo es que lo conozco y me extraña que sea tan "desprolijo".

Saludos,

Volver arriba

#9 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 14 octubre 2015 - 02:21

Pues no tengo idea de hacia donde apuntar para lidiar con casos como el de la Ñ vs ?

¿Alguien tiene algún norte?

No quisiera pensar que podría haber algún bug en el Indy... se que Indy tiene un historial de fallo y muchos recomiendan emplear la v10. Desconozco si la que dispongo sea esa, más hasta lo que veo desde el Typhon Center dice que tengo Indy SVN del 24/10/2014 Rev 5201.

AGREGO:

Acabo de iniciar un hilo en el foro de Lazarus sobre este problema a ver si se animan más ojos a ver el tema.

Saludos,

Volver arriba

#10 Delphius

Advanced Member

Administrador
6.301 mensajes

LocationArgentina

Escrito 15 octubre 2015 - 02:44

Hola a todos!

Ya estoy en condiciones de dar una posible solución. Tendría que hacer más pruebas pero hasta ahora todo marcha bien.

La solución vino por el usuario CrisF del foro de Lazarus quien amablemente me explicó el asunto. Resulta ser que no tiene nada que ver la codificación de la base de datos sino en la conversión interna que aplica Indy. La solución es justamente capturar el codigo fuente original antes de que Indy proceda con su encoding.

Luego a este fuente original hay que proceder a aplicar el encode desde el tipo definido en META hacia UTF8. En este caso: de ISO 8859-1 a UTF8.

¿Cómo capturar el HTML original? incovando a otro de los métodos Post sobrecargados y para ello disponemos de un TStringStream:

delphi

param := TStringList.Create;
param.Add('param1=value1');
param.Add('param2=value2');
param.Add('param3=value3');
 
stream := TStringStream.Create('');
idHTTP1.Post(MYURL, param, stream);
memo1.Text := ISO_8859_1ToUTF8(Stream.DataString);
 
FreeAndNil(param);
FreeAndNil(stream);

El hilo sobre el tema en el foro de Lazarus por si les resulta de interés es éste.

Saludos,

Volver arriba

Volver a Lazarus / FreePascal

Etiquetado también con una o más de estas palabras: html, carácteres especiales, escapar

PROGRAMACIÓN → Otros Lenguajes (.NET, Web, C, C++, Java, ASM) → Hacer una suma en una consulta y esa suma mostrarlo en pantalla con html Comenzado por Roberth , 03 oct 2021 HTML, javascript	0 respuestas 2.316 visitas	Roberth 03 oct 2021
PROGRAMACIÓN → Otros Lenguajes (.NET, Web, C, C++, Java, ASM) → PHP, Ajax, Javascript y HTML → Sesiones y Cookies Comenzado por i707 , 07 sep 2021 PHP, Sesiones, Cookies, HTML y ás...	1 respuesta 3.217 visitas	Jose24 14 feb 2023
PROGRAMACIÓN → Otros Lenguajes (.NET, Web, C, C++, Java, ASM) → PHP, Ajax, Javascript y HTML → Generar reporte con PHP y mostrarlo en página web Comenzado por ed_1960 , 29 may 2017 reporte, php, html	0 respuestas 2.964 visitas	ed_1960 29 may 2017
PROGRAMACIÓN → Otros Lenguajes (.NET, Web, C, C++, Java, ASM) → Ayuda con salida por consola en C++ Comenzado por Ronny , 03 dic 2016 C++, Visual, HTML, png	2 respuestas 4.605 visitas	escafandra 04 dic 2016
PROGRAMACIÓN → Otros Lenguajes (.NET, Web, C, C++, Java, ASM) → PHP, Ajax, Javascript y HTML → Hacer un onmouseover de una imagen algo diferente Comenzado por Richi , 02 dic 2016 css, html, hover, img	4 respuestas 4.387 visitas	Richi 05 dic 2016

Escapar contenido HTML

#1 Delphius

#2 Héctor Randolph

#3 Delphius

#4 enecumene

#5 Delphius

#6 Delphius

#7 enecumene

#8 Delphius

#9 Delphius

#10 Delphius

Etiquetado también con una o más de estas palabras: html, carácteres especiales, escapar

Hacer una suma en una consulta y esa suma mostrarlo en pantalla con html

Sesiones y Cookies

Generar reporte con PHP y mostrarlo en página web

Ayuda con salida por consola en C++

Hacer un onmouseover de una imagen algo diferente

Iniciar sesión