Line2clip discusión sobre identificación líneas

Más
7 años 3 meses antes - 7 años 3 meses antes #17248 por Perseverante
Line2clip discusión sobre identificación líneas

Hemos convenido un * como principio de línea para identificar una línea de texto o párrafo a añadir, siendo el siguiente * el indicador de que todo lo anterior conforma un párrafo.

Se ha convenido que las líneas de URL reciben un modo especial de añadirse a la base de datos.

Y que esas líneas de URL no llevan * en su comienzo.

Así

*esto es texto
ingenierostenerife.blogspot.com
*mas texto tras una url
texto
fin texto
peritostenerife.wordpress.com
*seguimos con más texto.

creo que podrían detectarse las url por LEFT de principio de cadena

http://
https:
www.
y similares


ingenierostenerife.blogspot.com
peritostenerife.wordpress.com
estudioingenieriatenerife.blogspot.com.es


ftp
Última Edición: 7 años 3 meses antes por Perseverante.

Por favor, Identificarse o Crear cuenta para unirse a la conversación.

Más
7 años 3 meses antes - 7 años 3 meses antes #17266 por MiguelMS
[El mensaje de error que aparece arriba es del foro, no está incluido intencionadamente en el texto del mensaje]


Quizá no he entendido este mensaje, pero la funcionalidad que comentas ya existe en el programa... :huh:

Actualmente las líneas que contienen una URL se detectan precisamente por su comienzo por "file://", "ftp://", "mailto://", "http://", "https://" o "www."

¿Hay algún otro tipo de URL que quisieras añadir?

El asterisco no es que sea necesario para distinguir los registros de texto de las URLs (de hecho, si los registros de texto tuvieran todos una única línea, no sería necesario el asterisco), sino que es necesario para separar registros de texto de más de una línea. Sin el asterisco sería imposible separar dos registros de texto que fueran seguidos si cualquiera de los dos puede tener más de una línea.
Última Edición: 7 años 3 meses antes por MiguelMS.

Por favor, Identificarse o Crear cuenta para unirse a la conversación.

Más
7 años 3 meses antes #17267 por Perseverante
Por esto te comenté en el pasado de simplificar.

si se trata de añadir un párrafo acotarlo con un inicio y fin de párrafo. el resto no lo precisaría porque serían líneas individuales.
si la línea individual es una url se reconocería por el proceso que citas más arriba.

De este manera no tendría en la práctica mayoría de los casos que manipular o preparar previamente el archivo de texto objeto.

:blush:

Por favor, Identificarse o Crear cuenta para unirse a la conversación.

Más
7 años 3 meses antes #17270 por MiguelMS

Por esto te comenté en el pasado de simplificar.
si se trata de añadir un párrafo acotarlo con un inicio y fin de párrafo. el resto no lo precisaría porque serían líneas individuales.
si la línea individual es una url se reconocería por el proceso que citas más arriba.


Es que realmente añadir símbolos de principio y fin no es más simple... De hecho añade una serie de casos especiales que habría que tratar específicamente, como por ejemplo, suponiendo que el inicio fuera el asterisco al principio de una línea y el final fuera el asterisco al final de una línea: ¿Qué hacer si se encuentran dos o más símbolos de inicio sin haber encontrado uno de final (asumir que se ha olvidado el final y aceptar lo leído hasta ahora como un registro / descartar el registro leído hasta ahora como incorrecto)? ¿Qué hacer si se encuentra un símbolo de final sin que haya habido uno de principio correspondiente (asumir que se ha olvidado el inicio y aceptar la línea actual como línea única / descartar el registro leído hasta ahora como incorrecto)? ¿Qué hacer si se encuentra otro tipo de línea (carpeta o URL) o el final del archivo y no ha habido un símbolo de final tras uno de inicio (asumir que la carpeta o URL forma parte del registro y continuar / descartar el registro leído hasta ahora como incorrecto)? ¿Es correcto que ambos símbolos pudieran estar en una misma línea (asumir que es un registro de una línea / Descartar el registro incorrecto)? ¿Se te ocurren más casos como esos?
Ya no sólo es leer lineas e ir a diferentes casos según su comienzo, sino que se convierte en un analizador léxico y sintáctico... En este caso, es probable que fuera más práctico hacer el analizador como un programa previo, que convierta del formato que tu quieras al que actualmente usa el programa...

En fin, depende de cuanto se complique el formato nuevo. Ve mirando a ver que habría que hacer en esos casos especiales que te planteaba, y según lo que necesites se irá viendo cuanto se complica la "gramática" de los "analizadores" y que conviene más.

De este manera no tendría en la práctica mayoría de los casos que manipular o preparar previamente el archivo de texto objeto.


De acuerdo... Ve respondiéndome a las preguntas de los casos especiales que te planteaba más arriba, y según lo que necesites (si la "gramática" que ha de reconocer el "analizador" es más o menos complicada), se ve a ver si se añade sobre el programa actual o se hace otro que ejecute automáticamente antes y que haga sólo el paso de leer el archivo y convertir al formato más simple usado actualmente.

Por favor, Identificarse o Crear cuenta para unirse a la conversación.

Más
7 años 3 meses antes #17272 por Perseverante
Una vez localizado un comienzo de párrafo el programa tiene que encontrar el final de párrafo. Si no lo encuentra regresa (return) y edita el archivo de texto para su corrección. No hay más casos posibles. :P

Por favor, Identificarse o Crear cuenta para unirse a la conversación.

Más
7 años 3 meses antes #17275 por MiguelMS
De acuerdo, nunca intentar corregir sobre la marcha o asumir nada, siempre avisar para corregir ante cualquier caso inesperado o incorrecto como los que preguntaba en el mensaje anterior.

Aunque eso lleva a la forma más simple de lo que comentaba en el mensaje anterior, dado que el objetivo en caso de algún problema es corregir el archivo, lo mejor sería que esta lectura fuera un paso previo a añadir los registros a GoldMine... Así, para cuando se empieza a añadir los registros, ya se tiene garantía de que el archivo entero es correcto, y cualquier error se detecta y se corrige *antes* de empezar... ¿De acuerdo?

Respecto al formato, se usaría el formato actual de LineToClip, pero con los siguientes cambios:
  • Un registro de una sola linea no lleva ningún carácter especial de comienzo ni de final. Por tanto, cualquier linea que no sea una ruta de carpeta, ni una URL, ni comience por un asterisco, es siempre un registro de una sola linea.
  • En un registro de varias lineas, la primera linea comienza siempre por un asterisco, y la última linea tiene al final de la misma un asterisco, no pudiendo ser la primera y la última la misma linea (es decir, tiene que haber al menos dos lineas).

¿Es eso correcto?

Por favor, Identificarse o Crear cuenta para unirse a la conversación.

Tiempo de carga de la página: 0.420 segundos
Gracias a Foro Kunena