I have a tipical xml file like this in utf-8:
-------------------------------------------------------------------------------------------------
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE circolare SYSTEM "/some/where/inthisdisk/giurisp.dtd">
<massima>
<bancadati>4</bancadati>
<idmassima>15668</idmassima>
<numeromassima>284</numeromassima>
<datamassima>20041118</datamassima>
<entegiudicante>CGCE</entegiudicante>
<estremi>Corte di Giustizia CEE in data 18 novembre 2004, n.
C-284/03.</estremi>
<oggetto>"Sesta direttiva IVA - Art. 13, parte B, lett. b) - </oggetto>
<testomassima>
Stato Belga/Temco Europe SA
LA CORTE PRECISA LA NOZIONE DI LOCAZIONE DI BENI IMMOBILI AI SENSI DELLA
SESTA DIRETTIVA RELATIVA ALLE IMPOSTE SULLA CIFRA D'AFFARI
Costituiscono operazioni di "locazione di beni immobili" le
operazioni con cui una società concede un diritto precario di
occupazione dietro pagamento di un'indennità fissata principalmente
in funzione della superficie occupata, allorché questi contratti hanno
essenzialmente per oggetto la messa a disposizione passiva di locali,
contro un corrispettivo collegato al trascorrere del tempo.
La sesta direttiva prevede l'esenzione dall'IVA per la
locazione di beni immobili. 1
La Temco Europe è proprietaria di un immobile sito a Bruxelles nel quale
ha fatto realizzare nel 1993 e nel 1994 lavori di ristrutturazione.
L'IVA fatturata su questi lavori è stata dedotta dalla Temco.
Nel 1994, la Temco Europe ha concluso tre accordi con tre società (la SA
Temco Energy Management Company, la SA Publi-round e la SA Petrus) che
dipendono, insieme ad essa, da una direzione centrale comune. Con questi
accordi, la Temco Europe autorizza le società ad esercitare le loro
attività nel suo immobile, contro il corrispettivo di un canone
determinato per metro quadrato e pagabile annualmente. Gli accordi sono
conclusi per la durata dell'attività delle società, ma consentono
alla Temco Europe di richiedere in ogni momento e senza preavviso la
liberazione dello spazio concesso.
</testomassima>
</massima>
-------------------------------------------------------------------------------------------------
I'm using swish 2.4.2. under Linux and under windows.
Under Linux all is ok, .......a paradise!
Under Windows ..........grrrrrrrrrrr!
For indexing I use a configuration file like this:
---------------------------------------------------------------------
IndexDir G0000011
IndexDir G0000012
IndexDir G0000013
IndexDir G0000014
IndexDir G0000015
FileFilter .xml.bz2 c:\bin\bunzip2 '-c "%P"'
IndexOnly .xml.bz2
IndexContents XML2 .xml.bz2
IndexFile anindexfile_001.index
PropCompressionLevel 9
# Define META tags
MetaNames massima idmassima numeromassima tipomassima entegiudicante datamassima testomassima estremi oggetto bancadati
PropertyNames massima tipomassima entegiudicante testomassima oggetto numeromassima estremi bancadati
PropertyNamesDate datamassima
PropertyNamesNumeric idmassima
TranslateCharacters :ascii7:
IndexReport 1
---------------------------------------------------
In Linux I find the xml file upper.
Not in windows.
maybe the problem is "accented characters".
If I have accented characters in <testomassima> tag, i cannot find any word (with or without accent) in the xml file.
Why?
is correct to index utf8 files?
it's better to convert utf-8 file in other charset?
Thank you for all aid.
--
Cordialmente.
Carmelo Carchedi
Juniorbit Sas www.juniorbit.it
via Bramantino 9 - 20155 Milano
Fax:0270033713
Received on Wed Mar 23 10:29:54 2005