Skip to main content.
home | support | download

Back to List Archive

indexing utf-8 under windows.

From: Carmelo Carchedi <c.carchedi(at)not-real.juniorbit.it>
Date: Wed Mar 23 2005 - 18:29:50 GMT
I have a tipical xml file like this in utf-8:
-------------------------------------------------------------------------------------------------
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE circolare SYSTEM "/some/where/inthisdisk/giurisp.dtd">
<massima>
<bancadati>4</bancadati>
<idmassima>15668</idmassima>
<numeromassima>284</numeromassima>
<datamassima>20041118</datamassima>
<entegiudicante>CGCE</entegiudicante>
<estremi>Corte di Giustizia CEE in data 18 novembre 2004, n. 
C-284/03.</estremi>
<oggetto>&quot;Sesta direttiva IVA - Art. 13, parte B, lett. b) - </oggetto>
<testomassima>
Stato Belga/Temco Europe SA
LA CORTE PRECISA LA NOZIONE DI LOCAZIONE DI BENI IMMOBILI AI SENSI DELLA 
SESTA DIRETTIVA RELATIVA ALLE IMPOSTE SULLA CIFRA D&apos;AFFARI
Costituiscono operazioni di &quot;locazione di beni immobili&quot; le 
operazioni con cui una società concede un diritto precario di 
occupazione dietro pagamento di un&apos;indennità fissata principalmente 
in funzione della superficie occupata, allorché questi contratti hanno 
essenzialmente per oggetto la messa a disposizione passiva di locali, 
contro un corrispettivo collegato al trascorrere del tempo.
La sesta direttiva prevede l&apos;esenzione dall&apos;IVA per la 
locazione di beni immobili. 1
La Temco Europe è proprietaria di un immobile sito a Bruxelles nel quale 
ha fatto realizzare nel 1993 e nel 1994 lavori di ristrutturazione. 
L&apos;IVA fatturata su questi lavori è stata dedotta dalla Temco.
Nel 1994, la Temco Europe ha concluso tre accordi con tre società (la SA 
Temco Energy Management Company, la SA Publi-round e la SA Petrus) che 
dipendono, insieme ad essa, da una direzione centrale comune. Con questi 
accordi, la Temco Europe autorizza le società ad esercitare le loro 
attività nel suo immobile, contro il corrispettivo di un canone 
determinato per metro quadrato e pagabile annualmente. Gli accordi sono 
conclusi per la durata dell&apos;attività delle società, ma consentono 
alla Temco Europe di richiedere in ogni momento e senza preavviso la 
liberazione dello spazio concesso.
</testomassima>
</massima>
-------------------------------------------------------------------------------------------------

I'm using swish 2.4.2. under Linux and under windows.

Under Linux all is ok, .......a paradise!

Under Windows ..........grrrrrrrrrrr!


For indexing I use a configuration file like this:
---------------------------------------------------------------------
IndexDir G0000011
IndexDir G0000012
IndexDir G0000013
IndexDir G0000014
IndexDir G0000015

FileFilter .xml.bz2   c:\bin\bunzip2   '-c "%P"'

IndexOnly .xml.bz2

IndexContents XML2  .xml.bz2

IndexFile  anindexfile_001.index

PropCompressionLevel 9

# Define META tags
MetaNames massima idmassima numeromassima tipomassima entegiudicante datamassima testomassima  estremi oggetto bancadati

PropertyNames massima tipomassima entegiudicante testomassima oggetto numeromassima estremi bancadati

PropertyNamesDate datamassima

PropertyNamesNumeric idmassima

TranslateCharacters :ascii7:

IndexReport 1
---------------------------------------------------

In Linux I find the xml file upper. 

Not in windows.

maybe the problem is "accented characters".
If I have accented characters in <testomassima> tag, i cannot find any word (with or without accent) in the xml file.

Why? 
is correct to index utf8 files?
it's better to convert utf-8 file in other charset?


Thank you for all aid.
-- 
Cordialmente.

Carmelo Carchedi
Juniorbit Sas www.juniorbit.it
via Bramantino 9 - 20155 Milano
Fax:0270033713
Received on Wed Mar 23 10:29:54 2005