Add a prop file for a newer version of the French WikiNER dataset

AngledLuffa · AngledLuffa · commit 698d84b82f7f · 2024-12-04T03:12:16.000-08:00
diff --git a/scripts/ner/Makefile b/scripts/ner/Makefile
@@ -1,5 +1,5 @@
 
-all: chinese genia german hungarian italian all.3class nowiki.3class conll.4class muc.7class spanish
+all: chinese french genia german hungarian italian all.3class nowiki.3class conll.4class muc.7class spanish
 
 chinese: chinese.misc.nodistsim.ser.gz chinese.misc.distsim.ser.gz
 
@@ -9,6 +9,11 @@ chinese.misc.nodistsim.ser.gz:
 chinese.misc.distsim.ser.gz:
 	java -mx15g edu.stanford.nlp.ie.crf.CRFClassifier -prop chinese.misc.distsim.prop > chinese.misc.distsim.out 2>&1
 
+french: french-wikiner-4class.crf.ser.gz
+
+french-wikiner-4class.crf.ser.gz:
+	java -mx15g edu.stanford.nlp.ie.crf.CRFClassifier -prop french.wikiner.nodistsim.4class.prop > french.wikiner.nodistsim.out 2>&1
+
 genia: genia-nlpba-2004.crf.gz
 
 genia-nlpba-2004.crf.gz:
diff --git a/scripts/ner/french.wikiner.nodistsim.4class.prop b/scripts/ner/french.wikiner.nodistsim.4class.prop
@@ -0,0 +1,45 @@
+trainFileList = /home/john/stanza/data/ner/fr_wikinergold.train.bioes
+testFiles = /home/john/stanza/data/ner/fr_wikinergold.dev.bioes
+serializeTo = french-wikiner-4class.crf.ser.gz
+
+useDistSim = false
+
+map = word=0,answer=1
+
+useTitle = true
+useClassFeature=true
+useWord=true
+useNGrams=true
+noMidNGrams=true
+usePrev=true
+useNext=true
+useLongSequences=true
+useSequences=true
+usePrevSequences=true
+maxLeft=1
+useTypeSeqs=true
+useTypeSeqs2=true
+useTypeySequences=true
+useOccurrencePatterns=true
+useLastRealWord=true
+useNextRealWord=true
+normalize=true
+wordShape=dan2uselC
+useDisjunctive=true
+disjunctionWidth=5
+#useDisjunctiveShapeInteraction=true
+
+type=crf
+
+saveFeatureIndexToDisk = true
+
+readerAndWriter=edu.stanford.nlp.sequences.ColumnDocumentReaderAndWriter
+
+useObservedSequencesOnly=true
+
+sigma = 1
+useQN = true
+QNsize = 25
+
+# makes it go faster
+featureDiffThresh=0.05