Skip to content

Commit e79600a

Browse files
Merge pull request #73 from rstm-sf/infra/add_test_file_from_uchardet
Add test files from uchardet
2 parents c9afc4d + 7513a58 commit e79600a

20 files changed

+91
-0
lines changed

tests/Data/ibm852/lang_ce_ibm852.txt

Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
Led堟ek ���n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
2+
led堟kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
3+
modr�m h�betem, k��dly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
4+
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,5 @@
1+
TIS-620
2+
3+
��ҵðҹ��Ե�ѳ���ص��ˡ��� 620-2533, �͡.620-2533, ���ͷ�����ѡ�ѹ�������� TIS-620 �繪ش�ѡ����ҵðҹ�ص��ˡ����ͧ�� �ժ��������� ��������Ѻ�ѡ����·����Ѻ����������
4+
5+
���� TIS-620 ����������´��������� ISO-8859-11 �ҡ ᵡ��ҧ�ѹ����§��� ISO-8859-11 ��˹���� A0 �� "�����äẺ���Ѵ��" (no-break space) ��ǹ TIS-620 �������ʧǹ���˹� A0 ������ ���������˹����� � ���
Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,6 @@
1+
�Anton Pavlovit� T�ehhov� oli vene n�ite- ja novellikirjanik ning praktiseeriv arst.
2+
3+
T�ehhov on eelk�ige tuntud oma novellide poolest. Tema jutustuste tavaliseks
4+
tegevuspaigaks olid vene v�ikeasulad ja need k�sitlesid hinge�ksildust, raisatud
5+
�nne jms. Tuntud on ka tema ps�hholoogilised n�idendid, kus valitseb kurb ja
6+
lootusetu meeleolu.
Lines changed: 10 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,10 @@
1+
Eurosymbolet eller eurotegnet (�) anvendes som valutasymbol for m�ntenheden
2+
euro. Symbolsk kombinerer det et E eller et gr�sk epsilon med de to parallelle
3+
streger, man ofte ser i valutasymboler.
4+
5+
Det vides ikke med sikkerhed, hvem eurosymbolet blev designet af. Nogle medier
6+
h�vder, det blev skabt af tidligere designer ved EF Arthur Eisenmenger, mens
7+
andre p�st�r, det blev skabt af en lille gruppe ledet af Alain Billiet. Muligvis
8+
er ingen af disse forklaringer korrekte, da Den Paneurop�iske Union udsendte en
9+
'1 euro'-medalje i 1972, hvorp� man kan se et symbol, der i h�j grad ligner det
10+
nuv�rende eurosymbol.
Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
Led���ek ���n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
2+
led���kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
3+
modr�m h�betem, k��dly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
4+
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
Esperanto (origine Lingvo Internacia) estas la plej disvastigita internacia
2+
planlingvo.[3] La nomo venas de la ka�nomo "Dr-o Esperanto", sub kiu la juda
3+
kuracisto Ludoviko Lazaro Zamenhofo en la jaro 1887 publikigis la bazon de la
4+
lingvo. La unua versio, la rusa, ricevis la cenzuran permeson disvasti�i en la
5+
26-a de julio; �i tiun daton oni konsideras la naski�tago de Esperanto[4][5]. Li
6+
intencis krei facile lerneblan ne�tralan lingvon, ta�gan por uzo en la
7+
internacia komunikado, tamen ne anstata�igi aliajn, naciajn lingvojn.
Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,6 @@
1+
Anton Pavlovit� T�ehhov oli vene n�ite- ja novellikirjanik ning praktiseeriv arst.
2+
3+
T�ehhov on eelk�ige tuntud oma novellide poolest. Tema jutustuste tavaliseks
4+
tegevuspaigaks olid vene v�ikeasulad ja need k�sitlesid hinge�ksildust, raisatud
5+
�nne jms. Tuntud on ka tema ps�hholoogilised n�idendid, kus valitseb kurb ja
6+
lootusetu meeleolu.
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
ISO 8859-5
2+
8-������ ������� �������� �� ��������� ������� ������� ��������� ISO-8859 ��� ������������� ���������.
3+
ISO 8859-5 ���� ������� �� ���� "�������� ���������" (��� ������� ����� ��������� ���� ������������, �� ����������� ��������� �).
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
������-1256 �� ���� ��� ������ �� ����� ����� ������� ������ ���� ������ �������
2+
���� ������ ��� �������� ��� ������ ��������� ���������. ���� ��� ���� ����������
3+
������. ���� ����� ��� �� ������ �� ������ 8859-6.
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
� ������������ ������������ ���������� ��� �������� ���������� ������������ �� �� ����� ISO 8859-7, ������ ��� ��� ��������, ����� ��� 8-����� ������������ ����������, ����� ��� �������� ISO 8859. ����������� �� ��� ����� �� �������� �� �������� �������� ������ ����� ��� ���������� ������� ����������� ��� �� ��������.
2+
3+
� ������ ������ �� 1987 ���� ��� ����� ��������� ���������� �� �� �������� ������� ELOT 928, ��� �������� �� 1986. � ������� �� ���� �� ����� ������� ��� ���������� ������ ��� 2003, ��� ��������� ����� ����������, ������������������� ��� ��� �������� ��� ����.
Lines changed: 13 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,13 @@
1+
T�rk�e, T�rk dili ya da T�rkiye T�rk�esi, bat�da Balkanlar'dan ba�lay�p do�uda
2+
Hazar Denizi sahas�na kadar konu�ulan Altay dillerinden biridir. Ya��, en eski
3+
hesaplara g�re 8500 olan T�rk�e, bug�n ya�ayan D�nya dilleri aras�nda en eski
4+
yaz�l� belgelere sahip olan dildir. Bu belgeler, �ivi yaz�l� S�merce
5+
tabletlerdeki al�nt� kelimelerdir.[12] T�rk yaz� dilleri i�inde O�uz sahas� yaz�
6+
dillerinden Osmanl� T�rk�esinin devam�n� olu�turur. Ba�ta T�rkiye olmak �zere
7+
eski Osmanl� �mparatorlu�u co�rafyas�nda konu�ulan T�rk�e, d�nyada en fazla
8+
konu�ulan 5. dildir. T�rk�e sondan eklemeli bir dildir.[13] Bundan �t�r�
9+
kullan�lan herhangi bir eylem �zerinden istenildi�i kadar s�zc�k
10+
t�retilebilir.[14] T�rkiye T�rk�esi bu y�n�nden dolay� di�er T�rk dilleriyle
11+
ortak ya da ayr�k bulunan onlarca eke sahiptir.[15] T�rk�e �ok geni�
12+
kullan�m�yla birlikte zengin bir dil olmas�n�n yan� s�ra, genel itibar�yla
13+
"�zne-nesne-y�klem" bi�imindeki c�mle kurulu�una sahiptir.
Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,5 @@
1+
TIS-620
2+
3+
�ҵðҹ��Ե�ѳ���ص��ˡ��� 620-2533, �͡.620-2533, ���ͷ�����ѡ�ѹ�������� TIS-620 �繪ش�ѡ����ҵðҹ�ص��ˡ����ͧ�� �ժ��������� ��������Ѻ�ѡ����·����Ѻ����������
4+
5+
���� TIS-620 ����������´��������� ISO-8859-11 �ҡ ᵡ��ҧ�ѹ����§��� ISO-8859-11 ��˹���� A0 �� "�����äẺ���Ѵ��" (no-break space) ��ǹ TIS-620 �������ʧǹ���˹� A0 ������ ���������˹����� � ���

tests/Data/utf-16be/lang_fr_utf-16.be

1.05 KB
Binary file not shown.

tests/Data/utf-16le/lang_ko_utf-16.le

376 Bytes
Binary file not shown.

tests/Data/utf-32le/lang_fr_utf-32.le

1.32 KB
Binary file not shown.
Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
Led���ek ���n� (Alcedo atthis) je pr�m�rn� 16,5 cm velk� pt�k z �eledi
2+
led���kovit�ch (Alcedinidae). Je velmi v�razn� zbarven� s oran�ovou spodinou a
3+
modr�m h�betem, k��dly a temenem. V�razn�m znakem je tak� jeho n�padn� dlouh�
4+
za�pi�at�l� zob�k. Pro sv� kr�sn� zbarven� je naz�v�n L�taj�c� drahokam.
Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,5 @@
1+
Windows-1253
2+
3+
� ������������ ��� ���������� ����� ������ ���� �� ��� ������������ Windows-1253. � ������ ������� ��� �������� ����� � ���� ��� ���������� ��������� ���� �� ����� ��������� (��� Windows-1253) ��� ����������� ���� "A2". ���� ���� �� ���������� �� ����������� �� ����� ��� ��������� ����������� ������� (�� ������ ��� ���������� � ���� ������ �����), ���� �������� ����������� ������������, ��� �� �������� �������� ������������ ��������.
4+
5+
����� �������
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
������-1256 �� ���� ��� ������ �� ����� ����� ������� ������ ���� ������ �������
2+
���� ������ ��� �������� ��� ������ ��������� ���������. ���� ��� ���� ����������
3+
������. ���� ����� ��� �� ������ �� ������ 8859-6.
Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,6 @@
1+
Anton Pavlovit� T�ehhov oli vene n�ite- ja novellikirjanik ning praktiseeriv arst.
2+
3+
T�ehhov on eelk�ige tuntud oma novellide poolest. Tema jutustuste tavaliseks
4+
tegevuspaigaks olid vene v�ikeasulad ja need k�sitlesid hinge�ksildust, raisatud
5+
�nne jms. Tuntud on ka tema ps�hholoogilised n�idendid, kus valitseb kurb ja
6+
lootusetu meeleolu.
Lines changed: 4 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
Ch�� Qu��c ng�� l� h�� ch�� vi��t th��ng nh��t ch�nh th��c hi��n nay cu�a ti��ng Vi��t, s��
2+
du�ng ky� t�� La Tinh, d��a tr�n c�c ba�ng ch�� c�i cu�a nh�m ng�n ng�� R�man,[1] ���c
3+
bi��t l� ba�ng ch�� c�i B�� ��o Nha,[2] v��i c�c d��u phu� chu� y��u t�� ba�ng ch�� c�i Hy
4+
La�p.

0 commit comments

Comments
 (0)