言葉検索アルゴリズム思想-第三段階の単語ピンイン
第二段階では、単語をピンインに訳して問題を解決する必要があります。oscで検索:ピニャン、http://pinyin4j.sourceforge.net/ダウンロードして直接使用する:
しかし、これは私達の要求に合わないです。ユーザーの入力は第一音と第二音の区別ができないので、フィルタリングを行います。
yu,le,ba,guaとyu,yue,ba,gua
機械をどう自分で組み合わせますか?
public static void main(String[] args) {
String item = " ";
// System.out.println(Arrays.toString(split(item)));
// System.out.println(Arrays.toString(split("ylbg")));
// System.out.println(Arrays.toString(split("yu,le,ba,gua")));
ArrayList<String[]> list = pinyin(item);
for (String[] arr : list) {
System.out.println(Arrays.toString(arr));
}
}
/**
*
*/
public static ArrayList<String[]> pinyin(String s) {
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); //
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); //
String[] pinyinArray = null;
ArrayList<String[]> list = new ArrayList<String[]>();
for (char c : s.toCharArray()) {
try {
pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
if (pinyinArray == null) {
list.add(new String[] {String.valueOf(c)});
} else {
list.add(pinyinArray);
}
}
return list;
}
出力:[yu]
[le, yue]
[ba, ba]
[gua]
「楽」は多音字で、「八」も多音字で、「バ、バ」はそれぞれ第一声、第二声です。//defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); //
この行の注釈が外れていますが、「八」が出力しているのは「ba 1,ba 2」です。しかし、これは私達の要求に合わないです。ユーザーの入力は第一音と第二音の区別ができないので、フィルタリングを行います。
/**
*
*/
public static ArrayList<String[]> pinyin(String s) {
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); //
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); //
String[] pinyinArray = null;
ArrayList<String> temp;
ArrayList<String[]> list = new ArrayList<String[]>();
for (char c : s.toCharArray()) {
try {
pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
if (pinyinArray == null) {
list.add(new String[] {String.valueOf(c)});
} else {
temp = new ArrayList<String>();
for (String p : pinyinArray) {
if (!temp.contains(p)) {
temp.add(p);
}
}
list.add(temp.toArray(new String[temp.size()]));
}
}
return list;
}
出力:[yu]
[le, yue]
[ba]
[gua]
ここに来て、一つの苦手な問題がすぐに上がってきます。多音字の組み合わせです。みんなは見ると、二つのグループがあることが分かりやすいです。yu,le,ba,guaとyu,yue,ba,gua
機械をどう自分で組み合わせますか?