データベースのパフォーマンスの最適化、oracle文字列の比較的最適化の改善案について、みんなはレンガをたたきます


会社の単一業務データは千Wレベルに達し、絶えず新しいデータが入ってくるからです.新しいデータが入ってきてもチェックが必要で、重複データが入ってこない.チェック条件には文字列の対比が多く、最大の文字列は1000文字を超えないが、文字列の比較はデータベースにとって非常に消費性能が高く、Stringを数字に変換して比較できれば性能の向上に非常に役立つ.
その後、Stringにhashcodeがあることを考えて、使用できるかどうかを見てみましょう.
 
    <SPAN style="FONT-SIZE: small">/**
     * Returns a hash code for this string. The hash code for a
     * <code>String</code> object is computed as
     * <blockquote><pre>
     * s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]
     * </pre></blockquote>
     * using <code>int</code> arithmetic, where <code>s[i]</code> is the
     * <i>i</i>th character of the string, <code>n</code> is the length of
     * the string, and <code>^</code> indicates exponentiation.
     * (The hash value of the empty string is zero.)
     *
     * @return  a hash code value for this object.
     */
    public int hashCode() {
	int h = hash;
        int len = count;
	if (h == 0 && len > 0) {
	    int off = offset;
	    char val[] = value;

            for (int i = 0; i < len; i++) {
                h = 31*h + val[off++];
            }
            hash = h;
        }
        return h;
    }</SPAN>

 
しかし、残念ながらintの範囲は非常に狭く(-2114748648--2147483647)、重複する確率は低いとはいえ、重複する可能性は避けられない.
そこで,hashcodeメソッドを自分で書き直し,intの範囲をlongタイプ(−922337203685474808~922337203685474807)に拡大できるかどうかを考えると,現在の長さの文字で生成されたhashcodeが重複する可能性はほぼゼロであるはずである.
皆さんはこの構想について何かもっと良い意見がありますか?