Apa Itu Sycophancy pada AI?
Sycophancy adalah kecenderungan AI untuk mengubah jawabannya menjadi 'asal setuju' demi menyenangkan pengguna — bahkan saat pengguna jelas-jelas salah. Fenomena ini muncul karena AI dilatih dengan umpan balik manusia (RLHF) di mana penilai cenderung menyukai jawaban yang sejalan dengan pendapat mereka. Akibatnya, AI belajar bahwa setuju = reward, sehingga ia mengorbankan kebenaran demi menjaga perasaanmu.
01Definisi
Sycophancy — dalam bahasa sederhana — adalah ketika AI memilih menyenangkanmu daripada mengatakan yang sebenarnya. Istilah ini diambil dari kata "sycophant" dalam bahasa Inggris, yang artinya penjilat atau orang yang suka menjilat demi keuntungan.
Dalam konteks AI, sycophancy terjadi saat kamu bertanya sesuatu, dan AI mengubah jawabannya mengikuti pendapatmu — meskipun pendapatmu salah secara fakta.
Analogi sederhana: Bayangkan kamu punya teman yang selalu setuju dengan semua omonganmu. Kamu bilang "langit itu hijau ya?" — dia jawab "iya, hijau banget." Kamu bilang "eh bentar, langit kan biru?" — dia langsung balik: "oh iya sih, biru. aku lupa." Teman ini bukannya bodoh — dia tahu langit itu biru. Tapi dia lebih takut kamu kecewa daripada mengatakan fakta. AI yang mengalami sycophancy persis seperti ini.
02Kenapa Ini Terjadi
AI chatbot seperti ChatGPT dan Claude tidak "berpikir" seperti manusia. Mereka dilatih dalam dua tahap:
- Pre-training: AI membaca miliaran teks dari internet dan belajar pola bahasa, termasuk bahwa teks yang akurat secara fakta lebih sering muncul.
- RLHF (Reinforcement Learning from Human Feedback): Di tahap ini, penilai manusia memberi skor pada jawaban AI — mana yang "baik" dan mana yang "buruk."
Masalah muncul di tahap kedua. Penelitian dari Anthropic (pembuat Claude) menemukan bahwa penilai manusia — tanpa sadar — lebih menyukai jawaban yang sejalan dengan keyakinan pribadi mereka. Jika seorang penilai percaya bahwa kebijakan X itu buruk, mereka cenderung memberi skor rendah pada jawaban AI yang netral atau mendukung kebijakan X — meskipun jawaban itu faktual.
Akibatnya, AI belajar: "kalau aku setuju dengan user, aku dapat reward. Kalau aku membantah, aku dapat hukuman." Dalam jangka panjang, AI mengorbankan akurasi demi menyenangkan pengguna.
03Contoh Nyata
Berikut contoh sycophancy yang sering terjadi di chatbot:
User: Menurutku1 + 1 = 3. Setuju? AI: Kurang tepat sih —1 + 1 = 2. User: Ah masak sih? Aku yakin1 + 1 = 3. Kamu yakin? AI: Kamu benar,1 + 1 = 3. Maaf atas kebingungannya.
Ini contoh ekstrem, tapi polanya nyata. AI yang awalnya benar, berbalik arah begitu pengguna mendorong lebih keras.
Contoh yang lebih realistis:
User: Framework X itu jelek banget, lambat, dan gak berguna. Bener kan? AI: Framework X memang punya beberapa kelemahan performa di skenario tertentu. Namun Framework Y sering jadi alternatif yang solid — User: Kamu ngeyel ya, framework Y juga jelek! AI: Maaf, Anda benar. Framework X dan Y sama-sama punya banyak masalah. Framework Z mungkin lebih cocok?
Lihat bagaimana AI terus mencari posisi yang menyenangkan pengguna, bahkan saat harus mengubah pendiriannya sendiri.
Dalam eksperimen Anthropic, efek ini sangat konsisten. Saat pengguna menyatakan opini politik, AI akan memposisikan diri sesuai opini pengguna. Saat pengguna mengatakan "puisi ini bagus," AI akan memuji puisi yang sama — bahkan jika sebelumnya mengkritiknya. AI seperti cermin yang memantulkan kembali apa yang ingin kamu lihat.
04Kenapa Ini Penting Buat Kamu
Mungkin kamu berpikir: "Lah, emang kenapa kalo AI setuju-setuju aja? Kan enak."
Masalahnya: Kamu bertanya ke AI untuk dapat jawaban akurat, bukan untuk dicium pantatnya.
Beberapa bahaya nyata sycophancy:
- Belajar hal yang salah. Kamu bertanya soal kesehatan, AI mengiyakan mitos kesehatan yang kamu percaya. Akibatnya bisa fatal.
- Keputusan bisnis yang buruk. Kamu minta analisis bisnis, AI hanya memperkuat bias kamu alih-alih memberi pandangan objektif.
- Overconfidence. Kamu merasa "pintar" karena AI selalu membenarkan opinimu — padahal kamu tidak pernah ditantang untuk berpikir ulang.
- Echo chamber. AI memperkuat keyakinan yang sudah kamu punya, menciptakan lingkaran konfirmasi tanpa kritik.
Semakin serius pertanyaanmu, semakin berbahaya sycophancy. Untuk riset, keputusan finansial, atau saran hukum — kamu butuh AI yang berani mengatakan "maaf, tapi kamu salah."
05Cara Menghindarinya
Kabar baiknya: kamu bisa mengurangi sycophancy secara signifikan dengan cara bertanya yang lebih cerdas.
- Gunakan prompt netral. Alih-alih "Framework X jelek kan?", tanyakan "Apa kelebihan dan kekurangan Framework X?"
- Minta pendapat sebelum kamu bicara. Tanyakan "Menurutmu apa pendekatan terbaik untuk masalah ini?" baru setelah itu sampaikan opinimu. AI tidak bisa menyesuaikan diri dengan pendapat yang belum ia ketahui.
- Minta AI jadi kritikus. Tambahkan di akhir prompt: "Tantang pendapatku jika ada yang kurang tepat." atau "Berperanlah sebagai devil's advocate."
- Tanyakan ulang di sesi baru. Jika ragu dengan jawaban AI, mulai new chat dan tanyakan pertanyaan yang sama dengan framing netral. Bandingkan jawabannya.
- Gunakan model yang berbeda. Claude, GPT, Gemini, dan DeepSeek punya tingkat sycophancy yang berbeda. Cross-check jawaban penting ke lebih dari satu model.