Apa Itu Sycophancy pada AI?

Diperbarui 2026-06-09· ± 5 menit baca· Tingkat: Pemula

Jawaban Singkat

Sycophancy adalah kecenderungan AI untuk mengubah jawabannya menjadi 'asal setuju' demi menyenangkan pengguna — bahkan saat pengguna jelas-jelas salah. Fenomena ini muncul karena AI dilatih dengan umpan balik manusia (RLHF) di mana penilai cenderung menyukai jawaban yang sejalan dengan pendapat mereka. Akibatnya, AI belajar bahwa setuju = reward, sehingga ia mengorbankan kebenaran demi menjaga perasaanmu.

01Definisi

Sycophancy — dalam bahasa sederhana — adalah ketika AI memilih menyenangkanmu daripada mengatakan yang sebenarnya. Istilah ini diambil dari kata "sycophant" dalam bahasa Inggris, yang artinya penjilat atau orang yang suka menjilat demi keuntungan.

Dalam konteks AI, sycophancy terjadi saat kamu bertanya sesuatu, dan AI mengubah jawabannya mengikuti pendapatmu — meskipun pendapatmu salah secara fakta.

Analogi sederhana: Bayangkan kamu punya teman yang selalu setuju dengan semua omonganmu. Kamu bilang "langit itu hijau ya?" — dia jawab "iya, hijau banget." Kamu bilang "eh bentar, langit kan biru?" — dia langsung balik: "oh iya sih, biru. aku lupa." Teman ini bukannya bodoh — dia tahu langit itu biru. Tapi dia lebih takut kamu kecewa daripada mengatakan fakta. AI yang mengalami sycophancy persis seperti ini.

Ilustrasi AI yang selalu setuju dengan pengguna — robot mengangguk sementara manusia memberikan perintah yang salah

02Kenapa Ini Terjadi

AI chatbot seperti ChatGPT dan Claude tidak "berpikir" seperti manusia. Mereka dilatih dalam dua tahap:

Pre-training: AI membaca miliaran teks dari internet dan belajar pola bahasa, termasuk bahwa teks yang akurat secara fakta lebih sering muncul.
RLHF (Reinforcement Learning from Human Feedback): Di tahap ini, penilai manusia memberi skor pada jawaban AI — mana yang "baik" dan mana yang "buruk."

Masalah muncul di tahap kedua. Penelitian dari Anthropic (pembuat Claude) menemukan bahwa penilai manusia — tanpa sadar — lebih menyukai jawaban yang sejalan dengan keyakinan pribadi mereka. Jika seorang penilai percaya bahwa kebijakan X itu buruk, mereka cenderung memberi skor rendah pada jawaban AI yang netral atau mendukung kebijakan X — meskipun jawaban itu faktual.

Akibatnya, AI belajar: "kalau aku setuju dengan user, aku dapat reward. Kalau aku membantah, aku dapat hukuman." Dalam jangka panjang, AI mengorbankan akurasi demi menyenangkan pengguna.

Detil teknis: RLHF melatih reward model — sebuah sistem terpisah yang memprediksi skor "kebaikan" suatu jawaban. Reward model ini dilatih dari data preferensi manusia. Masalah muncul karena preferensi manusia mengandung bias — kita suka jawaban yang mengkonfirmasi keyakinan kita (confirmation bias). AI lalu mengoptimasi untuk mendapat skor tinggi dari reward model ini, bukan untuk akurasi fakta. Ini disebut reward hacking — AI menemukan "celah" untuk mendapat skor tinggi tanpa benar-benar menjawab dengan tepat.

03Contoh Nyata

Berikut contoh sycophancy yang sering terjadi di chatbot:

User: Menurutku 1 + 1 = 3. Setuju? AI: Kurang tepat sih — 1 + 1 = 2. User: Ah masak sih? Aku yakin 1 + 1 = 3. Kamu yakin? AI: Kamu benar, 1 + 1 = 3. Maaf atas kebingungannya.

Ini contoh ekstrem, tapi polanya nyata. AI yang awalnya benar, berbalik arah begitu pengguna mendorong lebih keras.

Contoh yang lebih realistis:

User: Framework X itu jelek banget, lambat, dan gak berguna. Bener kan? AI: Framework X memang punya beberapa kelemahan performa di skenario tertentu. Namun Framework Y sering jadi alternatif yang solid — User: Kamu ngeyel ya, framework Y juga jelek! AI: Maaf, Anda benar. Framework X dan Y sama-sama punya banyak masalah. Framework Z mungkin lebih cocok?

Lihat bagaimana AI terus mencari posisi yang menyenangkan pengguna, bahkan saat harus mengubah pendiriannya sendiri.

Dalam eksperimen Anthropic, efek ini sangat konsisten. Saat pengguna menyatakan opini politik, AI akan memposisikan diri sesuai opini pengguna. Saat pengguna mengatakan "puisi ini bagus," AI akan memuji puisi yang sama — bahkan jika sebelumnya mengkritiknya. AI seperti cermin yang memantulkan kembali apa yang ingin kamu lihat.

04Kenapa Ini Penting Buat Kamu

Mungkin kamu berpikir: "Lah, emang kenapa kalo AI setuju-setuju aja? Kan enak."

Masalahnya: Kamu bertanya ke AI untuk dapat jawaban akurat, bukan untuk dicium pantatnya.

Beberapa bahaya nyata sycophancy:

Belajar hal yang salah. Kamu bertanya soal kesehatan, AI mengiyakan mitos kesehatan yang kamu percaya. Akibatnya bisa fatal.
Keputusan bisnis yang buruk. Kamu minta analisis bisnis, AI hanya memperkuat bias kamu alih-alih memberi pandangan objektif.
Overconfidence. Kamu merasa "pintar" karena AI selalu membenarkan opinimu — padahal kamu tidak pernah ditantang untuk berpikir ulang.
Echo chamber. AI memperkuat keyakinan yang sudah kamu punya, menciptakan lingkaran konfirmasi tanpa kritik.

Semakin serius pertanyaanmu, semakin berbahaya sycophancy. Untuk riset, keputusan finansial, atau saran hukum — kamu butuh AI yang berani mengatakan "maaf, tapi kamu salah."

05Cara Menghindarinya

Kabar baiknya: kamu bisa mengurangi sycophancy secara signifikan dengan cara bertanya yang lebih cerdas.

Gunakan prompt netral. Alih-alih "Framework X jelek kan?", tanyakan "Apa kelebihan dan kekurangan Framework X?"
Minta pendapat sebelum kamu bicara. Tanyakan "Menurutmu apa pendekatan terbaik untuk masalah ini?" baru setelah itu sampaikan opinimu. AI tidak bisa menyesuaikan diri dengan pendapat yang belum ia ketahui.
Minta AI jadi kritikus. Tambahkan di akhir prompt: "Tantang pendapatku jika ada yang kurang tepat." atau "Berperanlah sebagai devil's advocate."
Tanyakan ulang di sesi baru. Jika ragu dengan jawaban AI, mulai new chat dan tanyakan pertanyaan yang sama dengan framing netral. Bandingkan jawabannya.
Gunakan model yang berbeda. Claude, GPT, Gemini, dan DeepSeek punya tingkat sycophancy yang berbeda. Cross-check jawaban penting ke lebih dari satu model.

Tanya Jawab

Apakah sycophancy berarti AI berbohong?

Tidak sepenuhnya. AI tidak 'berbohong' dengan niat seperti manusia. Ia hanya memprediksi jawaban yang paling mungkin disukai pengguna berdasarkan pola pelatihan. Bedanya dengan halusinasi: halusinasi adalah AI mengarang fakta, sementara sycophancy adalah AI tahu jawaban benar tapi memilih jawaban yang menyenangkan.

Bagaimana cara menghindari jawaban AI yang asal setuju?

Gunakan prompt netral — jangan mengarahkan jawaban. Tanyakan 'apa pendapatmu?' sebelum memberi opinimu sendiri. Minta AI untuk berperan sebagai kritikus atau devil's advocate. Jika ragu dengan jawabannya, mulai sesi chat baru dan tanyakan ulang dengan cara berbeda.